Съдържание:

Какви са различните файлови формати в Hadoop?
Какви са различните файлови формати в Hadoop?

Видео: Какви са различните файлови формати в Hadoop?

Видео: Какви са различните файлови формати в Hadoop?
Видео: Григорий Кошелев — Когда всё пошло по Кафке 2024, Декември
Anonim

За ваш късмет, общността за големи данни основно се е спряла на три оптимизирани файлови формати за използване в Hadoop клъстери: Оптимизирани колонни редове (ORC), Avro и Паркет.

Впоследствие може да се запитаме какви са различните видове формати на данни?

Има три видове данни картографиране и ГИС формати на данни . Всеки Тип се обработва по различен начин.

Типове формат на данни

  • Базирани на файлове – Shapefiles, Microstation Design Files (DGN), GeoTIFF изображения.
  • Базирано на директория - ESRI ArcInfo Coverages, US Census TIGER.
  • Връзки с база данни - PostGIS, ESRI ArcSDE, MySQL.

Освен това, кой файлов формат е най-добрият в кошера? RCFile е колонен ред файлов формат . Това е друга форма на Hive файлов формат който предлага високи нива на компресия на редове. Ако имате изискване да изпълнявате няколко реда едновременно, тогава можете да използвате RCFile формат.

Като се има предвид това, кои са често срещаните формати за въвеждане в Hadoop?

InputFormat създава Inputsplit

  • Най-често срещаните InputFormat са:
  • FileInputFormat- Това е основният клас за всички файлови InputFormat.
  • TextInputFormat- Това е входният формат по подразбиране на MapReduce.
  • KeyValueTextInputFormat- Той е подобен на TextInputFormat.
  • Следвайте връзката, за да научите повече за InputFormat в Hadoop.

Какво представлява файловият формат на orc в Hadoop?

ORC файлов формат Оптимизираната колонна колона ( ORC ) файлов формат осигурява високоефективен начин за съхраняване на Hive данни. Той е проектиран да преодолее ограниченията на другия кошер файлови формати . Използвайки ORC файлове подобрява производителността, когато Hive чете, пише и обработва данни.

Препоръчано: