Какъв е проблемът с малките файлове в Hadoop?
Какъв е проблемът с малките файлове в Hadoop?

Видео: Какъв е проблемът с малките файлове в Hadoop?

Видео: Какъв е проблемът с малките файлове в Hadoop?
Видео: Введение в веб-сервисы Amazon, Лев Жадановский 2024, Може
Anonim

1) Проблем с малък файл в HDFS : Съхранение на много малки файлове които са изключително по-малък отколкото размерът на блока не може да бъде ефективно обработен HDFS . Четене докрай малки файлове включва много търсения и много прескачане между възел на данни до възел на данни, което от своя страна е неефективна обработка на данни.

Освен това, кои файлове се занимават с проблеми с малки файлове в Hadoop?

1) HAR ( Hadoop Архив) Файлове е въведено в справяне с проблем с малък файл . HAR въведе слой отгоре HDFS , които предоставят интерфейс за файл достъп. Използвайки Hadoop команда за архивиране, HAR файлове са създадени, които изпълняват a MapReduce работа да опаковам файлове се архивира в по-малък брой HDFS файлове.

Освен това, мога ли да имам няколко файла в HDFS да използват различни размери на блокове? По подразбиране размер на блок е 64 MB. Вие мога променете го в зависимост от вашите изисквания. Стигайки до въпроса ти, да ти може да създаде множество файлове чрез вариране размери на блокове но това в реално време ще не благоприятстват производството.

Освен това, защо HDFS не обработва оптимално малки файлове?

Проблеми с малки файлове и HDFS Всеки файл , директория и блок HDFS е представен като обект в паметта на възела на име, всеки от които заема 150 байта, като правило. Освен това, HDFS не е насочени към ефективен достъп малки файлове : то е предназначен предимно за стрийминг достъп на големи файлове.

Защо Hadoop е бавен?

Бавен Скорост на обработка Този диск търси отнема време, като по този начин прави целия процес много бавен . Ако Hadoop обработва данни в малък обем, това е много бавен сравнително. Той е идеален за големи набори от данни. Като Hadoop има двигател за пакетна обработка в ядрото, неговата скорост за обработка в реално време е по-малка.

Препоръчано: