Съдържание:

Как мога да подобря представянето си на sqoop?
Как мога да подобря представянето си на sqoop?

Видео: Как мога да подобря представянето си на sqoop?

Видео: Как мога да подобря представянето си на sqoop?
Видео: СИ МИНОР: КАК РАБОТАТЬ В ГАММЕ? Сольфеджио 2 класс. Ступени, опевание, устойчивые интервалы 2024, Ноември
Anonim

За оптимизиране производителност , комплект на брой задачи за картографиране до стойност, по-ниска от на максимален брой връзки, които на поддържа база данни. Контролиране на количеството паралелизъм, което Sqoop ще използва за прехвърляне на данни е на основен начин за контрол на натоварване на Вашият база данни.

Съответно, какво се случва, ако sqoop се провали между процесите?

Типичен Sqoop заданието, което поглъща данни от изходна база данни в HDFS, ще копира данните в целева директория. Копираният файл ще бъде изтрит ако sqoop се провали без завършване.

Човек може също да попита, как се постига паралелизъм в sqoop? Контролиране Паралелизъм . Sqoop импортира паралелно данни от повечето източници на бази данни. Можете да посочите броя на задачите за картографиране (паралелни процеси), които да използвате за извършване на импортирането, като използвате аргумента -m или --num-mappers. Всеки от тези аргументи приема цяло число, което съответства на степента на паралелизъм да наема

Следователно, как да подобря ефективността на заявката си в Hive?

По-долу е даден списъкът с практики, които можем да следваме, за да оптимизираме Hive Queries

  1. Активирайте компресията в Hive.
  2. Оптимизирайте присъединяванията.
  3. Избягвайте глобалното сортиране в кошера.
  4. Активирайте Tez Execution Engine.
  5. Оптимизирайте LIMIT оператор.
  6. Активиране на паралелно изпълнение.
  7. Активирайте стриктния режим на Mapreduce.
  8. Еднократно намаление за няколко групи BY.

Как работи sqoop split?

Може да се използва за подобряване на производителността на импортиране чрез постигане на по-голям паралелизъм. Sqoop създава разделя въз основа на стойности в определена колона на таблицата, която е определена от -- разделят -от потребителя чрез командата импортиране. Ако не е наличен, първичният ключ на входната таблица се използва за създаване на разделя.

Препоръчано: