Какво е RDD в Scala?
Какво е RDD в Scala?

Видео: Какво е RDD в Scala?

Видео: Какво е RDD в Scala?
Видео: RDD in Spark 2024, Може
Anonim

Устойчиви разпределени набори от данни ( RDD ) е основна структура от данни на Spark. Това е неизменна разпределена колекция от обекти. RDD може да съдържа всякакъв тип Python, Java или Скала обекти, включително дефинирани от потребителя класове. Формално, ан RDD е само за четене, разделена колекция от записи.

Също така въпросът е каква е разликата между RDD и DataFrame?

RDD – RDD е разпределена колекция от елементи от данни, разпределени в много машини в клъстер. RDD са набор от Java или Scala обекти, представляващи данни. DataFrame – А DataFrame е разпределена колекция от данни, организирани в именувани колони. Концептуално е равно на таблица в релационна база данни.

Освен това, как се разпределя RDD? Издръжлив Разпределени Набори от данни ( RDD ) Те са а разпределени колекция от обекти, които се съхраняват в паметта или на дискове на различни машини от клъстер. Сингъл RDD могат да бъдат разделени на множество логически дялове, така че тези дялове да могат да се съхраняват и обработват на различни машини на клъстер.

как работи Spark RDD?

RDD в Искра имат колекция от записи, които съдържат дялове. RDD в Искра са разделени на малки логически парчета данни - известни като дялове, когато се изпълни действие, задача ще бъде стартирана на дял. Прегради в RDD са основните единици на паралелизма.

Кое е по-бързо RDD или DataFrame?

RDD - При извършване на прости операции за групиране и агрегиране RDD API е по-бавен. DataFrame - При извършване на проучвателен анализ, създаване на обобщени статистически данни за данните, рамки с данни са по-бързо . RDD - Когато искате трансформация и действия на ниско ниво, ние използваме RDD . Също така, когато имаме нужда от абстракции от високо ниво, ние използваме RDD.

Препоръчано: