Съдържание:

Как да направя PySpark DataFrame от списък?
Как да направя PySpark DataFrame от списък?

Видео: Как да направя PySpark DataFrame от списък?

Видео: Как да направя PySpark DataFrame от списък?
Видео: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Може
Anonim

Следвам тези стъпки за създаване на DataFrame от списък с кортежи:

  1. Създайте а списък на кортежи. Всеки кортеж съдържа име на човек с възраст.
  2. Създайте RDD от списък по-горе.
  3. Преобразувайте всеки кортеж на ред.
  4. Създайте а DataFrame чрез прилагане на createDataFrame върху RDD с помощта на sqlContext.

Имайки предвид това, как да конвертирате DataFrame в списък в Python?

  1. Стъпка 1: Преобразувайте Dataframe във вложен масив Numpy с помощта на DataFrame.to_numpy(), т.е.
  2. Стъпка 2: Преобразувайте 2D Numpy масив в списък със списъци.
  3. Стъпка 1: Транспонирайте рамката с данни, за да конвертирате редове като колони и колони като редове.
  4. Стъпка 2: Преобразувайте Dataframe във вложен масив Numpy с помощта на DataFrame.to_numpy()

Освен това, какво е spark DataFrame? А Spark DataFrame е разпределена колекция от данни, организирана в наименувани колони, която предоставя операции за филтриране, групиране или изчисляване на агрегати и може да се използва с Искра SQL. DataFrames могат да бъдат изградени от структурирани файлове с данни, съществуващи RDD, таблици в Hive или външни бази данни.

Знайте също, какво е PySpark SQL?

Spark SQL е Искра модул за структурирана обработка на данни. Той предоставя програмна абстракция, наречена DataFrames, и може също да действа като разпределен SQL машина за заявки. Той позволява на немодифицираните заявки на Hadoop Hive да се изпълняват до 100 пъти по-бързо при съществуващи разгръщания и данни.

Неизменни ли са spark DataFrames?

В Искра не можеш - DataFrames са неизменна . Трябва да използвате.

Препоръчано: