collect_list

collect_list(col)

collect_list - используется для преобразование значений столбца в список.

Параметры
col: Column or str. целевой столбец или выражение
Возвращает
Column список со всеми значениями.

collect_list example

from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_list

spark = SparkSession.builder.getOrCreate()

data = [(1, "apple"),
        (2, "samsung"),
        (3, "apple"),
        (4, "xiaomi"),
        (5, "honor"),
        (6, None)    
        ]

df = spark.createDataFrame(data, ["id", "brand"])

list_df= df.select(collect_list("brand").alias("collect_list"))

list_df.show(5, False)

+--------------------------------------+
|collect_list                          |
+--------------------------------------+
|[apple, samsung, apple, xiaomi, honor]|
+--------------------------------------+

pyspark collect_list

Добавлено в версии1.6.0.
Обновлено в версии3.4.0.