Title here
Summary here
collect_list(col)
collect_list
- используется для преобразование значений столбца в список.
col
: Column or str. целевой столбец или выражениеColumn
список со всеми значениями.from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_list
spark = SparkSession.builder.getOrCreate()
data = [(1, "apple"),
(2, "samsung"),
(3, "apple"),
(4, "xiaomi"),
(5, "honor"),
(6, None)
]
df = spark.createDataFrame(data, ["id", "brand"])
list_df= df.select(collect_list("brand").alias("collect_list"))
list_df.show(5, False)
+--------------------------------------+
|collect_list |
+--------------------------------------+
|[apple, samsung, apple, xiaomi, honor]|
+--------------------------------------+
pyspark collect_list
Добавлено в версии | 1.6.0. |
Обновлено в версии | 3.4.0. |