Title here
Summary here
collect_set(col)
collect_set
- используется для сбора уникальных значений столбца в множество (set). Она принимает один параметр - столбец, для которого нужно собрать уникальные значения.
col
: Column or str. целевой столбец или выражениеСписок объектов Column
без дубликатов.from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_set
spark = SparkSession.builder.getOrCreate()
data = [(1, "apple"),
(2, "samsung"),
(3, "apple"),
(4, "xiaomi"),
(5, "honor")]
df = spark.createDataFrame(data, ["id", "brand"])
unique_df = df.select(collect_set("brand").alias("unique_brand"))
unique_df.show(5, False)
+-------------------------------+
|unique_brand |
+-------------------------------+
|[apple, honor, samsung, xiaomi]|
+-------------------------------+
pyspark collect_set
Добавлено в версии | 1.6.0. |
Обновлено в версии | 3.4.0. |