collect_set

collect_set(col)

collect_set - используется для сбора уникальных значений столбца в множество (set). Она принимает один параметр - столбец, для которого нужно собрать уникальные значения.

Параметры
col: Column or str. целевой столбец или выражение
Возвращает
Список объектов Column без дубликатов.

collect_set example

from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_set

spark = SparkSession.builder.getOrCreate()

data = [(1, "apple"),
        (2, "samsung"),
        (3, "apple"),
        (4, "xiaomi"),
        (5, "honor")]

df = spark.createDataFrame(data, ["id", "brand"])

unique_df = df.select(collect_set("brand").alias("unique_brand"))

unique_df.show(5, False)

+-------------------------------+
|unique_brand                   |
+-------------------------------+
|[apple, honor, samsung, xiaomi]|
+-------------------------------+

pyspark collect_set

Добавлено в версии1.6.0.
Обновлено в версии3.4.0.