sum_distinct

sum_distinct(col)

sum_distinct - возвращает сумму уникальных значений

Параметры
col: Column or str. целевой столбец или выржаение
Возвращает
Column столбец c вычисленной суммой уникальных знаячений

sum_distinct example

 from pyspark.sql import SparkSession
from pyspark.sql.functions import sum_distinct

spark = SparkSession.builder.getOrCreate()

data = [(1, 10),
        (2, 10),
        (3, 20),
        (4, 20),
        (5, 1)]

df = spark.createDataFrame(data, ["id", "value"])

distinct_sum = df.select(sum_distinct("value").alias("distinct_sum"))

total_sum.show()

+---------+
|total_sum|
+---------+
|       31|
+---------+

pyspark sum_distinct

Добавлено в версии3.2.0.
Обновлено в версии3.2.0.