Title here
Summary here
sum_distinct(col)
sum_distinct
- возвращает сумму уникальных значений
col
: Column or str. целевой столбец или выржаениеColumn
столбец c вычисленной суммой уникальных знаячений from pyspark.sql import SparkSession
from pyspark.sql.functions import sum_distinct
spark = SparkSession.builder.getOrCreate()
data = [(1, 10),
(2, 10),
(3, 20),
(4, 20),
(5, 1)]
df = spark.createDataFrame(data, ["id", "value"])
distinct_sum = df.select(sum_distinct("value").alias("distinct_sum"))
total_sum.show()
+---------+
|total_sum|
+---------+
| 31|
+---------+
pyspark sum_distinct
Добавлено в версии | 3.2.0. |
Обновлено в версии | 3.2.0. |