sum_distinct

sum_distinct(col)

sum_distinct - возвращает сумму уникальных значений

Параметры: col: Column or str. целевой столбец или выржаение
Возвращает: Column столбец c вычисленной суммой уникальных знаячений

sum_distinct example

 from pyspark.sql import SparkSession
from pyspark.sql.functions import sum_distinct

spark = SparkSession.builder.getOrCreate()

data = [(1, 10),
        (2, 10),
        (3, 20),
        (4, 20),
        (5, 1)]

df = spark.createDataFrame(data, ["id", "value"])

distinct_sum = df.select(sum_distinct("value").alias("distinct_sum"))

total_sum.show()

+---------+
|total_sum|
+---------+
|       31|
+---------+

pyspark sum_distinct


Добавлено в версии	3.2.0.
Обновлено в версии	3.2.0.

sum

to_timestamp

Docs

Pyspark

Title here

sum_distinct

sum_distinct example

sum_distinct

sum_distinct example#

sum_distinct example