hll_sketch_estimate(sketch)
Описание
Функция hll_sketch_estimate()
оценивает количество уникальных элементов в HyperLogLog эскизе.
Параметры
sketch
: Column - столбец с HLL эскизом
Возвращаемое значение
Long - оценка количества уникальных элементов
Пример использования
from pyspark.sql.functions import hll_sketch_estimate, hll_sketch_agg
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("hll_sketch_estimate_example").getOrCreate()
# Создаем DataFrame с данными
data = [(1,), (1,), (2,), (2,), (3,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["number"])
# Создаем HLL эскиз и оцениваем количество уникальных элементов
result = df.select(
hll_sketch_estimate(hll_sketch_agg("number")).alias("unique_count")
).show()
# Результат:
# +-------------+
# |unique_count|
# +-------------+
# |5 |
# +-------------+
Примечания
- NULL значения в эскизе возвращают NULL
- HLL эскизы используются для приближенного подсчета уникальных элементов
- Для объединения эскизов используйте
hll_union()
- Точность оценки зависит от размера эскиза