Skip to content

hll_sketch_estimate(sketch)

Описание

Функция hll_sketch_estimate() оценивает количество уникальных элементов в HyperLogLog эскизе.

Параметры

  • sketch: Column - столбец с HLL эскизом

Возвращаемое значение

Long - оценка количества уникальных элементов

Пример использования

from pyspark.sql.functions import hll_sketch_estimate, hll_sketch_agg
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("hll_sketch_estimate_example").getOrCreate()

# Создаем DataFrame с данными
data = [(1,), (1,), (2,), (2,), (3,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["number"])

# Создаем HLL эскиз и оцениваем количество уникальных элементов
result = df.select(
    hll_sketch_estimate(hll_sketch_agg("number")).alias("unique_count")
).show()

# Результат:
# +-------------+
# |unique_count|
# +-------------+
# |5           |
# +-------------+

Примечания

  • NULL значения в эскизе возвращают NULL
  • HLL эскизы используются для приближенного подсчета уникальных элементов
  • Для объединения эскизов используйте hll_union()
  • Точность оценки зависит от размера эскиза