Skip to content

regr_count()

Описание

Функция regr_count() возвращает количество пар значений, где оба значения не NULL. Используется в регрессионном анализе.

Параметры

  • y: Column - зависимая переменная
  • x: Column - независимая переменная

Возвращаемое значение

Column - количество пар значений

Пример использования

from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_count, col

# Создаем SparkSession
spark = SparkSession.builder.appName("regr_count_example").getOrCreate()

# Создаем DataFrame с данными
data = [
    (1, 2),
    (2, 4),
    (3, 6),
    (None, 8),
    (5, None),
    (6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])

# Вычисляем количество пар значений
result = df.select(
    regr_count(col("y"), col("x")).alias("count")
).show()

# Результат:
# +-----+
# |count|
# +-----+
# |    4|
# +-----+

Примечания

  • Функция игнорирует пары, где хотя бы одно значение NULL
  • Используется в регрессионном анализе вместе с другими функциями:
  • regr_r2() - коэффициент детерминации
  • regr_sxx() - сумма квадратов отклонений x
  • regr_sxy() - сумма произведений отклонений
  • regr_syy() - сумма квадратов отклонений y
  • Для других агрегатных функций используйте sum(), avg(), count()