regr_count()

Описание

Функция regr_count() возвращает количество пар значений, где оба значения не NULL. Используется в регрессионном анализе.

Параметры

y: Column - зависимая переменная
x: Column - независимая переменная

Возвращаемое значение

Column - количество пар значений

Пример использования

from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_count, col

# Создаем SparkSession
spark = SparkSession.builder.appName("regr_count_example").getOrCreate()

# Создаем DataFrame с данными
data = [
    (1, 2),
    (2, 4),
    (3, 6),
    (None, 8),
    (5, None),
    (6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])

# Вычисляем количество пар значений
result = df.select(
    regr_count(col("y"), col("x")).alias("count")
).show()

# Результат:
# +-----+
# |count|
# +-----+
# |    4|
# +-----+

Примечания

Функция игнорирует пары, где хотя бы одно значение NULL
Используется в регрессионном анализе вместе с другими функциями:
regr_r2() - коэффициент детерминации
regr_sxx() - сумма квадратов отклонений x
regr_sxy() - сумма произведений отклонений
regr_syy() - сумма квадратов отклонений y
Для других агрегатных функций используйте sum(), avg(), count()