regr_syy()

Описание

Функция regr_syy() вычисляет сумму квадратов отклонений зависимой переменной от её среднего значения. Используется в регрессионном анализе для оценки дисперсии зависимой переменной.

Параметры

y: Column - зависимая переменная
x: Column - независимая переменная

Возвращаемое значение

Column - сумма квадратов отклонений y

Пример использования

from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_syy, col

# Создаем SparkSession
spark = SparkSession.builder.appName("regr_syy_example").getOrCreate()

# Создаем DataFrame с данными
data = [
    (1, 2),
    (2, 4),
    (3, 6),
    (4, 8),
    (5, 10),
    (6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])

# Вычисляем сумму квадратов отклонений
result = df.select(
    regr_syy(col("y"), col("x")).alias("syy")
).show()

# Результат:
# +-----+
# |  syy|
# +-----+
# |70.0|
# +-----+

Примечания

Функция вычисляет Σ(y - ȳ)², где ȳ - среднее значение y
Используется в регрессионном анализе вместе с другими функциями:
regr_count() - количество пар значений
regr_r2() - коэффициент детерминации
regr_sxx() - сумма квадратов отклонений x
regr_sxy() - сумма произведений отклонений
Для других статистических функций используйте var_pop(), var_samp(), stddev_pop()