regr_syy()
Описание
Функция regr_syy()
вычисляет сумму квадратов отклонений зависимой переменной от её среднего значения. Используется в регрессионном анализе для оценки дисперсии зависимой переменной.
Параметры
y
: Column - зависимая переменнаяx
: Column - независимая переменная
Возвращаемое значение
Column - сумма квадратов отклонений y
Пример использования
from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_syy, col
# Создаем SparkSession
spark = SparkSession.builder.appName("regr_syy_example").getOrCreate()
# Создаем DataFrame с данными
data = [
(1, 2),
(2, 4),
(3, 6),
(4, 8),
(5, 10),
(6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])
# Вычисляем сумму квадратов отклонений
result = df.select(
regr_syy(col("y"), col("x")).alias("syy")
).show()
# Результат:
# +-----+
# | syy|
# +-----+
# |70.0|
# +-----+
Примечания
- Функция вычисляет Σ(y - ȳ)², где ȳ - среднее значение y
- Используется в регрессионном анализе вместе с другими функциями:
regr_count()
- количество пар значенийregr_r2()
- коэффициент детерминацииregr_sxx()
- сумма квадратов отклонений xregr_sxy()
- сумма произведений отклонений- Для других статистических функций используйте
var_pop()
,var_samp()
,stddev_pop()