regr_r2()
Описание
Функция regr_r2()
вычисляет коэффициент детерминации R² для линейной регрессии. R² показывает, насколько хорошо модель объясняет вариацию зависимой переменной.
Параметры
y
: Column - зависимая переменнаяx
: Column - независимая переменная
Возвращаемое значение
Column - коэффициент детерминации R²
Пример использования
from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_r2, col
# Создаем SparkSession
spark = SparkSession.builder.appName("regr_r2_example").getOrCreate()
# Создаем DataFrame с данными
data = [
(1, 2),
(2, 4),
(3, 6),
(4, 8),
(5, 10),
(6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])
# Вычисляем коэффициент детерминации
result = df.select(
regr_r2(col("y"), col("x")).alias("r2")
).show()
# Результат:
# +---+
# | r2|
# +---+
# |1.0|
# +---+
Примечания
- R² принимает значения от 0 до 1
- R² = 1 означает идеальное соответствие модели данным
- R² = 0 означает отсутствие линейной зависимости
- Используется в регрессионном анализе вместе с другими функциями:
regr_count()
- количество пар значенийregr_sxx()
- сумма квадратов отклонений xregr_sxy()
- сумма произведений отклоненийregr_syy()
- сумма квадратов отклонений y- Для других статистических функций используйте
corr()
,covar_pop()
,covar_samp()