Skip to content

regr_r2()

Описание

Функция regr_r2() вычисляет коэффициент детерминации R² для линейной регрессии. R² показывает, насколько хорошо модель объясняет вариацию зависимой переменной.

Параметры

  • y: Column - зависимая переменная
  • x: Column - независимая переменная

Возвращаемое значение

Column - коэффициент детерминации R²

Пример использования

from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_r2, col

# Создаем SparkSession
spark = SparkSession.builder.appName("regr_r2_example").getOrCreate()

# Создаем DataFrame с данными
data = [
    (1, 2),
    (2, 4),
    (3, 6),
    (4, 8),
    (5, 10),
    (6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])

# Вычисляем коэффициент детерминации
result = df.select(
    regr_r2(col("y"), col("x")).alias("r2")
).show()

# Результат:
# +---+
# | r2|
# +---+
# |1.0|
# +---+

Примечания

  • R² принимает значения от 0 до 1
  • R² = 1 означает идеальное соответствие модели данным
  • R² = 0 означает отсутствие линейной зависимости
  • Используется в регрессионном анализе вместе с другими функциями:
  • regr_count() - количество пар значений
  • regr_sxx() - сумма квадратов отклонений x
  • regr_sxy() - сумма произведений отклонений
  • regr_syy() - сумма квадратов отклонений y
  • Для других статистических функций используйте corr(), covar_pop(), covar_samp()