regr_avgy(y, x)
Описание
Функция regr_avgy() вычисляет среднее значение зависимой переменной (y) для пары числовых столбцов. Это агрегатная функция, которая должна использоваться с groupBy().
Параметры
y: Column - зависимая переменная (ордината)x: Column - независимая переменная (абсцисса)
Возвращаемое значение
Double - среднее значение зависимой переменной
Пример использования
from pyspark.sql.functions import regr_avgy
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("regr_avgy_example").getOrCreate()
# Создаем DataFrame
data = [
    ("A", 1, 2),
    ("A", 2, 4),
    ("A", 3, 6),
    ("B", 1, 3),
    ("B", 2, 5),
    ("B", 3, 7)
]
df = spark.createDataFrame(data, ["group", "x", "y"])
# Вычисляем среднее значение y для каждой группы
result = df.groupBy("group").agg(
    regr_avgy("y", "x").alias("avg_y")
).show()
# Результат:
# +-----+-----+
# |group|avg_y|
# +-----+-----+
# |A    |4.0  |
# |B    |5.0  |
# +-----+-----+
 Примечания
- NULL значения в любом из столбцов игнорируются
 - Для вычисления среднего значения независимой переменной используйте 
regr_avgx() - Для вычисления наклона линии регрессии используйте 
regr_slope() - Для вычисления точки пересечения линии регрессии используйте 
regr_intercept()