regr_count()
Описание
Функция regr_count()
возвращает количество пар значений, где оба значения не NULL. Используется в регрессионном анализе.
Параметры
y
: Column - зависимая переменнаяx
: Column - независимая переменная
Возвращаемое значение
Column - количество пар значений
Пример использования
from pyspark.sql import SparkSession
from pyspark.sql.functions import regr_count, col
# Создаем SparkSession
spark = SparkSession.builder.appName("regr_count_example").getOrCreate()
# Создаем DataFrame с данными
data = [
(1, 2),
(2, 4),
(3, 6),
(None, 8),
(5, None),
(6, 12)
]
df = spark.createDataFrame(data, ["x", "y"])
# Вычисляем количество пар значений
result = df.select(
regr_count(col("y"), col("x")).alias("count")
).show()
# Результат:
# +-----+
# |count|
# +-----+
# | 4|
# +-----+
Примечания
- Функция игнорирует пары, где хотя бы одно значение NULL
- Используется в регрессионном анализе вместе с другими функциями:
regr_r2()
- коэффициент детерминацииregr_sxx()
- сумма квадратов отклонений xregr_sxy()
- сумма произведений отклоненийregr_syy()
- сумма квадратов отклонений y- Для других агрегатных функций используйте
sum()
,avg()
,count()