kurtosis(col)
Описание
Функция kurtosis()
вычисляет эксцесс (коэффициент островершинности) для числового столбца. Эксцесс показывает, насколько "тяжелыми" являются хвосты распределения по сравнению с нормальным распределением.
Параметры
col
: Column - числовой столбец для вычисления эксцесса
Возвращаемое значение
Double - значение эксцесса
Пример использования
from pyspark.sql.functions import kurtosis
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("kurtosis_example").getOrCreate()
# Создаем DataFrame
data = [
("A", 1),
("A", 2),
("A", 3),
("B", 1),
("B", 1),
("B", 1),
("B", 5)
]
df = spark.createDataFrame(data, ["group", "value"])
# Вычисляем эксцесс
result = df.groupBy("group").agg(
kurtosis("value").alias("kurtosis")
).show()
# Результат:
# +-----+--------+
# |group|kurtosis|
# +-----+--------+
# |A |-1.5 |
# |B |2.0 |
# +-----+--------+
Примечания
- Эксцесс нормального распределения равен 0
- Положительный эксцесс указывает на более "тяжелые" хвосты, чем у нормального распределения
- Отрицательный эксцесс указывает на более "легкие" хвосты, чем у нормального распределения
- Для вычисления асимметрии используйте
skewness()
- Для вычисления среднего значения используйте
avg()