skewness(col)

Описание

Функция skewness() вычисляет асимметрию (коэффициент асимметрии) для числового столбца. Асимметрия показывает, насколько распределение отклоняется от симметричного.

Параметры

col: Column - числовой столбец для вычисления асимметрии

Возвращаемое значение

Double - значение асимметрии

Пример использования

from pyspark.sql.functions import skewness
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("skewness_example").getOrCreate()

# Создаем DataFrame
data = [
    ("A", 1),
    ("A", 2),
    ("A", 3),
    ("B", 1),
    ("B", 1),
    ("B", 1),
    ("B", 5)
]
df = spark.createDataFrame(data, ["group", "value"])

# Вычисляем асимметрию
result = df.groupBy("group").agg(
    skewness("value").alias("skewness")
).show()

# Результат:
# +-----+---------+
# |group|skewness |
# +-----+---------+
# |A    |0.0      |
# |B    |1.5      |
# +-----+---------+

Примечания

Асимметрия нормального распределения равна 0
Положительная асимметрия указывает на то, что хвост распределения длиннее справа
Отрицательная асимметрия указывает на то, что хвост распределения длиннее слева
Для вычисления эксцесса используйте kurtosis()
Для вычисления среднего значения используйте avg()