randn(seed=None)

Описание

Функция randn() генерирует случайное число с нормальным распределением (среднее = 0, стандартное отклонение = 1).

Параметры

seed: Long - начальное значение для генератора случайных чисел (опционально)

Возвращаемое значение

Double - случайное число с нормальным распределением

Пример использования

from pyspark.sql.functions import randn
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("randn_example").getOrCreate()

# Создаем DataFrame
data = [("A",), ("B",), ("C",)]
df = spark.createDataFrame(data, ["id"])

# Генерируем случайные числа
result = df.select(
    "id",
    randn().alias("random1"),
    randn(42).alias("random2")
).show()

# Результат:
# +---+-------------------+-------------------+
# |id |random1            |random2            |
# +---+-------------------+-------------------+
# |A  |-0.2341533747233357|1.5792128155073915 |
# |B  |0.5425600425855925 |-0.4976480227539201|
# |C  |-1.9132802446544876|1.6514361958300326 |
# +---+-------------------+-------------------+

Примечания

При одинаковом начальном значении (seed) функция будет генерировать одинаковую последовательность случайных чисел
Для генерации случайных чисел с равномерным распределением используйте rand()
Для округления чисел используйте round()
Для вычисления стандартного отклонения используйте stddev()