Skip to content

uuid()

Описание

Функция uuid() генерирует уникальный идентификатор (UUID) для каждой строки.

Параметры

Функция не принимает параметров.

Возвращаемое значение

Column - строка, содержащая UUID

Пример использования

from pyspark.sql.functions import uuid
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("uuid_example").getOrCreate()

# Создаем DataFrame
data = [
    ("John", "Doe"),
    ("Jane", "Smith"),
    ("Bob", "Johnson")
]
df = spark.createDataFrame(data, ["first_name", "last_name"])

# Генерируем UUID для каждой строки
df = df.withColumn("id", uuid())
df.show(truncate=False)

# Результат:
# +----------+---------+------------------------------------+
# |first_name|last_name|id                                  |
# +----------+---------+------------------------------------+
# |John      |Doe      |550e8400-e29b-41d4-a716-446655440000|
# |Jane      |Smith    |6ba7b810-9dad-11d1-80b4-00c04fd430c8|
# |Bob       |Johnson  |6ba7b811-9dad-11d1-80b4-00c04fd430c8|
# +----------+---------+------------------------------------+

Примечания

  • Генерирует уникальный UUID для каждой строки
  • UUID имеет формат: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
  • Полезно для:
  • Создания уникальных идентификаторов
  • Генерации первичных ключей
  • Отслеживания версий данных
  • Связанные функции:
  • monotonically_increasing_id() - генерация монотонно возрастающих идентификаторов