uuid()
Описание
Функция uuid()
генерирует уникальный идентификатор (UUID) для каждой строки.
Параметры
Функция не принимает параметров.
Возвращаемое значение
Column - строка, содержащая UUID
Пример использования
from pyspark.sql.functions import uuid
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("uuid_example").getOrCreate()
# Создаем DataFrame
data = [
("John", "Doe"),
("Jane", "Smith"),
("Bob", "Johnson")
]
df = spark.createDataFrame(data, ["first_name", "last_name"])
# Генерируем UUID для каждой строки
df = df.withColumn("id", uuid())
df.show(truncate=False)
# Результат:
# +----------+---------+------------------------------------+
# |first_name|last_name|id |
# +----------+---------+------------------------------------+
# |John |Doe |550e8400-e29b-41d4-a716-446655440000|
# |Jane |Smith |6ba7b810-9dad-11d1-80b4-00c04fd430c8|
# |Bob |Johnson |6ba7b811-9dad-11d1-80b4-00c04fd430c8|
# +----------+---------+------------------------------------+
Примечания
- Генерирует уникальный UUID для каждой строки
- UUID имеет формат: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
- Полезно для:
- Создания уникальных идентификаторов
- Генерации первичных ключей
- Отслеживания версий данных
- Связанные функции:
monotonically_increasing_id()
- генерация монотонно возрастающих идентификаторов