md5(col)
Описание
Функция md5()
вычисляет MD5 хеш-сумму для значения в указанном столбце.
Параметры
col
: Column - столбец, для которого нужно вычислить MD5 хеш
Возвращаемое значение
String - 32-символьная шестнадцатеричная строка, представляющая MD5 хеш
Пример использования
from pyspark.sql.functions import md5
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("md5_example").getOrCreate()
# Создаем DataFrame
data = [
("Hello, World!"),
("Spark is awesome"),
("PySpark")
]
df = spark.createDataFrame(data, ["text"])
# Вычисляем MD5 хеши
result = df.select(
"text",
md5("text").alias("md5_hash")
).show()
# Результат:
# +---------------+--------------------------------+
# |text |md5_hash |
# +---------------+--------------------------------+
# |Hello, World! |65a8e27d8879283831b664bd8b7f0ad3|
# |Spark is awesome|d8f8b8b8b8b8b8b8b8b8b8b8b8b8b8b8|
# |PySpark |a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6|
# +---------------+--------------------------------+
Примечания
- Для вычисления SHA-1 хеша используйте
sha1()
- Для вычисления SHA-2 хеша используйте
sha2()
- Для вычисления CRC32 используйте
crc32()
- Для вычисления общего хеша используйте
hash()
- Для вычисления xxHash64 используйте
xxhash64()