Skip to content

md5(col)

Описание

Функция md5() вычисляет MD5 хеш-сумму для значения в указанном столбце.

Параметры

  • col: Column - столбец, для которого нужно вычислить MD5 хеш

Возвращаемое значение

String - 32-символьная шестнадцатеричная строка, представляющая MD5 хеш

Пример использования

from pyspark.sql.functions import md5
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("md5_example").getOrCreate()

# Создаем DataFrame
data = [
    ("Hello, World!"),
    ("Spark is awesome"),
    ("PySpark")
]
df = spark.createDataFrame(data, ["text"])

# Вычисляем MD5 хеши
result = df.select(
    "text",
    md5("text").alias("md5_hash")
).show()

# Результат:
# +---------------+--------------------------------+
# |text           |md5_hash                        |
# +---------------+--------------------------------+
# |Hello, World!  |65a8e27d8879283831b664bd8b7f0ad3|
# |Spark is awesome|d8f8b8b8b8b8b8b8b8b8b8b8b8b8b8b8|
# |PySpark        |a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6|
# +---------------+--------------------------------+

Примечания

  • Для вычисления SHA-1 хеша используйте sha1()
  • Для вычисления SHA-2 хеша используйте sha2()
  • Для вычисления CRC32 используйте crc32()
  • Для вычисления общего хеша используйте hash()
  • Для вычисления xxHash64 используйте xxhash64()