sha(col)

Описание

Функция sha() вычисляет SHA-1 хеш для входных данных.

Параметры

col: Column - столбец с данными для хеширования

Возвращаемое значение

String - SHA-1 хеш в виде шестнадцатеричной строки

Пример использования

from pyspark.sql.functions import sha
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("sha_example").getOrCreate()

# Создаем DataFrame с данными
data = [("Hello",), ("World",), ("Spark",)]
df = spark.createDataFrame(data, ["text"])

# Вычисляем SHA-1 хеш
result = df.select(
    "text",
    sha("text").alias("sha_hash")
).show(truncate=False)

# Результат:
# +-----+------------------------------------------+
# |text |sha_hash                                  |
# +-----+------------------------------------------+
# |Hello|f7ff9e8b7bb2e09b70935a5d785e0cc5d9d0abf0|
# |World|486ea46224d1bb4fb680f34f7c9ad96a8f24ec88|
# |Spark|8c6976e5b5410415bde908bd4dee15dfb167a9c88|
# +-----+------------------------------------------+

Примечания

NULL значения возвращают NULL
Для других алгоритмов хеширования используйте:
sha1() для SHA-1 (альтернативный синтаксис)
sha2() для SHA-2 с различной длиной
md5() для MD5
crc32() для CRC32
hash() для общего хеширования
xxhash64() для xxHash64