sha2(col, numBits)
Описание
Функция sha2()
вычисляет SHA-2 хеш-сумму для значения в указанном столбце с заданной длиной бит.
Параметры
col
: Column - столбец, для которого нужно вычислить SHA-2 хешnumBits
: Integer - длина хеша в битах (поддерживаются значения 224, 256, 384, 512)
Возвращаемое значение
String - шестнадцатеричная строка, представляющая SHA-2 хеш (длина зависит от numBits)
Пример использования
from pyspark.sql.functions import sha2
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("sha2_example").getOrCreate()
# Создаем DataFrame
data = [
("Hello, World!"),
("Spark is awesome"),
("PySpark")
]
df = spark.createDataFrame(data, ["text"])
# Вычисляем SHA-256 хеши
result = df.select(
"text",
sha2("text", 256).alias("sha256_hash")
).show()
# Результат:
# +---------------+------------------------------------------------------------------+
# |text |sha256_hash |
# +---------------+------------------------------------------------------------------+
# |Hello, World! |dffd6021bb2bd5b0af676290809ec3a53191dd81c7f21a47f1c63a2b6c8b3b8b8|
# |Spark is awesome|a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6q7r8s9t0u1v2w3x4y5z6a7b8c9d0e1f2|
# |PySpark |9f8e7d6c5b4a3z2y1x0w9v8u7t6s5r4q3p2o1n9m8l7k6j5i4h3g2f1e0d9c8b7a|
# +---------------+------------------------------------------------------------------+
Примечания
- Для вычисления MD5 хеша используйте
md5()
- Для вычисления SHA-1 хеша используйте
sha1()
- Для вычисления CRC32 используйте
crc32()
- Для вычисления общего хеша используйте
hash()
- Для вычисления xxHash64 используйте
xxhash64()