Skip to content

sha2(col, numBits)

Описание

Функция sha2() вычисляет SHA-2 хеш-сумму для значения в указанном столбце с заданной длиной бит.

Параметры

  • col: Column - столбец, для которого нужно вычислить SHA-2 хеш
  • numBits: Integer - длина хеша в битах (поддерживаются значения 224, 256, 384, 512)

Возвращаемое значение

String - шестнадцатеричная строка, представляющая SHA-2 хеш (длина зависит от numBits)

Пример использования

from pyspark.sql.functions import sha2
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("sha2_example").getOrCreate()

# Создаем DataFrame
data = [
    ("Hello, World!"),
    ("Spark is awesome"),
    ("PySpark")
]
df = spark.createDataFrame(data, ["text"])

# Вычисляем SHA-256 хеши
result = df.select(
    "text",
    sha2("text", 256).alias("sha256_hash")
).show()

# Результат:
# +---------------+------------------------------------------------------------------+
# |text           |sha256_hash                                                       |
# +---------------+------------------------------------------------------------------+
# |Hello, World!  |dffd6021bb2bd5b0af676290809ec3a53191dd81c7f21a47f1c63a2b6c8b3b8b8|
# |Spark is awesome|a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6q7r8s9t0u1v2w3x4y5z6a7b8c9d0e1f2|
# |PySpark        |9f8e7d6c5b4a3z2y1x0w9v8u7t6s5r4q3p2o1n9m8l7k6j5i4h3g2f1e0d9c8b7a|
# +---------------+------------------------------------------------------------------+

Примечания

  • Для вычисления MD5 хеша используйте md5()
  • Для вычисления SHA-1 хеша используйте sha1()
  • Для вычисления CRC32 используйте crc32()
  • Для вычисления общего хеша используйте hash()
  • Для вычисления xxHash64 используйте xxhash64()