Skip to content

crc32(col)

Описание

Функция crc32() вычисляет CRC32 (Cyclic Redundancy Check) для входных данных.

Параметры

  • col: Column - столбец с данными для хеширования

Возвращаемое значение

Long - CRC32 значение

Пример использования

from pyspark.sql.functions import crc32
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("crc32_example").getOrCreate()

# Создаем DataFrame с данными
data = [("Hello",), ("World",), ("Spark",)]
df = spark.createDataFrame(data, ["text"])

# Вычисляем CRC32
result = df.select(
    "text",
    crc32("text").alias("crc32_value")
).show()

# Результат:
# +-----+-----------+
# |text |crc32_value|
# +-----+-----------+
# |Hello|4157704578|
# |World|4224764766|
# |Spark|  -83760860|
# +-----+-----------+

Примечания

  • NULL значения возвращают NULL
  • CRC32 используется для проверки целостности данных
  • Для других алгоритмов хеширования используйте:
  • sha() для SHA-1
  • sha2() для SHA-2
  • md5() для MD5
  • hash() для общего хеширования
  • xxhash64() для xxHash64