crc32(col)
Описание
Функция crc32()
вычисляет CRC32 (Cyclic Redundancy Check) для входных данных.
Параметры
col
: Column - столбец с данными для хеширования
Возвращаемое значение
Long - CRC32 значение
Пример использования
from pyspark.sql.functions import crc32
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("crc32_example").getOrCreate()
# Создаем DataFrame с данными
data = [("Hello",), ("World",), ("Spark",)]
df = spark.createDataFrame(data, ["text"])
# Вычисляем CRC32
result = df.select(
"text",
crc32("text").alias("crc32_value")
).show()
# Результат:
# +-----+-----------+
# |text |crc32_value|
# +-----+-----------+
# |Hello|4157704578|
# |World|4224764766|
# |Spark| -83760860|
# +-----+-----------+
Примечания
- NULL значения возвращают NULL
- CRC32 используется для проверки целостности данных
- Для других алгоритмов хеширования используйте:
sha()
для SHA-1sha2()
для SHA-2md5()
для MD5hash()
для общего хешированияxxhash64()
для xxHash64