bit_length(col)
Описание
Функция bit_length()
вычисляет длину битов для указанного строкового столбца. Возвращает количество битов, необходимых для хранения строки.
Параметры
col
: string или Column - имя столбца или объект Column, содержащий строковые значения
Возвращаемое значение
Integer - количество битов, необходимых для хранения строки
Пример использования
from pyspark.sql.functions import bit_length
# Создаем DataFrame
df = spark.createDataFrame([
("A",),
("AB",),
("ABC",),
("Hello",)
], ["text"])
# Вычисляем длину в битах
df.select(
"text",
bit_length("text").alias("bit_length")
).show()
# Результат:
# +-----+----------+
# | text|bit_length|
# +-----+----------+
# | A| 8| # 1 символ * 8 бит
# | AB| 16| # 2 символа * 8 бит
# | ABC| 24| # 3 символа * 8 бит
# |Hello| 40| # 5 символов * 8 бит
# +-----+----------+
Примечания
- Каждый символ в UTF-8 занимает 8 бит
- Для пустой строки возвращает 0
- Для NULL значений возвращает NULL
- Функция полезна для оценки размера данных в битах