Skip to content

bit_length(col)

Описание

Функция bit_length() вычисляет длину битов для указанного строкового столбца. Возвращает количество битов, необходимых для хранения строки.

Параметры

  • col: string или Column - имя столбца или объект Column, содержащий строковые значения

Возвращаемое значение

Integer - количество битов, необходимых для хранения строки

Пример использования

from pyspark.sql.functions import bit_length

# Создаем DataFrame
df = spark.createDataFrame([
    ("A",), 
    ("AB",), 
    ("ABC",),
    ("Hello",)
], ["text"])

# Вычисляем длину в битах
df.select(
    "text",
    bit_length("text").alias("bit_length")
).show()

# Результат:
# +-----+----------+
# | text|bit_length|
# +-----+----------+
# |    A|         8|  # 1 символ * 8 бит
# |   AB|        16|  # 2 символа * 8 бит
# |  ABC|        24|  # 3 символа * 8 бит
# |Hello|        40|  # 5 символов * 8 бит
# +-----+----------+

Примечания

  • Каждый символ в UTF-8 занимает 8 бит
  • Для пустой строки возвращает 0
  • Для NULL значений возвращает NULL
  • Функция полезна для оценки размера данных в битах