Skip to content

array_size(col)

Описание

Функция array_size() возвращает общее количество элементов в массиве.

Параметры

  • col: Column - массив для подсчета элементов

Возвращаемое значение

Integer - количество элементов в массиве

Пример использования

from pyspark.sql.functions import array_size, array, lit

# Создаем DataFrame с массивами
df = spark.createDataFrame([
    ([1, 2, 3, 4, 5],),
    (["a", "b", "c"],),
    ([],),
    (None,)
], ["array_col"])

# Подсчитываем количество элементов
df.select(
    "array_col",
    array_size("array_col").alias("size")
).show(truncate=False)

# Результат:
# +------------+----+
# |array_col   |size|
# +------------+----+
# |[1, 2, 3, 4, 5]|5   |
# |[a, b, c]   |3   |
# |[]          |0   |
# |null        |null|
# +------------+----+

# Пример с разными типами данных
df = spark.createDataFrame([
    ([1.0, 2.0, 3.0],),
    ([True, False],),
    ([None, 1],)
], ["values"])

df.select(
    "values",
    array_size("values").alias("size")
).show(truncate=False)

Примечания

  • Если массив NULL, возвращается NULL
  • Пустой массив возвращает 0
  • Для проверки наличия элемента используйте array_contains()
  • Для получения элемента по индексу используйте element_at()
  • Для создания массива используйте array()