array_append

array_append(col, value)

array_append - добавляет элементы в массив.

Параметры
col: Column or str. Колонка, содержащая массив, в котором нужно добавить элементы.
value: элементы, которые нужно добавить в массив.
Возвращает
Column возвращает новый массив, содержащий все элементы исходного массива, а также добавленные элементы из value.

array_append example


from pyspark.sql import SparkSession
from pyspark.sql.functions import array, lit, array_append

# Создаем SparkSession
spark = SparkSession.builder.getOrCreate()

# Создаем DataFrame с колонками id и values
data = [(1, [1, 2, 3]), (2, [4, 5])]
df = spark.createDataFrame(data, ["id", "values"])
df.show()

+---+---------+
| id|   values|
+---+---------+
|  1|[1, 2, 3]|
|  2|   [4, 5]|
+---+---------+
# Добавляем элементы в массив в колонке values
df2 = df.withColumn("new_values", array_append(df.values, lit(6)))

# Выводим результат
df2.show(truncate=False)

+---+---------+---------------+
|id |values   |new_values     |
+---+---------+---------------+
|1  |[1, 2, 3]|[1, 2, 3, 6]  |
|2  |[4, 5]   |[4, 5, 6]     |
+---+---------+---------------+

pyspark array_append

Добавлено в версии3.4.0.