array

array(*cols)

array - Создает новый массив.

Параметры
cols: Column or str. Значения, столбцы или выражения, которые нужно добавить в массив.
Возвращает
Column Массив, состоящий из переданных значений, столбцов или выражений.

array example


from pyspark.sql import SparkSession
from pyspark.sql.functions import array, lit

# Создание сессии Spark
spark = SparkSession.builder.appName("array_example").getOrCreate()

# Пример данных
data = [(1, "order-id-1", 6), (2, "order-id-2", 4), (3, "order-id-3", 1)]
df = spark.createDataFrame(data, ["id", "order_id", "qty"])
df.show()
+---+----------+---+
| id|  order_id|qty|
+---+----------+---+
|  1|order-id-1|  6|
|  2|order-id-2|  4|
|  3|order-id-3|  1|
+---+----------+---+

# Создание массива из значений столбца "name" и литерала "other"
df_with_array = df.withColumn("name_array", array("qty", lit("other")))

# Отображение результата
df_with_array.show()

+---+----------+---+----------+
| id|  order_id|qty|name_array|
+---+----------+---+----------+
|  1|order-id-1|  6|[6, other]|
|  2|order-id-2|  4|[4, other]|
|  3|order-id-3|  1|[1, other]|
+---+----------+---+----------+

pyspark array

Добавлено в версии1.4.0.
Обновлено в версии3.4.0.