Title here
Summary here
array(*cols)
array
- Создает новый массив.
cols
: Column or str. Значения, столбцы или выражения, которые нужно добавить в массив.Column
Массив, состоящий из переданных значений, столбцов или выражений.
from pyspark.sql import SparkSession
from pyspark.sql.functions import array, lit
# Создание сессии Spark
spark = SparkSession.builder.appName("array_example").getOrCreate()
# Пример данных
data = [(1, "order-id-1", 6), (2, "order-id-2", 4), (3, "order-id-3", 1)]
df = spark.createDataFrame(data, ["id", "order_id", "qty"])
df.show()
+---+----------+---+
| id| order_id|qty|
+---+----------+---+
| 1|order-id-1| 6|
| 2|order-id-2| 4|
| 3|order-id-3| 1|
+---+----------+---+
# Создание массива из значений столбца "name" и литерала "other"
df_with_array = df.withColumn("name_array", array("qty", lit("other")))
# Отображение результата
df_with_array.show()
+---+----------+---+----------+
| id| order_id|qty|name_array|
+---+----------+---+----------+
| 1|order-id-1| 6|[6, other]|
| 2|order-id-2| 4|[4, other]|
| 3|order-id-3| 1|[1, other]|
+---+----------+---+----------+
pyspark array
Добавлено в версии | 1.4.0. |
Обновлено в версии | 3.4.0. |