Title here
Summary here
array_union(col1,col2)
array_union
- объединение массивов. Дубликаты удаляются
col1
: Column or str. Первый массив для объединения.col1
: Column or str. Второй массив для объединения.Column
новый массив, содержащий элементы из всех исходных массивов без дубликатовfrom pyspark.sql import SparkSession
from pyspark.sql.functions import array_union
# Создание сессии Spark
spark = SparkSession.builder.appName("array_union_example").getOrCreate()
# Пример данных
data = [([1, 2, 3], [1, 3, 4]), ([4, 5, 6], [4,5,6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])
# Объединение массивов и создание нового столбца "union_array"
df_with_union = df.withColumn("union_array", array_union("array1", "array2"))
# Отображение результата
df_with_union.show()
+---------+---------------+---------------+
| array1| array2| union_array|
+---------+---------------+---------------+
|[1, 2, 3]| [1, 3, 4]| [1, 2, 3, 4]|
|[4, 5, 6]|[4, 5, 6, 7, 8]|[4, 5, 6, 7, 8]|
+---------+---------------+---------------+
pyspark array_union
Добавлено в версии | 2.4.0. |
Обновлено в версии | 3.4.0. |