array_union

array_union(col1,col2)

array_union - объединение массивов. Дубликаты удаляются

Параметры
col1: Column or str. Первый массив для объединения.
col1: Column or str. Второй массив для объединения.
Возвращает
Column новый массив, содержащий элементы из всех исходных массивов без дубликатов

array_union exapmle

from pyspark.sql import SparkSession
from pyspark.sql.functions import array_union

# Создание сессии Spark
spark = SparkSession.builder.appName("array_union_example").getOrCreate()

# Пример данных
data = [([1, 2, 3], [1, 3, 4]), ([4, 5, 6], [4,5,6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])

# Объединение массивов и создание нового столбца "union_array"
df_with_union = df.withColumn("union_array", array_union("array1", "array2"))

# Отображение результата
df_with_union.show()
+---------+---------------+---------------+
|   array1|         array2|    union_array|
+---------+---------------+---------------+
|[1, 2, 3]|      [1, 3, 4]|   [1, 2, 3, 4]|
|[4, 5, 6]|[4, 5, 6, 7, 8]|[4, 5, 6, 7, 8]|
+---------+---------------+---------------+

pyspark array_union

Добавлено в версии2.4.0.
Обновлено в версии3.4.0.