array_intersect

array_intersect(col1, col2)

array_intersect - используется для нахождения пересечения элементов двух массивов.

Параметры
col1: Column or str. Столбец содержащий первый массив
col2: Column or str. Столбец содержащий второй массив
Возвращает
Column Массив, содержащий только элементы, которые присутствуют в обоих исходных массивах.

Пример

from pyspark.sql import SparkSession
from pyspark.sql.functions import array_intersect

# Создание сессии Spark
spark = SparkSession.builder.appName("array_intersect_example").getOrCreate()

# Пример данных
data = [([1, 2, 3], [2, 3, 4]), ([4, 5, 6], [6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])

# Нахождение пересечения элементов массивов
df_with_intersection = df.withColumn("intersection", array_intersect("array1", "array2"))

# Отображение результата
df_with_intersection.show()

+---------+---------+------------+
|   array1|   array2|intersection|
+---------+---------+------------+
|[1, 2, 3]|[2, 3, 4]|      [2, 3]|
|[4, 5, 6]|[6, 7, 8]|         [6]|
+---------+---------+------------+

pyspark array_intersect

Добавлено в версии2.4.0.
Обновлено в версии3.4.0.