Title here
Summary here
array_intersect(col1, col2)
array_intersect
- используется для нахождения пересечения элементов двух массивов.
col1
: Column or str. Столбец содержащий первый массивcol2
: Column or str. Столбец содержащий второй массивColumn
Массив, содержащий только элементы, которые присутствуют в обоих исходных массивах.from pyspark.sql import SparkSession
from pyspark.sql.functions import array_intersect
# Создание сессии Spark
spark = SparkSession.builder.appName("array_intersect_example").getOrCreate()
# Пример данных
data = [([1, 2, 3], [2, 3, 4]), ([4, 5, 6], [6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])
# Нахождение пересечения элементов массивов
df_with_intersection = df.withColumn("intersection", array_intersect("array1", "array2"))
# Отображение результата
df_with_intersection.show()
+---------+---------+------------+
| array1| array2|intersection|
+---------+---------+------------+
|[1, 2, 3]|[2, 3, 4]| [2, 3]|
|[4, 5, 6]|[6, 7, 8]| [6]|
+---------+---------+------------+
pyspark array_intersect
Добавлено в версии | 2.4.0. |
Обновлено в версии | 3.4.0. |