arrays_overlap

arrays_overlap(a1, a2)

arrays_overlap - Функция arrays_overlap в PySpark используется для проверки наличия общих элементов в двух массивах. Функция принимает два массива в качестве входных данных и возвращает логическое значение, указывающее, есть ли у них общие элементы.

Параметры
a1 - Column, первый массив для проверки.
a2 - Column, второй массив для проверки.
Возвращает
Column возвращает логическое значение, указывающее, есть ли у двух массивов общие элементы.

arrays_overlap example

from pyspark.sql import SparkSession
from pyspark.sql.functions import arrays_overlap

# Создание сессии Spark
spark = SparkSession.builder.appName("arrays_overlap_example").getOrCreate()

# Пример данных
data = [([1, 2, 3], [4, 5, 6]), ([4, 5, 6], [6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])

# Получение разности между массивами
df_with_arrays_overlap = df.withColumn("arrays_overlap", arrays_overlap("array1", "array2"))

# Отображение результата
df_with_arrays_overlap.show()

+---------+---------+--------------+
|   array1|   array2|arrays_overlap|
+---------+---------+--------------+
|[1, 2, 3]|[4, 5, 6]|         false|
|[4, 5, 6]|[6, 7, 8]|          true|
+---------+---------+--------------+

pyspark arrays_overlap

Добавлено в версии2.4.0.
Обновлено в версии3.4.0.