Title here
Summary here
arrays_overlap(a1, a2)
arrays_overlap
- Функция arrays_overlap в PySpark используется для проверки наличия общих элементов в двух массивах. Функция принимает два массива в качестве входных данных и возвращает логическое значение, указывающее, есть ли у них общие элементы.
Column
, первый массив для проверки.Column
, второй массив для проверки.Column
возвращает логическое значение, указывающее, есть ли у двух массивов общие элементы.from pyspark.sql import SparkSession
from pyspark.sql.functions import arrays_overlap
# Создание сессии Spark
spark = SparkSession.builder.appName("arrays_overlap_example").getOrCreate()
# Пример данных
data = [([1, 2, 3], [4, 5, 6]), ([4, 5, 6], [6, 7, 8])]
df = spark.createDataFrame(data, ["array1", "array2"])
# Получение разности между массивами
df_with_arrays_overlap = df.withColumn("arrays_overlap", arrays_overlap("array1", "array2"))
# Отображение результата
df_with_arrays_overlap.show()
+---------+---------+--------------+
| array1| array2|arrays_overlap|
+---------+---------+--------------+
|[1, 2, 3]|[4, 5, 6]| false|
|[4, 5, 6]|[6, 7, 8]| true|
+---------+---------+--------------+
pyspark arrays_overlap
Добавлено в версии | 2.4.0. |
Обновлено в версии | 3.4.0. |