array_contains

array_contains(col, value)

array_contains - проверяет вхождение в массив, вернет true если массив содержит необходимый элемент и false если не содержит

Параметры
col: Column or str. Колонка, содержащая массив, в котором необходимо произвести поиск.
Возвращает
value искомое значение для поиска в массиве

array_contains example



from pyspark.sql import SparkSession
from pyspark.sql.functions import array_contains

# Создание сессии Spark
spark = SparkSession.builder.appName("array_contains_example").getOrCreate()

# Пример данных
data = [(1, [1, 2, 3]),  (2, [None, 1, 4],), (3, [9, 8, 7],)]
df = spark.createDataFrame(data, ["id", "array"])
df.show()

# Проверяем входждение в массив
df_array_contains = df.withColumn("array_contains", array_contains("array", 1))
df_array_contains.show()


+---+------------+--------------+
| id|       array|array_contains|
+---+------------+--------------+
|  1|   [1, 2, 3]|          true|
|  2|[NULL, 1, 4]|          true|
|  3|   [9, 8, 7]|         false|
+---+------------+--------------+

pyspark array_compact

Добавлено в версии1.5.0.