map
Теги: array functions pyspark
Описание
Функция map() создает новый столбец типа Map из пар ключ-значение.
Параметры
*cols: Column - пары ключ-значение (ключ1, значение1, ключ2, значение2, ...)
Возвращаемое значение
Column - Map с указанными парами ключ-значение
Пример
from pyspark.sql import SparkSession
from pyspark.sql.functions import map, lit
# Создаем Spark сессию
spark = SparkSession.builder.appName("map_example").getOrCreate()
# Создаем DataFrame
data = [(1,), (2,), (3,)]
df = spark.createDataFrame(data, ["id"])
# Создаем Map с парами ключ-значение
df = df.withColumn("map_col", map(
    lit("key1"), lit("value1"),
    lit("key2"), lit("value2")
))
df.show(truncate=False)
# Вывод:
# +---+--------------------------------+
# |id |map_col                         |
# +---+--------------------------------+
# |1  |{key1 -> value1, key2 -> value2}|
# |2  |{key1 -> value1, key2 -> value2}|
# |3  |{key1 -> value1, key2 -> value2}|
# +---+--------------------------------+
 Примечания
- Количество аргументов должно быть четным
 - Ключи и значения могут быть разных типов
 - Возвращает NULL, если любой из аргументов NULL
 - Полезно для создания структур данных с парами ключ-значение
 - Для доступа к значениям используйте map_col["key"]
 - Для преобразования в строку используйте to_json