Skip to content

to_json(col, options={})

Описание

Функция to_json() преобразует структуру данных PySpark в строку JSON.

Параметры

  • col: Column - столбец для преобразования в JSON
  • options: Dict - дополнительные опции для форматирования JSON (опционально)

Возвращаемое значение

String - строка JSON

Пример использования

from pyspark.sql.functions import to_json, struct
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("to_json_example").getOrCreate()

# Создаем DataFrame
data = [
    ("John", 30, "New York"),
    ("Alice", 25, "Boston")
]
df = spark.createDataFrame(data, ["name", "age", "city"])

# Преобразуем структуру в JSON
result = df.select(
    to_json(struct("name", "age", "city")).alias("json_data")
).show(truncate=False)

# Результат:
# +----------------------------------------+
# |json_data                               |
# +----------------------------------------+
# |{"name":"John","age":30,"city":"New York"}|
# |{"name":"Alice","age":25,"city":"Boston"} |
# +----------------------------------------+

Примечания

  • Для преобразования JSON в структуру используйте from_json()
  • Для получения схемы JSON используйте schema_of_json()
  • Для извлечения значения из JSON по пути используйте get_json_object()
  • Для извлечения значений из JSON в виде столбцов используйте json_tuple()