to_json(col, options={})
Описание
Функция to_json()
преобразует структуру данных PySpark в строку JSON.
Параметры
col
: Column - столбец для преобразования в JSONoptions
: Dict - дополнительные опции для форматирования JSON (опционально)
Возвращаемое значение
String - строка JSON
Пример использования
from pyspark.sql.functions import to_json, struct
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("to_json_example").getOrCreate()
# Создаем DataFrame
data = [
("John", 30, "New York"),
("Alice", 25, "Boston")
]
df = spark.createDataFrame(data, ["name", "age", "city"])
# Преобразуем структуру в JSON
result = df.select(
to_json(struct("name", "age", "city")).alias("json_data")
).show(truncate=False)
# Результат:
# +----------------------------------------+
# |json_data |
# +----------------------------------------+
# |{"name":"John","age":30,"city":"New York"}|
# |{"name":"Alice","age":25,"city":"Boston"} |
# +----------------------------------------+
Примечания
- Для преобразования JSON в структуру используйте
from_json()
- Для получения схемы JSON используйте
schema_of_json()
- Для извлечения значения из JSON по пути используйте
get_json_object()
- Для извлечения значений из JSON в виде столбцов используйте
json_tuple()