Core classes

Класс Описание
SparkSession(sparkContext[, jsparkSession, …]) Точка входа для программирования Spark с использованием API Dataset и DataFrame.
Catalog(sparkSession) Пользовательский интерфейс каталога, доступный через SparkSession.catalog.
DataFrame(jdf, sql_ctx) Распределенная коллекция данных, сгруппированная по именованным столбцам.
Column(jc) Столбец в DataFrame.
Observation([name]) Класс для наблюдения (именованных) метрик на DataFrame.
Row Строка в DataFrame.
GroupedData(jgd, df) Набор методов для агрегаций на DataFrame, созданный с помощью DataFrame.groupBy().
PandasCogroupedOps(gd1, gd2) Логическая группировка двух GroupedData, созданная с помощью GroupedData.cogroup().
DataFrameNaFunctions(df) Функциональность для работы с пропущенными данными в DataFrame.
DataFrameStatFunctions(df) Функциональность для статистических функций с DataFrame.
Window Утилитарные функции для определения окон в DataFrames.
DataFrameReader(spark) Интерфейс, используемый для загрузки DataFrame из внешних систем хранения данных (например, HDFS, S3, Cassandra и т.д.).
DataFrameWriter(df) Интерфейс, используемый для записи DataFrame в внешние системы хранения данных (например, HDFS, S3, Cassandra и т.д.).
DataFrameWriterV2(df, table) Интерфейс, используемый для записи pyspark.sql.dataframe.DataFrame в внешнее хранилище с использованием API v2.
UDFRegistration(sparkSession) Оболочка для регистрации пользовательских функций.
UDTFRegistration(sparkSession) Оболочка для регистрации пользовательских функций таблиц.
udf.UserDefinedFunction(func[, returnType, …]) Пользовательская функция, определенная в Python.
udtf.UserDefinedTableFunction(func, returnType) Пользовательская функция таблиц, определенная в Python.