SparkSession(sparkContext[, jsparkSession, …]) | Точка входа для программирования Spark с использованием API Dataset и DataFrame. |
Catalog(sparkSession) | Пользовательский интерфейс каталога, доступный через SparkSession.catalog. |
DataFrame(jdf, sql_ctx) | Распределенная коллекция данных, сгруппированная по именованным столбцам. |
Column(jc) | Столбец в DataFrame. |
Observation([name]) | Класс для наблюдения (именованных) метрик на DataFrame. |
Row | Строка в DataFrame. |
GroupedData(jgd, df) | Набор методов для агрегаций на DataFrame, созданный с помощью DataFrame.groupBy(). |
PandasCogroupedOps(gd1, gd2) | Логическая группировка двух GroupedData, созданная с помощью GroupedData.cogroup(). |
DataFrameNaFunctions(df) | Функциональность для работы с пропущенными данными в DataFrame. |
DataFrameStatFunctions(df) | Функциональность для статистических функций с DataFrame. |
Window | Утилитарные функции для определения окон в DataFrames. |
DataFrameReader(spark) | Интерфейс, используемый для загрузки DataFrame из внешних систем хранения данных (например, HDFS, S3, Cassandra и т.д.). |
DataFrameWriter(df) | Интерфейс, используемый для записи DataFrame в внешние системы хранения данных (например, HDFS, S3, Cassandra и т.д.). |
DataFrameWriterV2(df, table) | Интерфейс, используемый для записи pyspark.sql.dataframe.DataFrame в внешнее хранилище с использованием API v2. |
UDFRegistration(sparkSession) | Оболочка для регистрации пользовательских функций. |
UDTFRegistration(sparkSession) | Оболочка для регистрации пользовательских функций таблиц. |
udf.UserDefinedFunction(func[, returnType, …]) | Пользовательская функция, определенная в Python. |
udtf.UserDefinedTableFunction(func, returnType) | Пользовательская функция таблиц, определенная в Python. |