Skip to content

Spark session

Точка входа в программирование Spark с использованием API Dataset и DataFrame. Для создания сеанса Spark, вы должны использовать атрибут SparkSession.builder.

Метод Описание
SparkSession.active() Возвращает активную или по умолчанию SparkSession для текущего потока, возвращенную построителем.
SparkSession.builder.appName(name) Устанавливает имя приложения, которое будет отображаться в веб-интерфейсе Spark.
SparkSession.builder.config([key, value, …]) Устанавливает опцию конфигурации.
SparkSession.builder.enableHiveSupport() Включает поддержку Hive, включая подключение к постоянному метастору Hive, поддержку Hive SerDes и пользовательских функций Hive.
SparkSession.builder.getOrCreate() Получает существующий SparkSession или, если его нет, создает новый на основе параметров, установленных в этом построителе.
SparkSession.builder.master(master) Устанавливает URL мастера Spark для подключения, например, "local" для локального запуска, "local[4]" для локального запуска с 4 ядрами или "spark://master:7077" для запуска на автономном кластере Spark.
SparkSession.builder.remote(url) Устанавливает удаленный URL Spark для подключения, например, "sc://host:port" для запуска через сервер Spark Connect.
SparkSession.catalog Интерфейс, через который пользователь может создавать, удалять, изменять или запрашивать базы данных, таблицы, функции и т.д.
SparkSession.conf Интерфейс конфигурации времени выполнения для Spark.
SparkSession.createDataFrame(data[, schema, …]) Создает DataFrame из RDD, списка, pandas.DataFrame или numpy.ndarray.
SparkSession.getActiveSession() Возвращает активный SparkSession для текущего потока, возвращенный построителем.
SparkSession.newSession() Возвращает новый SparkSession как новую сессию, у которой отдельные SQLConf, зарегистрированные временные представления и UDF, но общий SparkContext и кэш таблиц.
SparkSession.range(start[, end, step, …]) Создает DataFrame с одним столбцом типа pyspark.sql.types.LongType с именем id, содержащим элементы в диапазоне от start до end (исключительно) с шагом step.
SparkSession.read Возвращает DataFrameReader, который можно использовать для чтения данных в виде DataFrame.
SparkSession.readStream Возвращает DataStreamReader, который можно использовать для чтения данных в виде потокового DataFrame.
SparkSession.sparkContext Возвращает базовый SparkContext.
SparkSession.sql(sqlQuery[, args]) Возвращает DataFrame, представляющий результат заданного запроса.
SparkSession.stop() Останавливает базовый SparkContext.
SparkSession.streams Возвращает StreamingQueryManager, который позволяет управлять всеми активными экземплярами StreamingQuery в этом контексте.
SparkSession.table(tableName) Возвращает указанную таблицу в виде DataFrame.
SparkSession.udf Возвращает UDFRegistration для регистрации UDF.
SparkSession.udtf Возвращает UDTFRegistration для регистрации UDTF.
SparkSession.version Версия Spark, на которой работает это приложение.

Spark Connect Only

Метод Описание
SparkSession.builder.create() Создает новую SparkSession.
SparkSession.addArtifact(*path[, pyfile, …]) Добавляет артефакт(ы) в клиентскую сессию.
SparkSession.addArtifacts(*path[, pyfile, …]) Добавляет артефакт(ы) в клиентскую сессию.
SparkSession.copyFromLocalToFs(local_path, …) Копирует файл с локального хранилища на файловую систему облачного хранения.
SparkSession.client Предоставляет доступ к клиентскому сеансу Spark Connect.
SparkSession.interruptAll() Прерывает все операции этой сессии, которые в данный момент выполняются на подключенном сервере.
SparkSession.interruptTag(tag) Прерывает все операции этой сессии с заданным тегом операции.
SparkSession.interruptOperation(op_id) Прерывает операцию этой сессии с заданным идентификатором операции.
SparkSession.addTag(tag) Добавляет тег, который будет назначен всем операциям, запущенным этим потоком в этой сессии.
SparkSession.removeTag(tag) Удаляет тег, ранее добавленный для назначения всем операциям, запущенным этим потоком в этой сессии.
SparkSession.getTags() Получает теги, которые в данный момент установлены для назначения всем операциям, запущенным этим потоком.
SparkSession.clearTags() Очищает теги операций текущего потока.