Dataframe

Метод Описание
DataFrame.__getattr__(name) Возвращает столбец, обозначенный именем.
DataFrame.__getitem__(item) Возвращает столбец как Column.
DataFrame.agg(*exprs) Агрегирует по всему DataFrame без групп (сокращение для df.groupBy().agg()).
DataFrame.alias(alias) Возвращает новый DataFrame с установленным псевдонимом.
DataFrame.approxQuantile(col, probabilities, …) Вычисляет приближенные квантили числовых столбцов DataFrame.
DataFrame.cache() Сохраняет DataFrame с уровнем хранения по умолчанию (MEMORY_AND_DISK_DESER).
DataFrame.checkpoint([eager]) Возвращает версию DataFrame с контрольной точкой.
DataFrame.coalesce(numPartitions) Возвращает новый DataFrame, который имеет ровно numPartitions разделов.
DataFrame.colRegex(colName) Выбирает столбец на основе имени столбца, указанного как регулярное выражение, и возвращает его как Column.
DataFrame.collect() Возвращает все записи как список Row.
DataFrame.columns Получает имена всех столбцов в DataFrame как список.
DataFrame.corr(col1, col2[, method]) Вычисляет корреляцию двух столбцов DataFrame как значение double.
DataFrame.count() Возвращает количество строк в этом DataFrame.
DataFrame.cov(col1, col2) Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double.
DataFrame.createGlobalTempView(name) Создает глобальное временное представление с этим DataFrame.
DataFrame.createOrReplaceGlobalTempView(name) Создает или заменяет глобальное временное представление с помощью указанного имени.
DataFrame.createOrReplaceTempView(name) Создает или заменяет локальное временное представление с этим DataFrame.
DataFrame.createTempView(name) Создает локальное временное представление с этим DataFrame.
DataFrame.crossJoin(other) Возвращает декартово произведение с другим DataFrame.
DataFrame.crosstab(col1, col2) Вычисляет парно-частотную таблицу указанных столбцов.
DataFrame.cube(*cols) Создает многомерный куб для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
DataFrame.describe(*cols) Вычисляет основные статистики для числовых и строковых столбцов.
DataFrame.distinct() Возвращает новый DataFrame, содержащий уникальные строки в этом DataFrame.
DataFrame.drop(*cols) Возвращает новый DataFrame без указанных столбцов.
DataFrame.dropDuplicates([subset]) Возвращает новый DataFrame с удаленными дубликатами строк, опционально только учитывая определенные столбцы.
DataFrame.dropDuplicatesWithinWatermark([subset]) Возвращает новый DataFrame с удаленными дубликатами строк.
DataFrame.drop_duplicates([subset]) drop_duplicates() является псевдонимом для dropDuplicates().
DataFrame.dropna([how, thresh, subset]) Возвращает новый DataFrame, пропуская строки с null значениями.
DataFrame.dtypes Возвращает все имена столбцов и их типы данных как список.
DataFrame.exceptAll(other) Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame, сохраняя дубликаты.
DataFrame.explain([extended, mode]) Печатает (логические и физические) планы в консоль для целей отладки.
DataFrame.fillna(value[, subset]) Заменяет null значения, псевдоним для na.fill().
DataFrame.filter(condition) Фильтрует строки, используя указанное условие.
DataFrame.first() Возвращает первую строку как Row.
DataFrame.foreach(f) Применяет функцию f к каждой строке этого DataFrame.
DataFrame.foreachPartition(f) Применяет функцию f к каждому разделу этого DataFrame.
DataFrame.freqItems(cols[, support]) Находит частые элементы для столбцов, возможно, с ложными срабатываниями.
DataFrame.groupBy(*cols) Группирует DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
DataFrame.head([n]) Возвращает первые n строк.
DataFrame.hint(name, *parameters) Указывает некоторые подсказки на текущий DataFrame.
DataFrame.inputFiles() Возвращает снимок файлов, которые составляют этот DataFrame.
DataFrame.intersect(other) Возвращает новый DataFrame, содержащий строки только в этом DataFrame и другом DataFrame.
DataFrame.intersectAll(other) Возвращает новый DataFrame, содержащий строки в этом DataFrame и другом DataFrame, сохраняя дубликаты.
DataFrame.isEmpty() Проверяет, является ли DataFrame пустым, и возвращает булево значение.
DataFrame.isLocal() Возвращает True, если методы collect() и take() могут быть запущены локально (без каких-либо исполнительных ядер Spark).
DataFrame.isStreaming Возвращает True, если этот DataFrame содержит один или более источников, которые постоянно возвращают данные по мере их поступления.
DataFrame.join(other[, on, how]) Соединяется с другим DataFrame, используя указанное выражение соединения.
DataFrame.limit(num) Ограничивает количество результатов указанным числом.
DataFrame.localCheckpoint([eager]) Возвращает локально контрольную точку версии этого DataFrame.
DataFrame.mapInPandas(func, schema[, barrier]) Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает pandas DataFrame, и возвращает результат как DataFrame.
DataFrame.mapInArrow(func, schema[, barrier]) Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает PyArrow's RecordBatch, и возвращает результат как DataFrame.
DataFrame.melt(ids, values, …) Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов.
DataFrame.na Возвращает DataFrameNaFunctions для обработки пропущенных значений.
DataFrame.observe(observation, *exprs) Определяет (именованные) метрики для наблюдения на DataFrame.
DataFrame.offset(num) Возвращает новый DataFrame, пропуская первые n строк.
DataFrame.orderBy(*cols, **kwargs) Возвращает новый DataFrame, отсортированный по указанным столбцам.
DataFrame.persist([storageLevel]) Устанавливает уровень хранения для сохранения содержимого DataFrame между операциями после первого раза, когда оно вычисляется.
DataFrame.printSchema([level]) Печатает схему в формате дерева.
DataFrame.randomSplit(weights[, seed]) Случайно разбивает этот DataFrame с указанными весами.
DataFrame.rdd Возвращает содержимое как pyspark.RDD из Row.
DataFrame.registerTempTable(name) Регистрирует этот DataFrame как временную таблицу с помощью указанного имени.
DataFrame.repartition(numPartitions, *cols) Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения.
DataFrame.repartitionByRange(numPartitions, …) Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения.
DataFrame.replace(to_replace[, value, subset]) Возвращает новый DataFrame, заменяя значение другим значением.
DataFrame.rollup(*cols) Создает многомерный rollup для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
DataFrame.sameSemantics(other) Возвращает True, когда логические планы запросов внутри обоих DataFrame равны и поэтому возвращают одинаковые результаты.
DataFrame.sample([withReplacement, …]) Возвращает выборку подмножества этого DataFrame.
DataFrame.sampleBy(col, fractions[, seed]) Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта.
DataFrame.schema Возвращает схему этого DataFrame как pyspark.sql.types.StructType.
DataFrame.select(*cols) Проектирует набор выражений и возвращает новый DataFrame.
DataFrame.selectExpr(*expr) Проектирует набор выражений SQL и возвращает новый DataFrame.
DataFrame.semanticHash() Возвращает хеш-код логического плана запроса против этого DataFrame.
DataFrame.show([n, truncate, vertical]) Печатает первые n строк в консоль.
DataFrame.sort(*cols, **kwargs) Возвращает новый DataFrame, отсортированный по указанным столбцам.
DataFrame.sortWithinPartitions(*cols, **kwargs) Возвращает новый DataFrame с каждым разделом, отсортированным по указанным столбцам.
DataFrame.sparkSession Возвращает сессию Spark, которая создала этот DataFrame.
DataFrame.stat Возвращает DataFrameStatFunctions для статистических функций.
DataFrame.storageLevel Получает текущий уровень хранения DataFrame.
DataFrame.subtract(other) Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame.
DataFrame.summary(*statistics) Вычисляет указанные статистики для числовых и строковых столбцов.
DataFrame.tail(num) Возвращает последние num строк как список Row.
DataFrame.take(num) Возвращает первые num строк как список Row.
DataFrame.to(schema) Возвращает новый DataFrame, где каждая строка согласована с указанной схемой.
DataFrame.toDF(*cols) Возвращает новый DataFrame с новыми указанными именами столбцов.
DataFrame.toJSON([use_unicode]) Преобразует DataFrame в RDD строк.
DataFrame.toLocalIterator([prefetchPartitions]) Возвращает итератор, который содержит все строки в этом DataFrame.
DataFrame.toPandas() Возвращает содержимое этого DataFrame как pandas pandas.DataFrame.
DataFrame.to_pandas_on_spark([index_col]) Преобразует DataFrame в pandas-on-Spark DataFrame.
DataFrame.transform(func, *args, **kwargs) Возвращает новый DataFrame.
DataFrame.union(other) Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
DataFrame.unionAll(other) Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
DataFrame.unionByName(other[, …]) Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
DataFrame.unpersist([blocking]) Маркирует DataFrame как неустойчивый и удаляет все блоки для него из памяти и диска.
DataFrame.unpivot(ids, values, …) Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов.
DataFrame.where(condition) where() является псевдонимом для filter().
DataFrame.withColumn(colName, col) Возвращает новый DataFrame, добавляя столбец или заменяя существующий столбец с тем же именем.
DataFrame.withColumns(*colsMap) Возвращает новый DataFrame, добавляя несколько столбцов или заменяя существующие столбцы с теми же именами.
DataFrame.withColumnRenamed(existing, new) Возвращает новый DataFrame, переименовывая существующий столбец.
DataFrame.withColumnsRenamed(colsMap) Возвращает новый DataFrame, переименовывая несколько столбцов.
DataFrame.withMetadata(columnName, metadata) Возвращает новый DataFrame, обновляя существующий столбец метаданными.
DataFrame.withWatermark(eventTime, …) Определяет водяной знак времени события для этого DataFrame.
DataFrame.write Интерфейс для сохранения содержимого не-потокового DataFrame во внешнее хранилище.
DataFrame.writeStream Интерфейс для сохранения содержимого потокового DataFrame во внешнее хранилище.
DataFrame.writeTo(table) Создает конструктор конфигурации записи для источников v2.
DataFrame.pandas_api([index_col]) Преобразует существующий DataFrame в pandas-on-Spark DataFrame.
DataFrameNaFunctions.drop([how, thresh, subset]) Возвращает новый DataFrame, пропуская строки с null значениями.
DataFrameNaFunctions.fill(value[, subset]) Заменяет null значения, псевдоним для na.fill().
DataFrameNaFunctions.replace(to_replace[, …]) Возвращает новый DataFrame, заменяя значение другим значением.
DataFrameStatFunctions.approxQuantile(col, …) Вычисляет приближенные квантили числовых столбцов DataFrame.
DataFrameStatFunctions.corr(col1, col2[, method]) Вычисляет корреляцию двух столбцов DataFrame как значение double.
DataFrameStatFunctions.cov(col1, col2) Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double.
DataFrameStatFunctions.crosstab(col1, col2) Вычисляет парно-частотную таблицу указанных столбцов.
DataFrameStatFunctions.freqItems(cols[, support]) Находит частые элементы для столбцов, возможно, с ложными срабатываниями.
DataFrameStatFunctions.sampleBy(col, fractions) Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта.