DataFrame.__getattr__(name) | Возвращает столбец, обозначенный именем. |
DataFrame.__getitem__(item) | Возвращает столбец как Column. |
DataFrame.agg(*exprs) | Агрегирует по всему DataFrame без групп (сокращение для df.groupBy().agg()). |
DataFrame.alias(alias) | Возвращает новый DataFrame с установленным псевдонимом. |
DataFrame.approxQuantile(col, probabilities, …) | Вычисляет приближенные квантили числовых столбцов DataFrame. |
DataFrame.cache() | Сохраняет DataFrame с уровнем хранения по умолчанию (MEMORY_AND_DISK_DESER). |
DataFrame.checkpoint([eager]) | Возвращает версию DataFrame с контрольной точкой. |
DataFrame.coalesce(numPartitions) | Возвращает новый DataFrame, который имеет ровно numPartitions разделов. |
DataFrame.colRegex(colName) | Выбирает столбец на основе имени столбца, указанного как регулярное выражение, и возвращает его как Column. |
DataFrame.collect() | Возвращает все записи как список Row. |
DataFrame.columns | Получает имена всех столбцов в DataFrame как список. |
DataFrame.corr(col1, col2[, method]) | Вычисляет корреляцию двух столбцов DataFrame как значение double. |
DataFrame.count() | Возвращает количество строк в этом DataFrame. |
DataFrame.cov(col1, col2) | Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double. |
DataFrame.createGlobalTempView(name) | Создает глобальное временное представление с этим DataFrame. |
DataFrame.createOrReplaceGlobalTempView(name) | Создает или заменяет глобальное временное представление с помощью указанного имени. |
DataFrame.createOrReplaceTempView(name) | Создает или заменяет локальное временное представление с этим DataFrame. |
DataFrame.createTempView(name) | Создает локальное временное представление с этим DataFrame. |
DataFrame.crossJoin(other) | Возвращает декартово произведение с другим DataFrame. |
DataFrame.crosstab(col1, col2) | Вычисляет парно-частотную таблицу указанных столбцов. |
DataFrame.cube(*cols) | Создает многомерный куб для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них. |
DataFrame.describe(*cols) | Вычисляет основные статистики для числовых и строковых столбцов. |
DataFrame.distinct() | Возвращает новый DataFrame, содержащий уникальные строки в этом DataFrame. |
DataFrame.drop(*cols) | Возвращает новый DataFrame без указанных столбцов. |
DataFrame.dropDuplicates([subset]) | Возвращает новый DataFrame с удаленными дубликатами строк, опционально только учитывая определенные столбцы. |
DataFrame.dropDuplicatesWithinWatermark([subset]) | Возвращает новый DataFrame с удаленными дубликатами строк. |
DataFrame.drop_duplicates([subset]) | drop_duplicates() является псевдонимом для dropDuplicates(). |
DataFrame.dropna([how, thresh, subset]) | Возвращает новый DataFrame, пропуская строки с null значениями. |
DataFrame.dtypes | Возвращает все имена столбцов и их типы данных как список. |
DataFrame.exceptAll(other) | Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame, сохраняя дубликаты. |
DataFrame.explain([extended, mode]) | Печатает (логические и физические) планы в консоль для целей отладки. |
DataFrame.fillna(value[, subset]) | Заменяет null значения, псевдоним для na.fill(). |
DataFrame.filter(condition) | Фильтрует строки, используя указанное условие. |
DataFrame.first() | Возвращает первую строку как Row. |
DataFrame.foreach(f) | Применяет функцию f к каждой строке этого DataFrame. |
DataFrame.foreachPartition(f) | Применяет функцию f к каждому разделу этого DataFrame. |
DataFrame.freqItems(cols[, support]) | Находит частые элементы для столбцов, возможно, с ложными срабатываниями. |
DataFrame.groupBy(*cols) | Группирует DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них. |
DataFrame.head([n]) | Возвращает первые n строк. |
DataFrame.hint(name, *parameters) | Указывает некоторые подсказки на текущий DataFrame. |
DataFrame.inputFiles() | Возвращает снимок файлов, которые составляют этот DataFrame. |
DataFrame.intersect(other) | Возвращает новый DataFrame, содержащий строки только в этом DataFrame и другом DataFrame. |
DataFrame.intersectAll(other) | Возвращает новый DataFrame, содержащий строки в этом DataFrame и другом DataFrame, сохраняя дубликаты. |
DataFrame.isEmpty() | Проверяет, является ли DataFrame пустым, и возвращает булево значение. |
DataFrame.isLocal() | Возвращает True, если методы collect() и take() могут быть запущены локально (без каких-либо исполнительных ядер Spark). |
DataFrame.isStreaming | Возвращает True, если этот DataFrame содержит один или более источников, которые постоянно возвращают данные по мере их поступления. |
DataFrame.join(other[, on, how]) | Соединяется с другим DataFrame, используя указанное выражение соединения. |
DataFrame.limit(num) | Ограничивает количество результатов указанным числом. |
DataFrame.localCheckpoint([eager]) | Возвращает локально контрольную точку версии этого DataFrame. |
DataFrame.mapInPandas(func, schema[, barrier]) | Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает pandas DataFrame, и возвращает результат как DataFrame. |
DataFrame.mapInArrow(func, schema[, barrier]) | Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает PyArrow's RecordBatch, и возвращает результат как DataFrame. |
DataFrame.melt(ids, values, …) | Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов. |
DataFrame.na | Возвращает DataFrameNaFunctions для обработки пропущенных значений. |
DataFrame.observe(observation, *exprs) | Определяет (именованные) метрики для наблюдения на DataFrame. |
DataFrame.offset(num) | Возвращает новый DataFrame, пропуская первые n строк. |
DataFrame.orderBy(*cols, **kwargs) | Возвращает новый DataFrame, отсортированный по указанным столбцам. |
DataFrame.persist([storageLevel]) | Устанавливает уровень хранения для сохранения содержимого DataFrame между операциями после первого раза, когда оно вычисляется. |
DataFrame.printSchema([level]) | Печатает схему в формате дерева. |
DataFrame.randomSplit(weights[, seed]) | Случайно разбивает этот DataFrame с указанными весами. |
DataFrame.rdd | Возвращает содержимое как pyspark.RDD из Row. |
DataFrame.registerTempTable(name) | Регистрирует этот DataFrame как временную таблицу с помощью указанного имени. |
DataFrame.repartition(numPartitions, *cols) | Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения. |
DataFrame.repartitionByRange(numPartitions, …) | Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения. |
DataFrame.replace(to_replace[, value, subset]) | Возвращает новый DataFrame, заменяя значение другим значением. |
DataFrame.rollup(*cols) | Создает многомерный rollup для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них. |
DataFrame.sameSemantics(other) | Возвращает True, когда логические планы запросов внутри обоих DataFrame равны и поэтому возвращают одинаковые результаты. |
DataFrame.sample([withReplacement, …]) | Возвращает выборку подмножества этого DataFrame. |
DataFrame.sampleBy(col, fractions[, seed]) | Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта. |
DataFrame.schema | Возвращает схему этого DataFrame как pyspark.sql.types.StructType. |
DataFrame.select(*cols) | Проектирует набор выражений и возвращает новый DataFrame. |
DataFrame.selectExpr(*expr) | Проектирует набор выражений SQL и возвращает новый DataFrame. |
DataFrame.semanticHash() | Возвращает хеш-код логического плана запроса против этого DataFrame. |
DataFrame.show([n, truncate, vertical]) | Печатает первые n строк в консоль. |
DataFrame.sort(*cols, **kwargs) | Возвращает новый DataFrame, отсортированный по указанным столбцам. |
DataFrame.sortWithinPartitions(*cols, **kwargs) | Возвращает новый DataFrame с каждым разделом, отсортированным по указанным столбцам. |
DataFrame.sparkSession | Возвращает сессию Spark, которая создала этот DataFrame. |
DataFrame.stat | Возвращает DataFrameStatFunctions для статистических функций. |
DataFrame.storageLevel | Получает текущий уровень хранения DataFrame. |
DataFrame.subtract(other) | Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame. |
DataFrame.summary(*statistics) | Вычисляет указанные статистики для числовых и строковых столбцов. |
DataFrame.tail(num) | Возвращает последние num строк как список Row. |
DataFrame.take(num) | Возвращает первые num строк как список Row. |
DataFrame.to(schema) | Возвращает новый DataFrame, где каждая строка согласована с указанной схемой. |
DataFrame.toDF(*cols) | Возвращает новый DataFrame с новыми указанными именами столбцов. |
DataFrame.toJSON([use_unicode]) | Преобразует DataFrame в RDD строк. |
DataFrame.toLocalIterator([prefetchPartitions]) | Возвращает итератор, который содержит все строки в этом DataFrame. |
DataFrame.toPandas() | Возвращает содержимое этого DataFrame как pandas pandas.DataFrame. |
DataFrame.to_pandas_on_spark([index_col]) | Преобразует DataFrame в pandas-on-Spark DataFrame. |
DataFrame.transform(func, *args, **kwargs) | Возвращает новый DataFrame. |
DataFrame.union(other) | Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame. |
DataFrame.unionAll(other) | Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame. |
DataFrame.unionByName(other[, …]) | Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame. |
DataFrame.unpersist([blocking]) | Маркирует DataFrame как неустойчивый и удаляет все блоки для него из памяти и диска. |
DataFrame.unpivot(ids, values, …) | Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов. |
DataFrame.where(condition) | where() является псевдонимом для filter(). |
DataFrame.withColumn(colName, col) | Возвращает новый DataFrame, добавляя столбец или заменяя существующий столбец с тем же именем. |
DataFrame.withColumns(*colsMap) | Возвращает новый DataFrame, добавляя несколько столбцов или заменяя существующие столбцы с теми же именами. |
DataFrame.withColumnRenamed(existing, new) | Возвращает новый DataFrame, переименовывая существующий столбец. |
DataFrame.withColumnsRenamed(colsMap) | Возвращает новый DataFrame, переименовывая несколько столбцов. |
DataFrame.withMetadata(columnName, metadata) | Возвращает новый DataFrame, обновляя существующий столбец метаданными. |
DataFrame.withWatermark(eventTime, …) | Определяет водяной знак времени события для этого DataFrame. |
DataFrame.write | Интерфейс для сохранения содержимого не-потокового DataFrame во внешнее хранилище. |
DataFrame.writeStream | Интерфейс для сохранения содержимого потокового DataFrame во внешнее хранилище. |
DataFrame.writeTo(table) | Создает конструктор конфигурации записи для источников v2. |
DataFrame.pandas_api([index_col]) | Преобразует существующий DataFrame в pandas-on-Spark DataFrame. |
DataFrameNaFunctions.drop([how, thresh, subset]) | Возвращает новый DataFrame, пропуская строки с null значениями. |
DataFrameNaFunctions.fill(value[, subset]) | Заменяет null значения, псевдоним для na.fill(). |
DataFrameNaFunctions.replace(to_replace[, …]) | Возвращает новый DataFrame, заменяя значение другим значением. |
DataFrameStatFunctions.approxQuantile(col, …) | Вычисляет приближенные квантили числовых столбцов DataFrame. |
DataFrameStatFunctions.corr(col1, col2[, method]) | Вычисляет корреляцию двух столбцов DataFrame как значение double. |
DataFrameStatFunctions.cov(col1, col2) | Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double. |
DataFrameStatFunctions.crosstab(col1, col2) | Вычисляет парно-частотную таблицу указанных столбцов. |
DataFrameStatFunctions.freqItems(cols[, support]) | Находит частые элементы для столбцов, возможно, с ложными срабатываниями. |
DataFrameStatFunctions.sampleBy(col, fractions) | Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта. |