Dataframe

Метод	Описание
`DataFrame.__getattr__(name)`	Возвращает столбец, обозначенный именем.
`DataFrame.__getitem__(item)`	Возвращает столбец как Column.
`DataFrame.agg(*exprs)`	Агрегирует по всему DataFrame без групп (сокращение для df.groupBy().agg()).
`DataFrame.alias(alias)`	Возвращает новый DataFrame с установленным псевдонимом.
`DataFrame.approxQuantile(col, probabilities, …)`	Вычисляет приближенные квантили числовых столбцов DataFrame.
`DataFrame.cache()`	Сохраняет DataFrame с уровнем хранения по умолчанию (MEMORY_AND_DISK_DESER).
`DataFrame.checkpoint([eager])`	Возвращает версию DataFrame с контрольной точкой.
`DataFrame.coalesce(numPartitions)`	Возвращает новый DataFrame, который имеет ровно numPartitions разделов.
`DataFrame.colRegex(colName)`	Выбирает столбец на основе имени столбца, указанного как регулярное выражение, и возвращает его как Column.
`DataFrame.collect()`	Возвращает все записи как список Row.
`DataFrame.columns`	Получает имена всех столбцов в DataFrame как список.
`DataFrame.corr(col1, col2[, method])`	Вычисляет корреляцию двух столбцов DataFrame как значение double.
`DataFrame.count()`	Возвращает количество строк в этом DataFrame.
`DataFrame.cov(col1, col2)`	Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double.
`DataFrame.createGlobalTempView(name)`	Создает глобальное временное представление с этим DataFrame.
`DataFrame.createOrReplaceGlobalTempView(name)`	Создает или заменяет глобальное временное представление с помощью указанного имени.
`DataFrame.createOrReplaceTempView(name)`	Создает или заменяет локальное временное представление с этим DataFrame.
`DataFrame.createTempView(name)`	Создает локальное временное представление с этим DataFrame.
`DataFrame.crossJoin(other)`	Возвращает декартово произведение с другим DataFrame.
`DataFrame.crosstab(col1, col2)`	Вычисляет парно-частотную таблицу указанных столбцов.
`DataFrame.cube(*cols)`	Создает многомерный куб для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
`DataFrame.describe(*cols)`	Вычисляет основные статистики для числовых и строковых столбцов.
`DataFrame.distinct()`	Возвращает новый DataFrame, содержащий уникальные строки в этом DataFrame.
`DataFrame.drop(*cols)`	Возвращает новый DataFrame без указанных столбцов.
`DataFrame.dropDuplicates([subset])`	Возвращает новый DataFrame с удаленными дубликатами строк, опционально только учитывая определенные столбцы.
`DataFrame.dropDuplicatesWithinWatermark([subset])`	Возвращает новый DataFrame с удаленными дубликатами строк.
`DataFrame.drop_duplicates([subset])`	drop_duplicates() является псевдонимом для dropDuplicates().
`DataFrame.dropna([how, thresh, subset])`	Возвращает новый DataFrame, пропуская строки с null значениями.
`DataFrame.dtypes`	Возвращает все имена столбцов и их типы данных как список.
`DataFrame.exceptAll(other)`	Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame, сохраняя дубликаты.
`DataFrame.explain([extended, mode])`	Печатает (логические и физические) планы в консоль для целей отладки.
`DataFrame.fillna(value[, subset])`	Заменяет null значения, псевдоним для na.fill().
`DataFrame.filter(condition)`	Фильтрует строки, используя указанное условие.
`DataFrame.first()`	Возвращает первую строку как Row.
`DataFrame.foreach(f)`	Применяет функцию f к каждой строке этого DataFrame.
`DataFrame.foreachPartition(f)`	Применяет функцию f к каждому разделу этого DataFrame.
`DataFrame.freqItems(cols[, support])`	Находит частые элементы для столбцов, возможно, с ложными срабатываниями.
`DataFrame.groupBy(*cols)`	Группирует DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
`DataFrame.head([n])`	Возвращает первые n строк.
`DataFrame.hint(name, *parameters)`	Указывает некоторые подсказки на текущий DataFrame.
`DataFrame.inputFiles()`	Возвращает снимок файлов, которые составляют этот DataFrame.
`DataFrame.intersect(other)`	Возвращает новый DataFrame, содержащий строки только в этом DataFrame и другом DataFrame.
`DataFrame.intersectAll(other)`	Возвращает новый DataFrame, содержащий строки в этом DataFrame и другом DataFrame, сохраняя дубликаты.
`DataFrame.isEmpty()`	Проверяет, является ли DataFrame пустым, и возвращает булево значение.
`DataFrame.isLocal()`	Возвращает True, если методы collect() и take() могут быть запущены локально (без каких-либо исполнительных ядер Spark).
`DataFrame.isStreaming`	Возвращает True, если этот DataFrame содержит один или более источников, которые постоянно возвращают данные по мере их поступления.
`DataFrame.join(other[, on, how])`	Соединяется с другим DataFrame, используя указанное выражение соединения.
`DataFrame.limit(num)`	Ограничивает количество результатов указанным числом.
`DataFrame.localCheckpoint([eager])`	Возвращает локально контрольную точку версии этого DataFrame.
`DataFrame.mapInPandas(func, schema[, barrier])`	Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает pandas DataFrame, и возвращает результат как DataFrame.
`DataFrame.mapInArrow(func, schema[, barrier])`	Преобразует итератор пакетов в текущем DataFrame, используя native функцию Python, которая принимает и возвращает PyArrow's RecordBatch, и возвращает результат как DataFrame.
`DataFrame.melt(ids, values, …)`	Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов.
`DataFrame.na`	Возвращает DataFrameNaFunctions для обработки пропущенных значений.
`DataFrame.observe(observation, *exprs)`	Определяет (именованные) метрики для наблюдения на DataFrame.
`DataFrame.offset(num)`	Возвращает новый DataFrame, пропуская первые n строк.
`DataFrame.orderBy(cols, *kwargs)`	Возвращает новый DataFrame, отсортированный по указанным столбцам.
`DataFrame.persist([storageLevel])`	Устанавливает уровень хранения для сохранения содержимого DataFrame между операциями после первого раза, когда оно вычисляется.
`DataFrame.printSchema([level])`	Печатает схему в формате дерева.
`DataFrame.randomSplit(weights[, seed])`	Случайно разбивает этот DataFrame с указанными весами.
`DataFrame.rdd`	Возвращает содержимое как pyspark.RDD из Row.
`DataFrame.registerTempTable(name)`	Регистрирует этот DataFrame как временную таблицу с помощью указанного имени.
`DataFrame.repartition(numPartitions, *cols)`	Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения.
`DataFrame.repartitionByRange(numPartitions, …)`	Возвращает новый DataFrame, разбитый на разделы по указанным выражениям разбиения.
`DataFrame.replace(to_replace[, value, subset])`	Возвращает новый DataFrame, заменяя значение другим значением.
`DataFrame.rollup(*cols)`	Создает многомерный rollup для текущего DataFrame, используя указанные столбцы, чтобы мы могли запускать агрегации на них.
`DataFrame.sameSemantics(other)`	Возвращает True, когда логические планы запросов внутри обоих DataFrame равны и поэтому возвращают одинаковые результаты.
`DataFrame.sample([withReplacement, …])`	Возвращает выборку подмножества этого DataFrame.
`DataFrame.sampleBy(col, fractions[, seed])`	Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта.
`DataFrame.schema`	Возвращает схему этого DataFrame как pyspark.sql.types.StructType.
`DataFrame.select(*cols)`	Проектирует набор выражений и возвращает новый DataFrame.
`DataFrame.selectExpr(*expr)`	Проектирует набор выражений SQL и возвращает новый DataFrame.
`DataFrame.semanticHash()`	Возвращает хеш-код логического плана запроса против этого DataFrame.
`DataFrame.show([n, truncate, vertical])`	Печатает первые n строк в консоль.
`DataFrame.sort(cols, *kwargs)`	Возвращает новый DataFrame, отсортированный по указанным столбцам.
`DataFrame.sortWithinPartitions(cols, *kwargs)`	Возвращает новый DataFrame с каждым разделом, отсортированным по указанным столбцам.
`DataFrame.sparkSession`	Возвращает сессию Spark, которая создала этот DataFrame.
`DataFrame.stat`	Возвращает DataFrameStatFunctions для статистических функций.
`DataFrame.storageLevel`	Получает текущий уровень хранения DataFrame.
`DataFrame.subtract(other)`	Возвращает новый DataFrame, содержащий строки в этом DataFrame, но не в другом DataFrame.
`DataFrame.summary(*statistics)`	Вычисляет указанные статистики для числовых и строковых столбцов.
`DataFrame.tail(num)`	Возвращает последние num строк как список Row.
`DataFrame.take(num)`	Возвращает первые num строк как список Row.
`DataFrame.to(schema)`	Возвращает новый DataFrame, где каждая строка согласована с указанной схемой.
`DataFrame.toDF(*cols)`	Возвращает новый DataFrame с новыми указанными именами столбцов.
`DataFrame.toJSON([use_unicode])`	Преобразует DataFrame в RDD строк.
`DataFrame.toLocalIterator([prefetchPartitions])`	Возвращает итератор, который содержит все строки в этом DataFrame.
`DataFrame.toPandas()`	Возвращает содержимое этого DataFrame как pandas pandas.DataFrame.
`DataFrame.to_pandas_on_spark([index_col])`	Преобразует DataFrame в pandas-on-Spark DataFrame.
`DataFrame.transform(func, args, *kwargs)`	Возвращает новый DataFrame.
`DataFrame.union(other)`	Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
`DataFrame.unionAll(other)`	Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
`DataFrame.unionByName(other[, …])`	Возвращает новый DataFrame, содержащий объединение строк в этом и другом DataFrame.
`DataFrame.unpersist([blocking])`	Маркирует DataFrame как неустойчивый и удаляет все блоки для него из памяти и диска.
`DataFrame.unpivot(ids, values, …)`	Переворачивает DataFrame из широкого формата в длинный формат, опционально оставляя столбцы идентификаторов.
`DataFrame.where(condition)`	where() является псевдонимом для filter().
`DataFrame.withColumn(colName, col)`	Возвращает новый DataFrame, добавляя столбец или заменяя существующий столбец с тем же именем.
`DataFrame.withColumns(*colsMap)`	Возвращает новый DataFrame, добавляя несколько столбцов или заменяя существующие столбцы с теми же именами.
`DataFrame.withColumnRenamed(existing, new)`	Возвращает новый DataFrame, переименовывая существующий столбец.
`DataFrame.withColumnsRenamed(colsMap)`	Возвращает новый DataFrame, переименовывая несколько столбцов.
`DataFrame.withMetadata(columnName, metadata)`	Возвращает новый DataFrame, обновляя существующий столбец метаданными.
`DataFrame.withWatermark(eventTime, …)`	Определяет водяной знак времени события для этого DataFrame.
`DataFrame.write`	Интерфейс для сохранения содержимого не-потокового DataFrame во внешнее хранилище.
`DataFrame.writeStream`	Интерфейс для сохранения содержимого потокового DataFrame во внешнее хранилище.
`DataFrame.writeTo(table)`	Создает конструктор конфигурации записи для источников v2.
`DataFrame.pandas_api([index_col])`	Преобразует существующий DataFrame в pandas-on-Spark DataFrame.
`DataFrameNaFunctions.drop([how, thresh, subset])`	Возвращает новый DataFrame, пропуская строки с null значениями.
`DataFrameNaFunctions.fill(value[, subset])`	Заменяет null значения, псевдоним для na.fill().
`DataFrameNaFunctions.replace(to_replace[, …])`	Возвращает новый DataFrame, заменяя значение другим значением.
`DataFrameStatFunctions.approxQuantile(col, …)`	Вычисляет приближенные квантили числовых столбцов DataFrame.
`DataFrameStatFunctions.corr(col1, col2[, method])`	Вычисляет корреляцию двух столбцов DataFrame как значение double.
`DataFrameStatFunctions.cov(col1, col2)`	Вычисляет выборочную ковариацию для указанных столбцов, указанных по их именам, как значение double.
`DataFrameStatFunctions.crosstab(col1, col2)`	Вычисляет парно-частотную таблицу указанных столбцов.
`DataFrameStatFunctions.freqItems(cols[, support])`	Находит частые элементы для столбцов, возможно, с ложными срабатываниями.
`DataFrameStatFunctions.sampleBy(col, fractions)`	Возвращает стратифицированную выборку без замены на основе дроби, данной для каждого страта.