spark_partition_id()

Описание

Функция spark_partition_id() возвращает идентификатор партиции, в которой выполняется текущая задача.

Параметры

Функция не принимает параметров.

Возвращаемое значение

Integer - идентификатор партиции

Пример использования

from pyspark.sql.functions import spark_partition_id
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("spark_partition_id_example").getOrCreate()

# Создаем DataFrame и получаем идентификаторы партиций
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["number"])
result = df.select("number", spark_partition_id().alias("partition_id")).show()

# Результат:
# +------+-------------+
# |number|partition_id|
# +------+-------------+
# |     1|           0|
# |     2|           0|
# |     3|           0|
# |     4|           0|
# |     5|           0|
# +------+-------------+

Примечания

Идентификаторы партиций начинаются с 0
Количество партиций зависит от конфигурации Spark и размера данных
Для управления партициями используйте:
repartition() для изменения количества партиций
coalesce() для уменьшения количества партиций