spark_partition_id()
Описание
Функция spark_partition_id() возвращает идентификатор партиции, в которой выполняется текущая задача.
Параметры
Функция не принимает параметров.
Возвращаемое значение
Integer - идентификатор партиции
Пример использования
from pyspark.sql.functions import spark_partition_id
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("spark_partition_id_example").getOrCreate()
# Создаем DataFrame и получаем идентификаторы партиций
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["number"])
result = df.select("number", spark_partition_id().alias("partition_id")).show()
# Результат:
# +------+-------------+
# |number|partition_id|
# +------+-------------+
# |     1|           0|
# |     2|           0|
# |     3|           0|
# |     4|           0|
# |     5|           0|
# +------+-------------+
 Примечания
- Идентификаторы партиций начинаются с 0
 - Количество партиций зависит от конфигурации Spark и размера данных
 - Для управления партициями используйте:
 repartition()для изменения количества партицийcoalesce()для уменьшения количества партиций