spark_partition_id()
Описание
Функция spark_partition_id()
возвращает идентификатор партиции, в которой выполняется текущая задача.
Параметры
Функция не принимает параметров.
Возвращаемое значение
Integer - идентификатор партиции
Пример использования
from pyspark.sql.functions import spark_partition_id
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("spark_partition_id_example").getOrCreate()
# Создаем DataFrame и получаем идентификаторы партиций
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["number"])
result = df.select("number", spark_partition_id().alias("partition_id")).show()
# Результат:
# +------+-------------+
# |number|partition_id|
# +------+-------------+
# | 1| 0|
# | 2| 0|
# | 3| 0|
# | 4| 0|
# | 5| 0|
# +------+-------------+
Примечания
- Идентификаторы партиций начинаются с 0
- Количество партиций зависит от конфигурации Spark и размера данных
- Для управления партициями используйте:
repartition()
для изменения количества партицийcoalesce()
для уменьшения количества партиций