xpath_number(xml, path)
Описание
Функция xpath_number()
извлекает числовое значение из XML-документа по указанному XPath-выражению.
Параметры
xml
: Column - XML-документ в виде строкиpath
: String - XPath-выражение для поиска значения
Возвращаемое значение
Double - извлеченное числовое значение
Пример использования
from pyspark.sql import SparkSession
from pyspark.sql.functions import xpath_number
# Создаем SparkSession
spark = SparkSession.builder.appName("xpath_number_example").getOrCreate()
# Создаем DataFrame с XML
data = [
('<book><pages>250</pages></book>',),
('<book><pages>300</pages></book>',)
]
df = spark.createDataFrame(data, ["xml"])
# Извлекаем количество страниц
result = df.select(
xpath_number("xml", "//pages").alias("pages")
).show()
# Результат:
# +-----+
# |pages|
# +-----+
# | 250|
# | 300|
# +-----+
Примечания
- Если XPath не найден или значение не может быть преобразовано в число, возвращается NULL
- Для извлечения значений с плавающей точкой используйте
xpath_float()
- Для извлечения строк используйте
xpath_string()
- Для извлечения булевых значений используйте
xpath_boolean()