sentences(str, lang, country)
Описание
Функция sentences()
разбивает строку на предложения с учетом языка и страны.
Параметры
str
: Column - исходная строкаlang
: String - код языка (например, "en")country
: String - код страны (например, "US")
Возвращаемое значение
Array[Array[String]] - массив предложений, где каждое предложение - массив слов
Пример использования
from pyspark.sql.functions import sentences, lit
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("sentences_example").getOrCreate()
# Создаем DataFrame с текстом
data = [("Hello World! How are you?",)]
df = spark.createDataFrame(data, ["text"])
# Разбиваем на предложения
result = df.select(
sentences("text", lit("en"), lit("US")).alias("sentences")
).show(truncate=False)
# Результат:
# +----------------------------------+
# |sentences |
# +----------------------------------+
# |[[Hello, World], [How, are, you]]|
# +----------------------------------+
Примечания
- По умолчанию используется английский язык
- Для разделения строки используйте
split()
- Для объединения строк используйте
concat()
- Для работы с регулярными выражениями используйте
regexp_extract()