Skip to content

sentences(str, lang, country)

Описание

Функция sentences() разбивает строку на предложения с учетом языка и страны.

Параметры

  • str: Column - исходная строка
  • lang: String - код языка (например, "en")
  • country: String - код страны (например, "US")

Возвращаемое значение

Array[Array[String]] - массив предложений, где каждое предложение - массив слов

Пример использования

from pyspark.sql.functions import sentences, lit
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("sentences_example").getOrCreate()

# Создаем DataFrame с текстом
data = [("Hello World! How are you?",)]
df = spark.createDataFrame(data, ["text"])

# Разбиваем на предложения
result = df.select(
    sentences("text", lit("en"), lit("US")).alias("sentences")
).show(truncate=False)

# Результат:
# +----------------------------------+
# |sentences                         |
# +----------------------------------+
# |[[Hello, World], [How, are, you]]|
# +----------------------------------+

Примечания

  • По умолчанию используется английский язык
  • Для разделения строки используйте split()
  • Для объединения строк используйте concat()
  • Для работы с регулярными выражениями используйте regexp_extract()