Skip to content

rlike(col, pattern)

Описание

Функция rlike() проверяет, соответствует ли строка регулярному выражению. Это синоним для regexp_like().

Параметры

  • col: Column - столбец со строками для проверки
  • pattern: String - регулярное выражение для сопоставления

Возвращаемое значение

Boolean - TRUE, если строка соответствует регулярному выражению, иначе FALSE

Пример использования

from pyspark.sql.functions import rlike
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("rlike_example").getOrCreate()

# Создаем DataFrame
data = [
    ("hello@example.com"),
    ("invalid_email"),
    ("test@domain.com")
]
df = spark.createDataFrame(data, ["email"])

# Проверяем соответствие email-адресов шаблону
result = df.select(
    "email",
    rlike("email", "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$").alias("is_valid_email")
).show()

# Результат:
# +------------------+-------------+
# |email             |is_valid_email|
# +------------------+-------------+
# |hello@example.com |true         |
# |invalid_email     |false        |
# |test@domain.com   |true         |
# +------------------+-------------+

Примечания

  • Функция чувствительна к регистру
  • NULL значения возвращают NULL
  • Для извлечения подстрок по регулярному выражению используйте regexp_extract()
  • Для замены по регулярному выражению используйте regexp_replace()