rlike(col, pattern)
Описание
Функция rlike()
проверяет, соответствует ли строка регулярному выражению. Это синоним для regexp_like()
.
Параметры
col
: Column - столбец со строками для проверкиpattern
: String - регулярное выражение для сопоставления
Возвращаемое значение
Boolean - TRUE, если строка соответствует регулярному выражению, иначе FALSE
Пример использования
from pyspark.sql.functions import rlike
from pyspark.sql import SparkSession
# Создаем SparkSession
spark = SparkSession.builder.appName("rlike_example").getOrCreate()
# Создаем DataFrame
data = [
("hello@example.com"),
("invalid_email"),
("test@domain.com")
]
df = spark.createDataFrame(data, ["email"])
# Проверяем соответствие email-адресов шаблону
result = df.select(
"email",
rlike("email", "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$").alias("is_valid_email")
).show()
# Результат:
# +------------------+-------------+
# |email |is_valid_email|
# +------------------+-------------+
# |hello@example.com |true |
# |invalid_email |false |
# |test@domain.com |true |
# +------------------+-------------+
Примечания
- Функция чувствительна к регистру
- NULL значения возвращают NULL
- Для извлечения подстрок по регулярному выражению используйте
regexp_extract()
- Для замены по регулярному выражению используйте
regexp_replace()