Регулярные выражения

Материал из Поле цифровой дидактики


Описание Регуля́рные выраже́ния (англ. regular expressions, жарг. регэ́кспы или ре́гексы или регулярки) — система обработки текста, основанная на специальной системе записи шаблонов для поиска.
Область знаний Информатика, Лингвистика, Большие данные
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия Perl, PHP, Python, Notepad++

Сейчас регулярные выражения используются многими текстовыми редакторами и утилитами для поиска и изменения текста на основе выбранных правил. Многие языки программирования уже поддерживают регулярные выражения для работы со строками. Например, Perl и Tcl имеют встроенный в их синтаксис механизм обработки регулярных выражений. Набор утилит (включая редактор sed и фильтр grep), поставляемых в дистрибутивах Unix, одним из первых способствовал популяризации понятия регулярных выражений.

На практике процессор регулярных выражений выполняет поиск по шаблону не для одного фрагмента, а для множества фрагментов, которые составляют входящий текст. Разбиение на фрагменты большого текста, позволяет процессору регулярных выражений разумно расходовать ресурсы компьютера, так как текст может быть очень большим для обработки его целиком. Не вдаваясь в детали реализации, процессор мог бы разбивать большой текст на фрагменты ориентируясь на символ переноса строки. Таким образом, процессор строка за строкой пытается найти искомые результаты во фрагментах, причем каждый отдельный фрагмент это отдельная по времени вызываемая процедура, результат которой никак не оказывает влияния на предыдущие или последующие результаты. Понимание этого важно, когда вы столкнетесь с конкретными реализациями процессоров регулярных выражений.

Особенности поиска MediaWiki

В основе регулярных выражений движка Lucene, используемого в MediaWiki, лежат расширенные регулярные выражения POSIX, но есть и различия:

  • Оператор точка . находит любые символы, включая перевод строки.
  • Нет операторов ^ (начало строки) и $ (конец строки).
  • Поддерживаются «ленивые» операторы (например, .*?).
  • Добавлен оператор <> для поиска по диапазону чисел, например: <1997-2006> год в компьютерных играх
  • Для нечувствительности к регистру можно дописать i после закрывающего слэша: insource:/регулярное выражение/i.
  • Для экранирования можно не только добавлять обратный слэш к экранируемому символу, но и заключать часть текста в кавычки: "{{примечания}}" вместо \{\{примечания\}\}.

При этом большинство функций PCRE недоступно, в частности:

  • Все специальные символы нуждаются в экранировании (.?*+\/|[](){}<>"@#~, а также - внутри []) — даже там, где из контекста понятно, что это часть текста.
  • Нельзя использовать символьные классы, такие как \n (перенос строки), \s (пробельный символ) или \d (цифра).

Последнее можно обходить заменой на наборы:

Примеры замен символьных классов
PCRE MediaWiki Описание
\d [0-9] цифра
\D [^0-9] не цифра
\n [^ -􏿽] перевод строки (также может найти символ табуляции)
[^\n\t] [ -􏿽] любой символ, кроме перевода строки и табуляции
\s [^!-􏿽] пробельный символ (пробел, перевод строки или табуляция)
\S [!-􏿽] любой непробельный символ (не пробел, не перевод строки и не табуляция)

В диапазонах « » используется как первый символ, следующий за управляющими, «!» — как следующий за ним, а «􏿽» — как символ с достаточно большим кодом, чтобы все реально используемые в статьях символы располагались в кодовых таблицах раньше него. Таким образом, диапазон от « » до «􏿽» включает все символы, кроме управляющих (из которых в статьях могут встретиться перевод строки и табуляция), а диапазон от «!» до «􏿽» — все, кроме управляющих и пробела.


Расширенные регулярные выражения POSIX

Синтаксис в основном аналогичен традиционному.