admin 26 декабря 2017

6 пунктов, которые помогут легко разобраться с regexp

Давно хотели изучить regexp? Это небольшое руководство поможет разобраться с ними в 6 этапов, а обилие примеров позволит закрепить материал.

Что такое regexp?

Regexp представляет собой группу символов или знаков, которая используется для поиска определенного текстового шаблона.

Регулярное выражение – это шаблон, который сравнивается с предметной строкой слева направо. Словосочетание “regular expression” применяется не так широко, вместо него обычно употребляют “regex” и “regexp”. Регулярное выражение используется для замены текста внутри строки, проверки формы, извлечения подстроки из строки на основе соответствия шаблона и т. д.

Предположим, вы создаете приложение и хотите определить правила, согласно которым пользователи будут выбирать себе имя. Например, мы хотим, чтобы оно содержало буквы, цифры, нижнее подчеркивание и дефисы. Также нам бы хотелось ограничить количество символов в имени пользователя, чтобы оно не выглядело уродливым. Поэтому для проверки будем использовать следующее регулярное выражение:

regexp

Это выражение принимает строки john_doe, jo-hn_doe и john12_as. Однако имя пользователя Jo не будет соответствовать этому выражению, потому что оно содержит прописную букву, а также является слишком коротким.

1. Базовые совпадения

Регулярное выражение - это всего лишь шаблон из символов, который мы используем для выполнения поиска в тексте. Например, регулярное выражение the означает букву t, за которой следует буква h, за которой следует буква e.

"the" => The fat cat sat on the mat.

Регулярное выражение 123 соответствует строке 123. Регулярное выражение сопоставляется входной строке путем сравнения каждого символа в regexp с каждым символом входной строки. Регулярное выражение и входная строка сравниваются посимвольно. Обычно regex чувствительны к регистру, поэтому The не соответствует строке the.

"The" => The fat cat sat on the mat.

Метасимволы	Описание
.	Любой единичный символ, исключая новую строку.
[ ]	Поиск набора символов, помещенных в скобки.
[^ ]	Negated character class. Matches any character that is not contained between the square brackets
*	0 или больше повторений предшествующего символа.
+	1 или больше повторений предшествующего символа.
?	Делает предшествующий символ опциональным.
{n,m}	Возвращает как минимум "n", но не более "m" повторений предшествующего символа.
(xyz)	Находит группу символа в строго заданном порядке.
\|	Разделяет допустимые варианты.
\	Исключает следующий символ. Позволяет искать служебные символы `[ ] ( ) { } . * + ? ^ $ \ \|`
^	Находит начало введенной строки.
$	Находит конец введенной строки.

Сокращение	Описание
.	Любой символ, кроме новой строки
\w	Соответствует буквенно-цифровым символам:`[a-zA-Z0-9_]`
\W	Соответствует не буквенно-цифровым символам:`[^\w]`
\d	Соответствует цифрам: `[0-9]`
\D	Соответствует нецифровым знакам: `[^\d]`
\s	Соответствует знаку пробела: `[\t\n\f\r\p{Z}]`
\S	Соответствует символам без пробела: `[^\s]`

Символ	Описание
?=	Положительный Lookahead
?!	Отрицательный Lookahead
?<=	Положительный Lookbehind
?<!	Отрицательный Lookbehind

Флаг	Описание
i	Нечувствительность к регистру: делает выражение нечувствительным к регистру.
g	Глобальный поиск: поиск шаблона во всей строке ввода.
m	Многострочность: анкер метасимвола работает в каждой строке.

Что такое regexp?

1. Базовые совпадения

2. Метасимволы

2.1 Точка

2.2 Интервал символов

2.2.1 Отрицание набора символов

2.3 Повторения

2.3.1 Звездочка

2.3.2 Плюс

2.3.3. Вопросительный знак

2.4 Скобки

2.5 Символьная группа

2.6 Перечисление

2.7 Исключение специального символа

2.8 Анкеры - Привязки

2.8.1. Caret

2.8.2 Доллар

3. Сокращения для обозначения символов

4. Lookaround Позиционная проверка

4.1 Положительный Lookahead

4.2 Отрицательный Lookahead

4.3 Положительный Lookbehind

4.4 Отрицательный Lookbehind

5. Флаги

5.1 Нечувствительные к регистру

5.2 Глобальный поиск

5.3 Многострочный поиск

6. Жадные vs. ленивые выражения

Также вам могут быть интересны:

ELMA POWER UP!

Python meetup

Помнить все: делимся лучшей шпаргалкой по Python

Английский язык для IT-специалистов

Изучаем алгоритмы: полезные книги, веб-сайты, онлайн-курсы и видеоматериалы

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться