Copyright © 2001 Jesper K. Pedersen
Этот документ распространяется на условиях GNU Free Documentation License.
Это руководство описывает редактор регулярных выражений, встраиваемый в приложения KDE.
Содержание
Список примеров
Редактор регулярных выражений предназначен для редактирования регулярных выражений в графическом виде (в отличие от текстовых строк). Традиционно, регулярные выражения имеют ASCII-синтаксис, к примеру: ^.*kde\b
. Основными недостатками данного стиля являются:
Сложность применения для людей, не занимающихся программированием.
Необходимость экранировать определённые символы (например, чтобы использовать символ звёздочки, придётся набрать \*
).
Необходимость постоянно помнить и соблюдать правила приоритетов выполнения - что делает операция x|y*
? Значение x
или множество y
, ИЛИ множества x
и y
смешаны?
Редактор регулярных выражений позволяет рисовать регулярные выражения. Он позволяет решить проблемы, изложенные в пунктах два и три выше. Делает ли редактор простым и доступным использование регулярных выражений для всех — покажет практика. Если вы не программист, который мастерски манипулирует всей мощью регулярных выражений — сообщите нам своё мнение.
Регулярные выражения являются способом записи условий, которыми мы обычно мысленно описываем ситуацию. Обычно в текстовом редакторе для поиска вы используете какие-то конкретные строки, однако использование регулярных выражений позволяет описать: на что должен быть похожим искомый текст. К примеру, Я ищу слово KDE, стоящее только в начале строки, или Я ищу слово под
, но только как слово целиком, или Я ищу файлы, начинающиеся со слова test
и последующих цифр, к примеру test12
, test107
и test007
Регулярные выражения можно составлять из более мелких регулярных выражений, подобно тому как строятся большие дома из маленьких кирпичей. Так как в строительстве существует множество материалов, то далее мы постараемся на примерах рассказать об основных «кирпичах», тем самым заложив фундамент для построения регулярных выражений.
Пример 2.1. Поиск обычного текста
Оговоримся сразу, что регулярные выражения не являются наилучшим способом поиска конкретных строк в тексте. Причина кроется в том, что в регулярных выражениях некоторым символам присвоены специальные значения. Среди них следующие: .*|$
. Таким образом, если вы хотите найти в тексте kde.
(то есть слово kde
с точкой), то придётся набрать kde\.
[1], записав \.
вместо .
, то есть подставив управляющую последовательность (escape sequence, также это было названо экранированием выше) вместо символа.
Пример 2.2. Поиск интернет-адресов
При выделении текста похожего на URL в KDE программа klipper, если она настроена соответствующим образом, предложить вам открыть этот URL при помощи konqueror.
Klipper осуществляет свой выбор, руководствуясь результатами сопоставления нескольких регулярных выражений, и когда одно из регулярных выражений совпадает с искомым, тогда и будет предложен подходящий вариант.
Регулярное выражение для URL содержит (помимо всего прочего) условие, что текст должен начинаться с http://
. С помощью регулярного выражения это условие можно описать следующим образом: http://
со «шляпой» (с символом ^
).
Предыдущий пример показывает, как с помощью регулярных выражений можно указать расположение искомого фрагмента в тексте (сравнение по позиции). Аналогично можно указать на то, что искомый фрагмент находится в конце строки , для этого используется символ $
(символ доллара).
Пример 2.3. Поиск слова the
, но не there
, brea
the или ano
ther
По образу и подобию вышеизложенного могут быть указаны ещё два дополнительных условия при поиске, а именно: позиция на границе слова (в начале, либо конце) и не на границе слова. Для обозначения этих условий применяются обозначения \b
(указание на границу слова) и \B
(не на границе слова).
Таким образом, слово the
можно найти, воспользовавшись регулярным выражением \bthe\b
. Этим мы указываем, что ищем просто слово the
без каких-бы то ни было «довесков» перед и после слова (т.е с границами по каждой из сторон фразы).
Все четыре типа указания на расположение, использующиеся в регулярных выражениях, включены в редактор, см. четыре различных типа расположения
Пример 2.4. Поиск всех this
или that
Представьте себе, что вы хотите найти в документе слово this
или слово that
. При обычном поиске вам необходимо сделать два прохода: в первый произвести поиск слова this
, во второй — that
.
Используя регулярные выражения, сделать всё это можно за один приём. Для этого запишите выражение следующим образом: this|that
, т.е. разделите оба искомых слова вертикальной чертой.[2]
В редакторе регулярных выражений вы не вводите вручную вертикальную черту, а активируете инструмент Варианты и вводите регулярные выражения в отдельные поля.
Пример 2.5. Поиск произвольных символов
Регулярные выражения часто сравнивают с шаблоном, использующемся в командном интерпретаторе (оболочке), где можно выбрать несколько файлов, используя звёздочку. Вы без всякого сомнения узнаете шаблон в следующих примерах:
ls *.txt
— здесь *.txt
является шаблоном, указывающим на то, что необходимо показать все файлы с расширением .txt
cat test??.res
— вывод всех файлов, имена которых начинаются с test
, за которым следуют два любых символа, и заканчиваются на .res
.
В оболочке звёздочка указывает, что любой символ может встретиться в названии любое количество раз, другими словами, звёздочка означает всё, что угодно. В регулярном выражении подобное условие задаётся при помощи записи .*
. Точка указывает, что может быть один произвольный символ, в свою очередь звёздочка сообщает, что предыдущее регулярное выражение может повторяться любое количество раз. Вместе они задают условие поиска: любой единичный символ может быть встречен произвольное количество раз.
Это может на первый взгляд показаться чрезмерно сложным, но когда вы увидите всю картину работы регулярных выражений, то сможете по достоинству оценить всё их изящество. Позвольте продемонстрировать ещё одно основное выражение: a
. Эта запись указывает, что регулярное выражение ищет соответствие одиночному символу a
. Если объединить эту запись со звёздочкой, т.е. a*
, то получится регулярное выражение соответствующее любому количеству символов «a» подряд.
Можно объединять несколько регулярных выражений последовательно, например ba(na)*
. Запись [3]. Представьте себе, что работая в текстовом редакторе, необходимо найти следующие слова: ba
, bana
, banana
, bananananananana
Как сказано выше, не составляет труда записать шаблон оболочки: test??.res
через регулярное выражение: test..\.res
. Точка означает любой символ. Для того чтобы указать, что нужна именно точка, вы должны записать \.
[4]. Во всех словах регулярное выражение \.
означает собственно точку, а просто точка — соответствие любому символу в данной позиции.
В редакторе регулярных выражений повторяющиеся выражения могут быть вставлены с использованием инструмента Повторение
Пример 2.6. Замена &
на &
в документе HTML.
Для показа на странице HTML специального символа &
, его необходимо записывать как &
— по аналогии с тем, как происходит замена служебных символов на управляющие последовательности в регулярных выражениях.
Представьте себе, что вы набрали документ HTML в обычном текстовом редакторе (XEmacs, Kate или Notepad), и полностью забыли про эти правила. Для того чтобы устранить ошибку, необходимо заменить все символы &
на &
.
Эта операция может быть достаточно просто реализована с использованием традиционных средств поиска и замены, однако возможны некоторые осложнения. Представьте себе, что что вы периодически вспоминали об этих правилах, т.е. местами у вас записано правильно. В этом случае все ошибочные варианты будут заменены на правильные &
, а в тех местах, где было записано правильно, возникнет новая ошибка: &
На самом деле вы хотите произвести замену записи &
только в том случае, если за ней не стоит amp;
. Для этого нужно задать ограничение на контекст (т.е. то, что будет непосредственно после найденного текста).
Для того чтобы указать, при котором за искомым текстом не должно стоять amp;
, необходимо записать следующее выражение: &(?!amp;)
. Гораздо проще всё будет выглядеть в редакторе регулярных выражений, если вы воспользуетесь инструментом Упреждающий поиск по отрицанию.
[1] Редактор регулярных выражений выполнит все необходимые формальности за вас
[2] Обратите внимание, что по обе стороны от вертикальной черты могут находиться не только искомые слова, но и два регулярных выражения.
[3] (na)*
указывает, что строка в скобках может повторяться любое количество раз
[4] Здесь использована управляющая последовательность
В этой главе рассказывается о работе непосредственно с редактором регулярных выражений.
Наиболее важной частью редактора является область редактирования: это область, в который вы рисуете регулярные выражения. Область имеет серый цвет и расположена в центре окна редактора.
Выше области редактирования расположены две панели инструментов. Первая панель содержит средства редактирования и очень похожа на инструменты для рисования в графических программах. Вторая панель содержит кнопку Что это? и кнопки отмены и повтора.
Ниже области редактирования находится строка регулярного выражения в текстовом (ASCII) виде. Все изменения, вносимые в графическом редакторе переносятся в текстовую форму. Если вы захотите поправить регулярное выражение в текстовом виде, то все изменения также будут внесены в графическое представление.
Наконец, слева от области редактирования есть много заготовок регулярных выражений. Они служат для достижения двух целей: (1) когда вы используете редактор, эти выражения являются более качественными или, если хотите, более исчерпывающими, заменяя общие регулярные выражения. На рисунке выше вы можете увидеть, как текстовое представление «.*» заменяется на шаблонное «всё что угодно».(2) Вы можете использовать эти заготовки в качестве строительного материала для построения своих регулярных выражений. За более исчерпывающей информацией обратитесь к разделу Регулярные выражения, определяемые пользователями, где содержится подробная информация о том, как сохранить ваши собственные регулярные выражения.
В этой главе предполагается, что вы изучили главу Что такое регулярные выражения ? и имеете представление, о чём идёт речь.
Все инструменты расположены на панели инструментов выше области редактирования. Далее будет описан каждый из инструментов.
Выделение предназначено для обозначения элементов, подлежащих копированию, вставке или перетаскиванию. Выделение работает также как и в обычных программах для работы с графикой.
Используя этот инструмент, вы можете вставить обычный текст, при этом не заботясь о необходимости экранирования специальных символов. Далее в примере будет создано регулярное выражение: abc\*\\\)
Используя этот инструмент, вы определяете области символов. К примеру, что в тексте содержатся символы [0-9]
, [^a-zA-Z,_]
. Если вы воспользовались данным инструментом, то должен появиться диалог, в котором определяются области символов.
См. также Повторение регулярных выражений.
Повторяющиеся элементы (квалификаторы). Включают в себя звёздочку (*), плюс (+), знак вопроса (?) и интервал ({3,5}). Если вы используете этот инструмент, то появится диалог, в котором вы должны указать необходимое количество повторов.
Вы определяете, что требуется повторять, рисуя его внутри рамки, которая появляется при использовании данного инструмента.
Повторяемые элементы выражения можно взять извне, затем поместить в квадрат. Также вы можете сперва нарисовать то что потом должно будет быть повторено, а затем выбрать инструмент повторения. И наоборот: вы можете сперва вставить символ повторения (квалификатор), а затем нарисовать внутри него повторяемое.
Задание альтернативы — это использование оператора (|). Вы рисуете другой вариант поверх имеющегося, после того как в редакторе появится новая рамка для ввода.
См. раздел Варианты в регулярных выражениях
Этот инструмент — не регулярное выражение. Оно позволяет группировать блоки для того, чтобы вы могли их легко использовать, руководствуясь только названиями. Это видно в правой части рисунка.
Инструменты начала и конца строк указывают на соответствие условиям начала и конца строки. Регулярное выражение в приведённом выше примере окна редактора не содержит операторов соответствия началу или концу строк.
Инструментальные средства границ позволяют задавать условия соответствие границам или содержимому слова. Регулярное выражение, изображённое на рисунке, совпадает с любыми словами, начинающимися с the
. Само слово the
однако не совпадает с этим условием.
См. описание в разделе Границы слов в регулярных выражениях.
Запрет или разрешение того, чтобы после найденного текста шёл текст, отвечающий указанному шаблону. Этот текст, тем не менее, не будет являться частью результата.
Примечание: разрешается устанавливать такие условия только в конце регулярного выражения. Редактор регулярных выражений не следит за этим.
См. описание в разделе Упреждающий поиск.
Слева от области редактирования расположен список регулярных выражений, определяемых пользователем. Несколько регулярных выражений занесено в этот список непосредственно после установки KDE, тогда как другие вы можете внести и сохранить самостоятельно.
Данные регулярные выражения обеспечивают достижение двух целей: (см. более подробное описание), а именно: 1) Обеспечивают блоки для компоновки регулярных выражений 2) делают регулярные выражения более понятными.
Вы можете сохранить ваши собственные регулярные выражения, щёлкнув правой кнопкой мыши в области редактирования и выбрав пункт Сохранить регулярное выражение
в появившемся меню.
Если регулярное выражение сохраняется в составе контейнера, то оно может участвовать в создании последующих регулярных выражений.
Регулярные выражения, определяемые пользователем, могут быть переименованы или удалены щелчком правой кнопки мыши на их названии в списке и выбором соответствующего пункта в появившемся меню.
Замеченные ошибки и пожелания направляйте в систему отслеживания ошибок, но сначала убедитесь в том, что подобная ошибка ещё не была зафиксирована.
В настоящий момент нет, но планируется к реализации в следующей версии.
Нет, но будем надеяться, что это будет реализовано в будущем.
Редактор регулярных выражений содержится в пакете kdeutils. Если вы не установили этот пакет, то кнопка Изменить регулярное выражение не появится в соответствующих программах.
Документация © 2001, Jesper K. Pedersen (blackie AT kde.org)
,Перевод на русский язык © 2002 Клютченя А.Л. (asoneofus AT kde.ru)
. Редактирование перевода © 2004, 2007 Шафоростов Н. (shaforostoff AT kde.ru)
Программа распространяется на условиях лицензии GNU General Public License.
Этот документ распространяется на условиях GNU Free Documentation License.
Would you like to make a comment or contribute an update to this page?
Send feedback to the KDE Docs Team