]> O Manual do Editor de Expressões Regulares Jesper K. Pedersen
blackie@kde.org
2001-07-03 0.1 &underFDL; 2001 Jesper K. Pedersen Este manual descreve o componente gráfico do Editor de Expressões Regulares KDE expressão regular
Introdução O editor de expressões regulares é um editor para criar uma expressão regular de uma forma gráfica (em contraste com a sintaxe em ASCII). Tradicionalmente, as expressões regulares têm sido escritas com a sintaxe ASCII, que se assemelha, por exemplo, a ^.*kde\b. A maior desvantagem deste estilo é: É difícil de compreender pelos não-programadores. Obriga a que você escape ou comente alguns símbolos (para corresponder a um asterisco, por exemplo, você tem que escrever \*). Obriga a que você se recorde das regras para a precedência (A quê corresponde o x|y*? A um único x ou um conjunto de ys, OU, por sua vez, um conjunto de xs e ys misturados?) O editor de expressões regulares, por outro lado permite-lhe desenhar a sua expressão regular de uma forma não-ambígua. O editor resolve, pelo menos, os itens 2 e 3 descritos acima. Pode não tornar as expressões regulares disponíveis para os não-programadores, ainda que só os testes pelos usuários possam confirmar isso. Por isso, se você for um não-programador e tiver conquistado o poder das expressões regulares com este editor, então comunique-me esse fato. O Que é uma Expressão Regular A expressão regular é uma forma de especificar as condições a cumprir para uma determinada situação em mente. Normalmente, quando você procura num editor de texto, você indica o texto a procurar literalmente; se usar expressões regulares, por outro lado, você diz como a ocorrência poderá se parecer. Alguns exemplos disto incluem Estou à procura da palavra KDE, mas só no início da linha ou Estou à procura da palavra a, mas tem que existir isolada ou ainda Estou à procura dos arquivos que comecem pela palavra teste, seguida de um conjunto de algarismos, como por exemplo teste12, teste107 e teste007 Você constrói as expressões regulares a partir de sub-expressões, tal como você constrói os brinquedos grandes de Lego a partir de peças mais pequenas. Tal como no mundo do Lego, também existe um conjunto de blocos básicos. A seguir será descrita cada um desses "blocos de construção" usando um conjunto de exemplos. Procurando por texto normal. Se você quiser procurar apenas um determinado texto, então a expressão regular não é de fato a melhor escolha. A razão para tal é que as expressões regulares atribuem um significado especial a alguns caracteres. Isto inclui os seguintes caracteres: .*|$. Por isso, se quiser procurar pelo texto kde. (isto é os caracteres kde seguidos de um ponto), então você teria que indicar isto assim: kde\.O editor de expressões regulares resolve este problema ao tratar das regras de escape. Se escrever \. em vez de . isto é chamado de escape. Correspondência com URL's Quando você seleciona algo que se assemelha a uma URL no KDE, então o programa klipper se oferecerá para iniciar o konqueror com a URL selecionada. O Klipper faz isto ao fazer uma correspondência do texto selecionado ou da área de transferência com várias expressões regulares diferentes; quando uma das expressões regulares fizer correspondência, o comando correspondente será disparado. A expressão regular para os URLs diz (entre outras coisas), que o texto deverá começar por http://. Isto é descrito com base nas expressões regulares antecedendo o texto http:// com um acento cincunflexo (o caracter ^). O exemplo acima serve para marcar as posições com expressões regulares. De forma semelhante, a posição do fim de linha poderá ser correspondida com o $ (isto é, um símbolo de cifrão). Procurando pela palavra <literal>a</literal>, mas não por <emphasis>a</emphasis><literal>í</literal>, <literal>a</literal><emphasis>ndar</emphasis> ou <literal>outr</literal><emphasis>a</emphasis><literal>s</literal> Dois tipos adicionais de posições podem ser correspondências na forma acima, nomeadamente a posição no limite de uma palavra e a posição no limite de uma não-palavra. As posições são indicadas usando o texto \b (para os limites das palavras), e o \B (para os limites de sequências que não são palavras) Assim, procurando pela palavra a, pode fazê-lo com a expressão regular \ba\b. Isto indica que você está procurando a palavra a sem nenhuma letra de cada lado dela (isto é, com o limite de uma palavra de cada lado). As quatro de expressões regulares de correspondências de posições são introduzidas no editor de expressões regulares usando a ferramenta de quatro posições diferentes Procurando tanto por <literal>isto</literal> como por <literal>aquilo</literal> Imagine que deseja percorrer o seu documento à procura tanto da palavra isto como da palavra aquilo. Com um método de procura normal, você conseguiria fazer em duas tentativas, sendo que na primeira iria procurar por isto e na segunda iria procurar por aquilo. Ao usar as pesquisas usando as expressões regulares, você iria procurar por ambas as sequências de uma vez. Você faria isso procurando por isto|aquilo, isto é, separando as sequências por uma barra vertical.Repare que em cada lado da barra vertical existe uma expressão regular, como tal esta funcionalidade não se aplica apenas para procurar dois pedaços de texto diferentes, mas sim para procurar duas expressões regulares diferentes. No editor de expressões regulares você não escreve por si próprio a barra vertical, mas sim seleciona a ferramenta de alternativas, introduzindo as sub-expressões regulares uma por cima da outra. Corresponder a tudo As expressões regulares são frequentemente comparadas com os caracteres especiais existentes também na linha de comandos - esta é a capacidade de indicar um conjunto de arquivos com o asterisco. Você irá provavelmente reconhecer a correspondência com os caracteres especiais a partir dos seguintes exemplos: rm *~ - aqui o *~ corresponderá a todos os arquivos que terminem em ~ cat teste??.res - corresponde a todos os arquivos que comecem por teste, seguido de dois caracteres quaisquer, terminando finalmente em .res Na linha de comandos o asterisco corresponde a qualquer caractere de qualquer quantidade. Em outras palavras, o asterisco corresponde a tudo. Isto é escrito com o formato .* na sintaxe das expressões regulares. O ponto corresponde a um caractere qualquer, individualmente, isto é, a apenas um caractere, enquanto que o asterisco indica que a expressão anterior a ele deverá ter uma correspondência repetida por várias vezes. Em conjunto, isto diz que corresponde a qualquer conjunto de caracteres arbitrários com tamanho também arbitrário. Isto poderá parecer mais ou menos complicado, mas quando tiver uma idéia global, irá ver o seu poder. Deixe-me mostrar outra expressão regular básica: o e. A letra e por si só é uma expressão regular que corresponde a uma única letra, nomeadamente a letra e. Se combinar isto com o asterisco, isto é, e*, então obter-se-á uma expressão regular que irá corresponder a uma quantidade arbitrária de e's. Podem-se combinar várias expressões regulares, umas após às outras, como por exemplo ba(na)*. O (na)* apenas diz que o que se encontra dentro de parêntesis é repetido um dado número qualquer de vezes. Imagine que você escreveu esta expressão regular no campo de procura de um editor de texto; nesse caso iria obter as seguintes palavras (entre outras): ba, bana, banana, bananananananana Fornecida a informação acima, espera-se que não seja difícil para você escrever a sequência da linha de comandos teste??.res como uma expressão regular. A resposta é: teste..\.res. O ponto por si só significa qualquer caractere. Para corresponder a um único ponto você precisa de escrever \.Isto corresponder a 'escapar'.. Em outras palavras, a expressão regular \. corresponde a um ponto, enquanto que um ponto sozinho corresponde a qualquer caractere. No editor de expressões regulares, a expressão regular repetida é criada através da ferramenta de repetição Substituindo o <literal>&</literal> por <literal>&amb;</literal> num documento de HTML No HTML, o caractere especial & deverá ser escrito como &amp; - isto é semelhante ao escape nas expressões regulares. Imagine que escreveu um documento em HTML num editor normal (por exemplo, o XEmacs ou o Kate), e se esqueceu por completo desta regra. O que você teria de fazer ao descobrir o seu erro seria substituir todas as ocorrências de & por &amp;. Isto pode ser feito facilmente usando a procura e substituição normais, só que existe, contudo, um pormenor. Imagine que se lembrou de fato desta regra - só um bocadinho - e que resultava em alguns pontos. A substituição incondicional iria resultar em que o &amp; seria substituído por &amp;amp; O que você deseja mesmo dizer era que o & só deveria ser colocado se não fosse seguido pelas letras amp;. Você pode fazer isto usando expressões regulares com leitura antecipada positiva. A expressão regular que só faria corresponder o 'e comercial' se não for seguido das letras amp; assemelha-se ao seguinte: &(?!amp;). Isto é, obviamente, mais simples de ler usando o editor de expressões regulares, onde você iria utilizar as ferramentas de leitura antecipada. Usando o Editor de Expressões Regulares Este capítulo explicará como o editor de expressões regulares funciona. A organização do tela A componente mais importante do editor é, como era de se esperar, a área de edição; esta é a área onde você desenha a sua expressão regular. A área em questão é a zona acinzentada no meio. Acima da área de edição existem duas barras de ferramentas, onde a primeira contém as ações de edição - muito parecidas com as ferramentas de desenho num programa de desenho. A segunda barra de ferramentas contém o botão de o que é isto, assim como os botões para desfazer e refazer. Abaixo da área de edição é possível encontrar a expressão regular construída atualmente, descrita na sintaxe denominada ASCII. A sintaxe ASCII é atualizada enquanto você edita a expressão regular no editor gráfico. Se você quiser, por outro lado, atualizar a sintaxe ASCII fique à vontade para o fazê-lo; nesse caso, o editor gráfico atualiza-se para refletir as suas alterações. Finalmente, à esquerda da área de edição, você encontra um conjunto de expressões regulares pré-concebidas. Estas servem para dois fins: (1) Quando você carregar o editor com uma expressão regular, então esta é tornada mais bonita ou mais compreensível se substituir as expressões regulares comuns. No resultado da tela acima, você pode ver como a sintaxe ASCII foi substituída por uma caixa que diz "tudo". (2) Quando você introduz expressões regulares, poderá encontrar um conjunto de blocos de construção para a sua própria expressão regular a partir do conjunto de expressões regulares pré-definidas. Veja a seção sobre as expressões regulares definidas pelo usuário para aprender como salvar as suas próprias expressões regulares. Ferramentas de Edição O texto nesta seção espera que você tenha lido o capítulo sobre o que é uma expressão regular ou que tenha algum conhecimento prévio sobre o assunto. Todas as ferramentas de edição estão localizadas na barra de ferramentas acima da área de edição. Cada uma delas será descrita a seguir. Ferramenta de Seleção <inlinemediaobject> <imageobject><imagedata format="PNG" fileref="select.png"/> </imageobject></inlinemediaobject> A ferramenta de seleção é usada para marcar os elementos para as operações de cortar-e-colar e de arrastar-e-soltar. Isto é muito semelhante à ferramenta de seleção num programa de desenho. Ferramenta de Texto <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="text.png"/> </imageobject></inlinemediaobject> Usando esta ferramenta você irá introduzir algum texto normal com o qual irá fazer a correspondência. O texto é correspondido literalmente, isto é, você não terá que escapar os caracteres especiais. No exemplo acima, a seguinte expressão regular será criada: abc\*\\\) Ferramenta de Caracteres <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="characters.png"/> </imageobject></inlinemediaobject> Usando esta ferramenta, você irá introduzir intervalos de caracteres. Os exemplos incluem o que o texto ASCII diz [0-9] e [^a-zA-Z,_]. Ao introduzir um item com esta ferramenta, aparecerá uma janela na qual você poderá indicar os intervalos de caracteres. Veja a descrição das expressões regulares repetidas. Ferramenta para Qualquer Caractere <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="anychar.png"/> </imageobject></inlinemediaobject> Esta é a expressão regular do "ponto" (.). Ela aceita qualquer caractere isolado. Ferramenta de Repetição <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="repeat.png"/> </imageobject></inlinemediaobject> Isto corresponde aos elementos repetidos. Isto inclui o que, na sintaxe ASCII, é representado usando um asterisco (*), um sinal de mais (+), um ponto de interrogação (?) e os intervalos ({3,5}). Quando introduzir um item com esta ferramenta, aparecerá uma janela que irá perguntar quantas vezes ocorrerá a repetição. Você especifica o que deseja repetir ao desenhar o conteúdo repetido dentro da caixa que esta ferramenta introduz. Os elementos repetidos podem tanto ser construídos de dentro para fora como vice-versa. Isto significa que você pode desenhar primeiro o que será repetido, selecioná-lo e usar a ferramenta de repetição para o replicar ou, em alternativa, pode indicar primeiro o número de repetições e desenhar o que se pretende repetir dentro dele. Veja a descrição sobre as expressões regulares repetidas. Ferramenta de Alternativas <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="altn.png"/> </imageobject></inlinemediaobject> Esta é a expressão regular para as alternativas (|). Você indica as alternativas quando desenha cada uma delas por cima da anteriores dentro da caixa que esta ferramenta introduz. Veja a descrição sobre as expressões regulares para as alternativas Ferramenta de Composição <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="compound.png"/> </imageobject></inlinemediaobject> A ferramenta de composição não representa nenhuma expressão regulare. É usada para agrupar outros sub-componentes em conjunto dentro de uma caixa, que poderá facilmente ser fechada, restringindo-se apenas ao seu título. Isto poderá ser visto na parte direita do resultado da tela acima. Ferramentas do Início/Fim de Linha <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="begline.png"/> </imageobject></inlinemediaobject>   <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="endline.png"/> </imageobject></inlinemediaobject> As ferramentas do início e do fim de linha correspondem, respectivamente ao início da linha ou ao seu fim, respectivamente. A expressão regular no resultado da tela acima corresponde deste modo às linhas que só tenham espaços. Veja a descrição sobre as expressões regulares de posição. Ferramentas de Limites de (Não-)Palavras <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="wordboundary.png"/> </imageobject></inlinemediaobject>   <inlinemediaobject><imageobject><imagedata format="PNG" fileref="nonwordboundary.png"/> </imageobject></inlinemediaobject> As ferramentas dos limites fazem a sua correspondência com os limites das palavras ou das outras sequências que não representem palavras, respectivamente. A expressão regular no resultado da tela acima corresponderá às palavras que comecem por the. A palavra the em si, todavia, não fará correspondência. Veja a descrição sobre as expressões regulares dos limites. Ferramentas de Leitura Antecipada Positiva/Negativa <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="poslookahead.png"/> </imageobject></inlinemediaobject>   <inlinemediaobject><imageobject> <imagedata format="PNG" fileref="neglookahead.png"/> </imageobject></inlinemediaobject> As ferramentas de leitura antecipada tanto poderão corresponder a expressões positivas ou negativas. A correspondência não faz, contudo, parte da correspondência total. Nota: Só é permitido colocar leituras antecipadas no fim das expressões regulares. O Editor de Expressões Regulares não obriga a isto. Veja a descrição sobre as expressões regulares com leitura antecipada. Expressões Regulares Definidas pelo Usuário À esquerda da área de edição existe uma lista que contém as expressões regulares definidas pelo usuário. Algumas das expressões regulares vêm incluídas na sua instalação do KDE, enquanto que outras poderão ser criadas por você. Estas expressões regulares servem dois propósitos (ver uma descrição detalhada), nomeadamente (1) oferecer ao usuário um conjunto de blocos de construção e (2) tornar as expressões regulares comuns mais bonitas. Você poderá gravar as suas próprias expressões regulares ao clicar com o botão direito do mouse na área de edição e ao escolher a opção Salvar a Expressão Regular. Se a expressão regular que salvar estiver dentro de um recipiente de composição, então a expressão regular irá ajudar a tornar as expressões regulares subsequentes mais bonitas. A expressão regular definida pelo usuário pode ser removida ou renomeada ao clicar com o botão direito na lista, mais precisamente em cima da expressão regular em questão. Relatando erros e Sugerindo Funcionalidades Os erros e funcionalidades relatados são introduzidos no Sistema de Registo de Erros do KDE. Antes de comunicar um erro ou sugerir uma funcionalidade, verifique primeiro se isto não foi já comunicado/sugerido Perguntas Mais Frequentes O editor de expressões regulares suporta referências anteriores? Não, atualmente isto não é suportado. Está planejado para a próxima versão. O editor de expressões regulares suporta a apresentação das ocorrências? Não, mas esperamos que isto esteja disponível na próxima versão. Eu sou o autor de um programa do KDE, como é que posso usar este item no meu aplicativo? Veja na documentação da classe KRegExpEditorInterface. Não consigo encontrar o botão <emphasis>Editar a Expressão Regular</emphasis> numa instalação do KDE 3 ou no konqueror, por exemplo. Porquê? O componente gráfico de expressões regulares está localizado no pacote KDE-utils. Se você não tiver este pacote instalado, então os botões para editar expressões regulares não irão aparecer nos programas. Créditos e Licenças Direitos autorais da documentação de 2001, Jesper K. Pedersen blackie@kde.org &underGPL; &underFDL;