Copyright © 2004-2005 Gary R. Cramblitt
É dada permissão para copiar, distribuir e/ou modificar este documento ao abrigo da GNU Free Documentation License, Versão 1.1 ou de uma versão mais recente publicada pela Free Software Foundation; sem Secções Invariantes, sem Textos de Capa Frontal, e sem Textos de Capa Traseira. Uma cópia desta licença está incluida na secção intitulada "GNU Free Documentation License".
KTTS - o sistema de Texto-para-Fala do KDE - é um serviço baseado em 'plugins' que permite a qualquer aplicação (KDE e não-KDE) falar com a interface de DCOP.
O KTTS pretende ser a implementação da API de Texto-para-Fala do KDE.
Índice
O KTTS é um sub-sistema no KDE para produzir Texto-para-Fala (TTS). Ele oferece uma API comum para os programadores do KDE usarem as capacidades de TTS para as suas aplicações. Ele oferece algumas capacidades boas também para os utilizadores finais.
Funcionalidades do utilizador:
Falar o conteúdo de um ficheiro de texto.
Falar os eventos de notificação do KDE (KNotify).
Falar todo ou parte do texto de uma página Web no Konqueror.
Falar todo ou parte do texto no editor de texto Kate, incluindo as instâncias em que o Kate está incorporado noutra aplicação do KDE.
O texto comprido é processado em frases. O utilizador poderá salvaguardar por frase ou parágrafo, repetir, pausar e parar a reprodução.
Saída de áudio através do aRts, ALSA, GStreamer (versão 0.8.7 ou posterior) ou aKode.
Filtros configuráveis pelo utilizador para substituir as palavras erradas, escolher os sintetizadores de voz e transformar os documentos em XML/XHTML.
Funcionalidades do programador:
Um sistema de prioridades para o resultado do leitor do ecrã, dos avisos e das mensagens, enquanto reproduz à mesma os textos normais.
Uma arquitectura baseada em 'plugins' para suportar uma grande variedade de sintetizadores e controladores de voz.
Permite a geração de fala a partir da linha de comandos (ou através de 'scripts'), usando os utilitários de DCOP do KDE.
Oferece uma interface leve e fácil de usar para as aplicações gerarem conteúdos falados.
As aplicações não precisam de se preocupar com a contenção sobre o dispositivo de voz.
FUTURO: Oferecer o suporte para as linguagens de formatação de voz, como o VoiceXML, o Sable, a Java™ Speech Markup Language (JSML) e a Speech Markup Meta-language (SMML).
FUTURO: Oferecer um suporte limitado para marcadores de voz incorporados.
Assíncrono, para evitar o bloqueio do sistema.
O KTTS consiste de facto em vários programas:
o Servidor de Texto-para-Voz do KDE, o qual é uma aplicação não-gráfica que oferece os serviços de TTS às aplicações através do DCOP.
uma aplicação de GUI para configurar e controlar o 'kttsd'. O 'kttsmgr' fica na bandeja do sistema.
Um 'plugin' para o navegador Web Konqueror que lhe permite falar todo ou parte do texto numa página Web.
Um 'plugin' para o editor de texto Kate que lhe permite falar todo ou parte de um ficheiro de texto.
Para além da base de dados do Bugzilla do KDE ( http://bugs.kde.org/ ), as discussões sobre o KTTS tomam lugar de momento na lista de correio 'kde-accessibility'. Subscreva-se em https://mail.kde.org/mailman/listinfo/kde-accessibility. A equipa de desenvolvimento também costuma aparecer no IRC (irc.kde.org, canal #kde-accessibility).
Antes de poder usar o KTTS, deverá instalar pelo menos um motor de síntese de voz e garantir que este funciona. Veja em Apêndice A, Instalação.
Para iniciar o sistema do KTTS, escreva o seguinte comando numa Konsole
kttsmgr
ou carregue no KTTS no Menu do KDE.
Se for a primeira vez que executar o kttsmgr, ou se ainda não configurou nenhuns locutores, o ecrã de Locutores. Veja em “Configurar os 'Plugins' de Síntese (Locutores)”. Se já tiver configurado pelo menos um locutor, o ecrã Geral aparece. Veja em “Iniciar o KTTSD e Configurar as Opções Geral”.
A maioria dos sintetizadores de texto-para-fala (TTS) oferecem várias línguas e vozes e poderão oferecer vários sexos, volumes e taxas. Poderá configurar mais que uma instância de um sintetizador. Cada combinação de língua, sintetizador, voz, som, volume e taxa chama-se um locutor. É preciso configurar pelo menos um locutor antes de poder iniciar o KTTS e começar a falar o texto.
Vários locutores para o mesmo sintetizador é semelhante a várias filas de impressão para uma única impressora física.
Quando as aplicações enviam texto para o KTTS, poderão indicar os atributo para fazer a síntese. Por exemplo, uma aplicação poderá pedir uma locutora feminina inglesa. Se tiver configurador um locutor com a língua inglesa e do sexo feminino, será usado esse locutor, caso contrário será usado o locutor que mais se aproxima dessas características. Para saber mais como o KTTS escolhe os locutores, veja em “Filtros (Avançado)”.
Quando carrega na página de Locutores do kttsmgr, o ecrã de Locutores aparece. Este ecrã aparece também automaticamente se iniciar o kttsmgr e não tiver configurado nenhuns locutores.
![]() | Carregue para adicionar um novo locutor. |
![]() | Todos os Locutores configurados estão aqui indicados. Os Locutores de maior prioridade encontram-se no topo. O Locutor do topo será usado para falar, quando uma aplicação não indicar nenhum locutor específico. |
![]() | Carregue num locutor da lista para o seleccionar e carregue neste botão para o remover. |
![]() | Carregue num locutor da lista para o seleccionar e carregue neste botão para mostrar a janela de configuração do 'plugin' de síntese. Veja em baixo. |
![]() | Carregue num locutor da lista para o seleccionar e carregue neste botão para o descer uma posição na lista. Quanto mais baixo estiver um locutor na lista, menor a sua prioridade. |
![]() | Carregue num destes botões para aplicar as alterações que tenha feito ao sistema KTTS em execução. |
Quando carregar no botão Adicionar, o ecrã para Adicionar um Locutor aparece.
![]() | Poderá seleccionar um 'plugin' de síntese de voz pelo nome do Sintetizador ou pela Língua que o sintetizador consegue falar. Assinale a opção ao lado da área correspondente. Quando o botão da Língua estiver assinalado, a área da Língua mostra todas as línguas suportadas por todos os sintetizadores disponíveis e a área do Sintetizador mostra apenas os que suportam a língua escolhida. Quando estiver a opção do Sintetizador seleccionada, a área do Sintetizador mostra todos os que se encontram disponíveis e a Língua mostra apenas as línguas suportadas pelo sintetizador escolhido. |
![]() | Escolha aqui a língua e o 'plugin' de síntese. |
![]() | Quando carregar aqui, a maioria dos 'plugins' de síntese configurar-se-ão automaticamente a eles próprios, escolhendo uma configuração predefinida. Irá aparecer um novo locutor na lista da página Locutores. Carregue no botão Editar para mostrar ou editar a configuração do locutor. |
Quando você carrega no botão Adicionar da página Locutores e adicionar um locutor ou carrega no botão , o ecrã de Configuração do Locutor aparece. Cada 'plugin' de voz tem um ecrã de Configuração do Locutor diferente. Segue-se um exemplo de configuração para o Festival Interactive. Para mais detalhes específicos sobre cada tipo de 'plugin', veja “Configuração”.
![]() | Indique a localização do programa executável do Festival. Se o Festival estiver na sua variável de ambiente PATH, basta indicar |
![]() | Carregue para procurar por vozes disponíveis. |
![]() | Seleccione uma voz. |
![]() | Seleccione uma codificação de caracteres para o texto a enviar para o Festival. Para as vozes que são reconhecidas pelo KTTS, esta opção será obtida para si automaticamente. De um modo geral, as línguas ocidentais usam a codificação ISO 8859-1. As línguas da Europa de Leste, por seu turno, como o Checo e o Eslovaco, usam o ISO 8859-2. |
![]() | Carregue para testar. Deverá ouvir agora uma frase de teste falada. |
![]() | Use estas opções para controlar o volume, a velocidade da síntese e o tom da voz sintetizada. Se alguma destas estiver desactivada (a cinzento), é porque a voz escolhida não suporta a alteração dos valores. |
![]() | Algumas vozes, como as do MultiSyn, são tão grandes que necessitam de vários segundos para serem carregadas. Se assinalar esta opção, fará com que estas sejam carregadas no arranque do KTTSD, poupando deste modo algum tempo (com a contrapartida de usar mais memória), antes de a primeira frase ser sintetizada. |
Carregue no botão para gravar a configuração do locutor.
Certifique-se que carrega no botão , caso contrário as suas alterações não farão efeito no sistema KTTS em execução.
Assumindo que o teste funcionou, já está quase pronto a começar a usar o KTTS. Volte agora à página Geral e assinale a opção Activar o Sistema de Texto-para-Voz (KTTSD). Isto irá iniciar o Servidor de TTS do KDE. Veja em “Iniciar o KTTSD e Configurar as Opções Geral”. Poderá começar a usar agora o KTTS para dizer o texto. Carregue na página Tarefas para criar e gerir as tarefas de texto. Veja em “Gerir as Tarefas de Texto”.
Logo que tenha configurado pelo menos um Locutor, poderá iniciar o Sistema de Texto-para-Voz do KDE. Carregue na página Geral. Neste caso, aparecerá o ecrã Geral. Poderá também configurar algumas opções gerais neste ecrã.
![]() | Assinale esta opção para activar o sistema KTTS. Isto irá iniciar o Servidor de TTS do KDE (KTTSD). Se o KTTSD iniciar com sucesso, irá aparecer a página de Tarefas. Logo que o KTTSD tenha sido iniciado, poderá começar a criar e a falar as tarefas de texto. Veja em “Gerir as Tarefas de Texto”. Se desligar a opção, irá parar o KTTSD e desactivar o sistema de TTS do KDE. NotaSe esta opção estiver desactivada, ainda não configurou nenhuns Locutores (ou então esqueceu-se de carregar no botão Aplicar). Veja em “Configurar os 'Plugins' de Síntese (Locutores)”. |
![]() | Quando esta opção estiver assinalada, aparecer um ícone na bandeja do sistema, sempre que o kttsmgr estiver em execução. Neste modo, se carregar em OK ou em Cancelar não fará com que o kttsmgr saia. Em vez disso, o ecrã desaparece, mas o kttsmgr continua a correr na bandeja do sistema. Carregue no ícone para repor o ecrã. Para sair do kttsmgr, carregue com o botão direito no ícone da bandeja do sistema e escolha Sair. Quando estiver desligada a opção, não aparecerá nenhum ícone na bandeja do sistema. Se carregar em OK ou em Cancelar, sairá do kttsmgr. NotaQuando o kttsmgr sair, o KTTS mantém-se a correr se a opção para Activar o Sistema de Texto-para-Voz (KTTSD) estiver assinalada. NotaEsta opção não fará efeito até à próxima vez em que o kttsmgr for iniciado. NotaEsta opção não fará efeito quando o kttsmgr estiver em execução no KControl. |
![]() | Quando esta opção estiver assinalada, o ecrã do kttsmgr aparece quando iniciar o kttsmgr. Se estiver desligada, o ícone do kttsmgr aparecerá na bandeja do sistema quando o kttsmgr for iniciado, se bem que o ecrã não apareça. Carregue no ícone da bandeja para que este então apareça. |
![]() | Quando esta opção estiver assinalada e o kttsmgr não estiver já a correr, irá aparecer na bandeja do sistema, sempre que o KTTSD estiver a falar. Ela dá-lhe uma oportunidade para parar ou gerir de outra forma qualquer a fala. |
![]() | Quando esta opção estiver assinalada e o kttsmgr aparecer automaticamente na bandeja do sistema, sempre que estiver falar, irá também desaparecer automaticamente, depois de falar. |
![]() | Não se esqueça de carregar aqui para gravar a sua configuração. |
Quando carrega na página de Tarefas do kttsmgr, o ecrã de Tarefas aparece.
![]() | Todas as tarefas de texto que existem actualmente na fila de espera aparecem aqui, em conjunto com a aplicação que colocou a tarefa na fila, o estado actual da mesma, o número de frases na tarefa e o número de frase actual. O ID do Locutor corresponde à coluna ID no ecrã de Locutores. |
![]() | Os botões nesta barra de ferramentas permitem-lhe iniciar, remover e pôr em pausa as tarefas de texto. Seleccione uma tarefa na lista abaixo e carregue num destes botões. |
![]() | Os botões nesta barra de ferramentas permitem-lhe avançar ou voltar atrás na frase dentro da tarefa seleccionada na lista em baixo. (Nem todas as tarefas têm várias partes.) |
![]() | Os botões nesta barra de ferramentas permitem-lhe falar o texto na área de transferência do KDE ou abrir um ficheiro de texto para falar. Poderá também actualizar a lista de tarefas de texto ou modificar o locutor de uma tarefa. Veja em “Seleccionar os Locutores (Avançado)”. |
![]() | A frase que está a ser falada de momento aparece aqui. |
![]() | Quando carregar em , todas as alterações de configuração nos outros ecrãs são aplicadas (se existirem) e o kttsmgr minimizar-se-á para a bandeja do sistema. Carregue no ícone da bandeja do sistema para se repor no ecrã. |
![]() | Arraste esta divisória para dimensionar a listagem das tarefas e os painéis da Frase actual. |
A página de Tarefas só aparece quando o KTTSD está em execução. Se não conseguir ver a página Tarefas, vá à página Geral e assinale a opção Activar o Texto-para-Voz (KTTSD).
Se não tiver o sub-sistema de áudio do aRts instalado, mas tiver o ALSA, o GStreamer ou o aKode instalados, carregue na página Áudio). Veja em “Configuração do Áudio”.
Só são listadas e controladas neste ecrã as tarefas de texto. O Resultado da Leitura do Ecrã, os Avisos e as Mensagens não são apresentados. Para mais informações sobre os tipos de mensagens do KTTS, veja em “Filtros (Avançado)”.
Quando carrega na página de Áudio do kttsmgr, o ecrã de Áudio aparece.
![]() | Seleccione o método de saída de áudio aqui. Se um componente estiver acinzentado, ou o KTTS foi compilado sem o suporte para esse 'plugin' de áudio, ou o KTTS foi incapaz de carregar as bibliotecas necessárias. |
![]() | Se o GStreamer ou o aKode estiverem seleccionados para a saída de áudio, escolha o método de 'sink' (canal) de áudio do GStreamer. Se não estiver listado nenhum 'sink', terá de instalar pelo menos um. Se estiver seleccionado o ALSA, escolha o dispositivo PCM aqui. Veja em “Requisitos”. |
![]() | Ajuste a velocidade da fala aqui. 50% é aproximadamente duas vezes mais lento que o normal, enquanto 200% é aproximadamente duas vezes mais rápido. Tem que ter o utilitário sox instalado para isto funcionar. |
![]() | Quando esta opção estiver assinalada, o KTTS irá copiar os ficheiros de áudio temporários (ficheiros .wav) para a pasta indicada. Escolha qualquer pasta no seu disco rígido, se bem que precisa de ter acesso de escrita para ela. Isto poderá ser útil para criar os ficheiros de áudio de voz para outros fins. Os ficheiros terão nomes no formato |
![]() | Certifique-se que carrega no botão para tornar efectivas as opções novas no sistema KTTS em execução. |
Existem duas formas de ajustar a velocidade no KTTS. Muitos dos Locutores têm uma configuração de Velocidade nas suas janelas de configuração, que poderão ser acedidas se carregar em no ecrã de Locutores. Esta opção de Velocidade do ecrã de Áudio é adicional em relação à velocidade do Locutor e pode ser usada de um modo geral, mesmo que o Locutor não suporte uma opção de velocidade. Para essa funcionar, deverá ter o utilitário sox instalado no seu sistema (utilizadores de Debian: apt-get install sox). Da mesma forma, esta opção de velocidade é ignorada ao falar o texto que contenha SSML. (Veja em “SSML”)
A lista de dispositivos ALSA inclui todos os dispositivos PCM do ALSA e 'plugins' que estejam configurados no seu sistema. Muitas das opções não irão funcionar. Terá de experimentar e encontrar um dispositivo que funcione para si. Se tiver dúvidas, escolha o default (por omissão).
Quando carregar na página Interrupção do kttsmgr, irá aparecer o ecrã de Interrupção.
Este ecrã permite-lhe indicar algumas acções especiais a tomar quando uma tarefa de texto for interrompida por outra de maior prioridade. Existem quatro tipos de tarefas de voz que o KTTS lida:
Texto normal.
Mensagens.
Avisos.
Resultado do Leitor do Ecrã.
O Resultado do Leitor do Ecrã tem a maior prioridade. Está reservado para as aplicações de Leitura do Ecrã. O Resultado do Leitor faz a preempção de todas as outras mensagens, fazendo com que essas tarefas fiquem em pausa. Logo que o Resultado do Leitor do Ecrã tenha sido sintetizado, as tarefas anteriores irão prosseguir automaticamente.
Os avisos são a próxima prioridade mais elevada. Está reservada para as mensagens de alta prioridade, como "o CPU está a aquecer". Um aviso irá interromper as mensagens e o texto normal. Logo que o Aviso tenha sido sintetizado, as tarefas anteriores irão prosseguir automaticamente.
As mensagens são a próxima prioridade. Uma mensagem irá interromper as tarefas de texto normal. O KMouth é um exemplo de uma aplicação que usa as Mensagens. Por exemplo, ao ler um texto longo de uma página Web, o KMouth pode ser usado para cumprimentar alguém que ande pela sala.
Todos os tipos de tarefas são filas, excepto o Resultado do Leitor do Ecrã. Se um Resultado do Leitor do Ecrã for enviado de uma aplicação enquanto o KTTS estiver a falar outro Resultado destes, a mensagem a ser falada é interrompida e eliminada.
Quando uma tarefa de texto for interrompida por uma Mensagem, Aviso ou Resultado do Leitor do Ecrã, o KTTS irá adicionar o resultado de áudio neste ecrã à sequência.
![]() | Esta mensagem é falada sempre que uma tarefa de texto normal for interrompida. |
![]() | Este ficheiro de áudio é reproduzido sempre que uma tarefa de texto normal for interrompido. Se tanto existir um Pré-som como um Pré-mensagem, o Pré-som toca primeiro que o Pré-mensagem. |
![]() | Esta mensagem é falada sempre que uma tarefa de texto interrompida prosseguir. |
![]() | Este ficheiro de áudio é tocado sempre que uma tarefa de texto interrompida prosseguir. É tocado por último. |
As opções neste ecrã aplicam-se apenas às tarefas de texto normal. As Mensagens, Avisos e Resultados do Leitor do Ecrã não têm acções especiais quando forem interrompidas por uma mensagem de prioridade mais elevada.
Ao correr o navegador Web do KDE, o Konqueror, poderá falar o texto da página Web apresentada. Primeiro, garanta que o KTTS está a correr. Seleccione o texto que deseja falar e escolha a opção -> do menu principal.Depois de algum tempo, o texto seleccionado irá começar a ser falado.
É quase sempre uma boa ideia seleccionar o texto na página Web que deseja falar. Poderá ignorar este passo, mas irá ouvir um conjunto de cabeçalhos de HTML e outras marcas invisíveis.
Ao correr o Editor de Texto Avançado do KDE, o Kate, poderá falar o texto apresentado. Primeiro, garanta que o KTTS está a correr. Seleccione o texto que deseja falar e escolha a opção -> do menu principal.Depois de algum tempo, o texto seleccionado irá começar a ser falado.
Não tem de seleccionar primeiro o texto. Neste caso, o ficheiro inteiro será falado.
Isto também funciona quando o Kate estiver incorporado noutra aplicação, como o Konqueror ou o Quanta.
O KNotify é o subsistema de notificações no KDE que o alerta dos eventos que configurar no sistema do KDE. Poderá configurar o KTTS para falar as notificações de texto.
Por exemplo o Konversation, uma aplicação de IRC para o KDE, permite-lhe configurar uma variedade grande de notificações. Por exemplo, poderá dizer ao Konversation para o notificar sempre que uma mensagem apareça num canal de IRC com o seu nome ou alcunha nela. Em conjunto com o KTTS, poderá fazer com que o KDE fale o texto da mensagem de IRC para si.
De um modo geral, se uma aplicação do KDE suportar o KNotify, irá aparecer um item de menu Notificações no menu de Configuração. Os detalhes específicos para configurar cada uma das aplicações com o KNotify variam de aplicação para aplicação.
Para activar o KTTS para falar as notificações de texto do KNofify, inicie o kttsmgr e carregue na página Notificações. Irá aparecer o ecrã de Notificações.
![]() | Assinale esta opção para activar a síntese das notificações do KDE. Se estiver desligada, tudo o que estiver neste ecrã aparecerá desactivado e o KTTS não irá falar quaisquer notificações. |
![]() | Quando estiver assinalada a opção, todas as aplicações que enviarem um evento com um som não serão sintetizadas pelo KTTS. |
![]() | Use estes botões para adicionar ou remover eventos de aplicações da lista abaixo. Quando carregar no botão , irá aparecer um ecrã no qual você selecciona a aplicação e o evento que deseja adicionar à lista. |
![]() | Este evento irá falar a mensagem que o Konversation envia, sempre que alguém menciona a sua alcunha numa mensagem de IRC (Internet Relay Chat). |
![]() | Para todos os outros eventos que vierem do Konversation, não será efectuada mais nenhuma acção no KTTS. |
![]() | Para todos os outros eventos que não estiverem especificados na lista, não será efectuada mais nenhuma acção no KTTS. |
![]() | Use esta opção para indicar o que o KTTS deverá fazer quando receber um evento. As suas opções são:
|
![]() | Se a acção for Falar um texto personalizado, indique o texto da mensagem que deseja sintetizar aqui. Dentro da mensagem, poderá usar as seguintes sequências de substituição:
|
![]() | Teste a mensagem, carregando para tal aqui. |
![]() | Poderá indicar aqui os atributos do locutor desejado para falar a mensagem da notificação. O |
Lembre-se que existem três níveis de eventos. Se uma acção para um dado evento de uma dada aplicação for indicado, é efectuada essa acção. Caso contrário, se for indicada uma acção para todos os outros eventos de uma dada aplicação, é efectuada essa acção. Caso contrário, a acção indicada para todos os outros eventos em Por omissão (todos os outros eventos) será efectuada.
O evento todas as notificações da aplicação Por omissão (todos os outros eventos) não poderá ser removida da lista. Para a predefinição, poderá indicar o tipo de notificações que serão faladas, como se segue:
Não será falado nada.
As notificações que mostrarem uma janela do seu ecrã que deseje fechar, serão faladas.
As notificações que mostram uma janela passiva no seu ecrã e que desaparecem ao fim de algum tempo serão faladas.
As notificações que aparecem no ecrã, passivas ou não, serão faladas.
Todas as notificações, independentemente se produzem algo no ecrã, serão faladas.
Os filtros de Substituição de Texto são uma boa forma de limpar as mensagens que são enviadas das aplicações, se forem mal pronunciadas ou mal ditas no KTTS. O ficheiro kmail.xml
, que vem com o KTTS, é um bom exemplo. Ele remove as marcas br e b das mensagens de notificação do KMail e remove também a frase /local/inbox/, dado que esta poder-se-á assumir, na maior parte dos casos, em segurança. Veja em “Configurar os Filtros de Substituição de Texto”.
Use o botão para gravar a sua configuração de notificações para um ficheiro. Use o botão para ler a configuração gravada a partir de um ficheiro. Os eventos carregados são reunidos com os eventos existentes na lista. Se quiser iniciar com uma lista de eventos vazia, carregue no botão em primeiro lugar. Todos os eventos excepto o todas as notificações serão apagados.
Certifique-se que carrega no botão ou em para gravar a sua configuração.
A Speech Synthesis Markup Language (SSML) é uma norma da W3C para formatar o texto de forma a ser sintetizado. Ele oferece marcas para controlar as vozes, a taxa de voz, volume, sexo e tom. Oferece também marcas para controlar a forma como as palavras são sintetizadas, como por exemplo para soletrar as abreviaturas. O SSML faz parte da especificação VoiceXML, que é também uma norma da W3C.
Nesta altura, o KTTS oferece um suporte limitado e muito básico para o SSML. Tem de momento as seguintes restrições.
Funciona apenas com os locutores do Festival Interactive e do Hadifix.
Deverá instalar a voz rab_diphone (homem britânico), dado que esta é a voz que o Festival usa ao sintetizar o SSML.
A opção Velocidade do ecrã de Áudio é ignorada quando se fala texto que contenha SSML.
Se a Velocidade ou o Tom na janela de configuração do Festival não estiverem a 100%, poderá fazer com que o texto em SSML seja falado de forma monotónica.
O texto de exemplo seguinte poderá ser usado para experimentar com o SSML.
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" "http://www.w3.org/TR/speech-synthesis/synthesis.dtd"> <speak version="1.0" xml:lang="en-US"> <prosody pitch="low"> Quem esteve a dormir na minha cama? </prosody> disse o pai-urso. <prosody pitch="medium"> Quem esteve a dormir na minha cama? </prosody> disse a mãe-ursa. <prosody pitch="high"> Quem esteve a dormir na minha cama? </prosody> disse o bebé-urso. </speak>
Planeia-se um suporte mais robusto de SSML para a próxima versão do KTTS.
Os filtros são uma funcionalidade avançada do KTTS. Para a operação básica do KTTS, estes não são necessários.
Os filtros são usados para pré-processar o texto antes de ser enviado para o motor de síntese de voz. Eles são úteis para melhorar a voz, substituindo palavras ou abreviaturas erradas, escolher a língua e locutor apropriados para a fala ou para contornar certas limitações dos sintetizadores de voz e das suas vozes.
Para compreender como usar os filtros, é útil compreender primeiro como é que o texto é processado pelo KTTS. O texto falado pelo KTTS é de um de quatro tipos possíveis.
Resultado do Leitor do Ecrã.
Avisos.
Mensagens
Tarefas de Texto
O tipo é determinado pela aplicação que envia o texto para o KTTS.
O Resultado do Leitor do Ecrã tem a maior prioridade. Está reservado para as aplicações de Leitura do Ecrã. O Resultado do Leitor faz a preempção de todas as outras mensagens, fazendo com que essas tarefas fiquem em pausa. Logo que o Resultado do Leitor do Ecrã tenha sido sintetizado, as tarefas anteriores irão prosseguir automaticamente.
Os avisos são a próxima prioridade mais elevada. Está reservada para as mensagens de alta prioridade, como "o CPU está a aquecer". Um aviso irá interromper as mensagens e o texto normal. Logo que o Aviso tenha sido sintetizado, as tarefas anteriores irão prosseguir automaticamente.
As mensagens são a próxima prioridade. Uma mensagem irá interromper as tarefas de texto normal. O KMouth é um exemplo de uma aplicação que usa as Mensagens. Por exemplo, ao ler um texto longo de uma página Web, o KMouth pode ser usado para cumprimentar alguém que ande pela sala. As Notificações do KDE são também mensagens (veja em “Falar as Notificações (KNotify)”).
O restante são as tarefas de texto normais. Qualquer tarefa que iniciar, a partir da página de Tarefas, é uma tarefa de texto. O KSayit é um exemplo de uma aplicação que usa tarefas de texto. As tarefas de texto pretendem ser usadas para um resultado de fala maior e que não seja urgente.
Todos os tipos de tarefas são filas, excepto o Resultado do Leitor do Ecrã. Se um Resultado do Leitor do Ecrã for enviado de uma aplicação enquanto o KTTS estiver a falar outro Resultado destes, a mensagem a ser falada é interrompida e eliminada.
A primeira coisa que terá de saber acerca dos filtros é que estes nunca são aplicados ao Resultado da Leitura do Ecrã. Eles aplicam-se aos avisos, mensagens e tarefas de texto, assim como as notificações do KDE (KNotify).
Existem dois tipos de filtros -- os filtros normais e os filtros de Detecção de Limites das Frases. Os últimos repartem o texto em frases individuais. Isto permite ao KTTS começar a falar mais depressa, dado que só precisa de sintetizar a primeira frase, em vez da tarefa de texto inteira. Também lhe permite avançar ou recuar na página de Tarefas e ainda parar ou colocar em pausa as tarefas de texto, quando o sintetizador de voz não suportar directamente a paragem da voz.
Os filtros normais processam o texto e passam-no ao próximo filtro. Existem de momento três tipos de filtros normais.
Substituição de Texto.
Transformações de XML
Selecção de Locutores.
Os filtros são implementados numa arquitectura de 'plugins'. No futuro, poderão existir tipos adicionais de filtros.
Os filtros de Substituição de Texto substituem excertos de texto por outros. Os pedaços substituídos são correspondidos quer com palavras quer com expressões regulares. O KTTS vem com alguns filtros de Substituição de Texto predefinidos para falar abreviaturas, falar os ícones emotivos, como o ":-)" ou para formatar de novo as mensagens de notificação do Konversation ou do KMail num formato mais compreensível.
As Transformações de XML usam um ficheiro XML Style Language - Transforms (XSLT) para converter o XML de um formato noutro formato. O KTTS vem com um ficheiro XSLT para converter o XHTML em SSML.
Os Selectores de Locutores permitem-lhe redireccionar as tarefas para um locutor com base no conteúdo do texto ou na aplicação que enviou o texto para o KTTS. Por exemplo, se tiver configurado uma locutora feminina na página de Locutores, poderá direccionar o texto que vem do KSayIt para esse locutor. Veja em “Configurar os 'Plugins' de Síntese (Locutores)”.
Cada um desses tipos de filtros tem regras configuráveis para quando o filtro se deverá aplicar a si mesmo no texto a falar. Se o filtro determinar que não se deverá aplicar, o texto é passado ao próximo filtro sem alterações.
Quando uma tarefa de texto ou uma mensagem de notificação do KDE for enviada para o KTTS, ela passa por cada um dos filtros activados que tenha configurado no ecrã abaixo. A ordem é de cima para baixo. Depois de passar por cada um dos filtros normais indicados na parte de cima do ecrã, as tarefas de texto são passadas aos filtros de Detecção dos Limites de Frases (SBD). (As Notificações do KDE, os Avisos e as Mensagens nunca passam por estes filtros). Ao contrário dos filtros normais, o primeiro filtro de detecção de limites de frases que fizer alterações ao texto irá interromper as filtragens posteriores.
Para utilizar filtros, carregue na página Filtros do kttsmgr.
![]() | Esta é a lista de filtros normais configurados. Se estiver desligada, o filtro está desactivado e será ignorado. Os filtros são aplicados pela ordem aqui indicada, de cima para baixo. |
![]() | Carregue aqui para adicionar um filtro novo. Ser-lhe-á pedido o tipo de filtro a adicionar. Depois de adicionar o tipo, veja as janelas de configuração em baixo. |
![]() | Carregue aqui para remover um filtro. |
![]() | Carregue aqui para mudar a configuração de um filtro. Veja as janelas de configuração em baixo. |
![]() | Carregue nestes botões para subir ou descer um filtro na lista. |
![]() | Estes são os filtros de Detecção de Limites das Frases. Quando você inicia o KTTS pela primeira vez, o Detector de Limites das Frases vem automaticamente configurado para si. Você poderá alterar a configuração deste filtro ou adicionar Detectores de Limites de Frases adicionais, mas aconselha-se aos principiantes não alterar esta configuração. |
![]() | Este botão permite-lhe adicionar, remover, editar ou alterar a ordem dos filtros de Detecção dos Limites de Frases. |
![]() | Certifique-se que carrega aqui, caso contrário a sua configuração não fará efeito. |
Você configura os filtros de Substituição de Texto, indicando uma lista de palavras ou expressões regulares com as quais faz a correspondência. Quando estas palavras ou expressões forem encontradas no texto, cada uma delas será substituída por uma dada sequência fornecida por si. A correspondência não faz distinção entre maiúsculas e minúsculas.
![]() | Indique um nome para o seu filtro. Use qualquer nome que desejar, que lhe permita distinguir de todos os outros filtros. |
![]() | Esta é a lista de palavras e expressões regulares. O filtro procura pelas ocorrências de cada uma destas sequências na coluna de Correspondência, substituindo o texto correspondente pelo texto na coluna Substituir Por. A lista é processada pela ordem apresentada, de cima para baixo. |
![]() | Carregue para adicionar outra palavra ou expressão regular à lista. |
![]() | Carregue aqui para mover a palavra ou expressão regular seleccionada para cima ou para baixo na lista. |
![]() | Carregue para alterar uma palavra ou expressão regular existente na lista. |
![]() | Carregue para remover a palavra ou expressão regular seleccionada da lista. |
![]() | Use estes botões para carregar uma lista de palavras ou expressões regulares de um ficheiro, gravar a lista actual para um ficheiro ou limpar a lista inteira. Ao carregar a partir de um ficheiro, os itens do ficheiro serão adicionados à lista existente. |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se a língua do locutor da tarefa de texto corresponder à língua indicada aqui. Carregue no botão para mostrar uma lista de línguas. Poderá seleccionar mais que uma língua se mantiver a tecla Ctrl carregada enquanto faz a escolha. |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se o texto vier de uma das aplicações listadas. Poderá indicar mais que uma aplicação, separando-as por vírgulas. Exemplo: DicaVocê poderá descobrir o ID da Aplicação dos programas em execução com o programa kdcop. Deverá retirar os números do DCOP. Por exemplo, se o 'kdcop' mostrar um ID de aplicação igual a kopete-3432, você deverá apenas indicar |
O filtro de Substituição de Texto aplicar-se-á apenas se todas as condições preenchidas forem cumpridas na opção Aplicar Este Filtro Quando; se todas as opções estiverem em branco, o filtro aplicar-se-á a todo o texto.
Todas as correspondências não fazem distinção entre maiúsculas e minúsculas.
Ao corresponder as palavras, o filtro de Substituição de Texto usa internamente uma expressão regular no formato \spalavra
\s. Doutra forma, a palavra deverá ter limites de palavras (espaços) de cada um dos lados.
A discussão de como criar expressões regulares está fora do âmbito deste manual. Se tiver o Editor de Expressões Regulares do KDE instalado, existe um botão disponível nos ecrãs Adicionar ou Editar que o irá ajudar a construir expressões regulares. O Editor de Expressões Regulares do KDE faz parte do pacote kdeutils.
O KTTS vem alguns ficheiros de listas de palavras, incluindo uma lista de ícones emotivos, como o ":-)", algumas abreviaturas usadas tipicamente no IRC ou nas aplicações de mensagens instantâneas, bem como uma lista com outras abreviaturas. Existe também uma lista de caracteres especiais que a versão actual da voz do Festival em polaco não consegue lidar. Se você desenvolver listas de de palavras úteis suas, use o botão Gravar para as gravar num ficheiro e para as enviar para a equipa do KTTS, de modo a serem incluídas na próxima versão.
O filtro de Transformação de XML usa ficheiros XSLT para transformar o XML de um formato noutro. A XSLT, XML Style Language - Transforms, é uma linguagem normalizada do W3C para efectuar essas transformações. Só poderá ser usada em XML válido. Para além disso, deverá também ter o utilitário xsltproc instalado.
![]() | Indique um nome para o seu filtro. Use qualquer nome que desejar, que lhe permita distinguir de todos os outros filtros. |
![]() | Indique a localização completa de um ficheiro XSLT existente, o qual irá efectuar a transformação. |
![]() | Indique a localização do utilitário xsltproc. Se o 'xsltproc' estiver na sua variável de ambiente PATH, basta indicar |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se o XML tiver uma indicação <!DOCTYPE que comece pelo texto indicado. Isto distingue uma forma de XML de outra. Por exemplo, o |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se o texto vier de uma das aplicações listadas. Poderá indicar mais que uma aplicação, separando-as por vírgulas. Exemplo: DicaVocê poderá descobrir o ID da Aplicação dos programas em execução com o programa kdcop. Deverá retirar os números do DCOP. Por exemplo, se o 'kdcop' mostrar um ID de aplicação igual a kopete-3432, você deverá apenas indicar |
O filtro de Transformação de XML aplicar-se-á apenas ao texto se o elemento de raiz ou DOCTYPE indicados corresponderem e se o ID da aplicação corresponder na área Aplicar Este Filtro Quando. Se algum item desta área estiver em branco, o teste não será efectuado, como tal, se todos os campos estiverem em branco, o filtro aplicar-se-á a todo o texto. Contudo, deverá preencher pelo menos um campo, dado que diversas tarefas de texto não estarão no formato XML.
Os filtros de Selecção do Locutor são usados para direccionar o texto para um determinado locutor que esteja configurado na página Locutor ou para qualquer locutor que tenha os atributos indicado. Por exemplo, poderá indicar que o texto que vem do knotify deverá ser falado por uma locutora feminina. Veja em “Configurar os 'Plugins' de Síntese (Locutores)”.
Antes de o KTTS começar a enviar o texto para cada um dos filtros, ele selecciona um locutor para falar o texto. O locutor escolhido baseia-se nos atributos de locução indicados pela aplicação que enviou o texto para o KTTS e os atributos que você tenha configurado na página Locutores. O filtro de Selecção do Locutor permite-lhe sobrepor o locutor escolhido.
![]() | Indique um nome para o seu filtro. Use qualquer nome que desejar, que lhe permita distinguir de todos os outros filtros. |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se o texto contiver a expressão regular indicada. Se estiver instalado, carregue no botão de escolha para lançar o Editor de Expressões Regulares do KDE para o ajudar a introduzir a expressão regular. DicaPara uma melhor performance, tente "anexar" a expressão regular ao início do texto. Por outras palavras, inicie a sua expressão regular por um |
![]() | Se não estiver em branco, o filtro aplicar-se-á apenas se o texto vier de uma das aplicações listadas. Poderá indicar mais que uma aplicação, separando-as por vírgulas. Exemplo: DicaVocê poderá descobrir o ID da Aplicação dos programas em execução com o programa kdcop. Deverá retirar os números do DCOP. Por exemplo, se o 'kdcop' mostrar um ID de aplicação igual a kopete-3432, você deverá apenas indicar |
![]() | Indique os atributos do locutor que prefere para falar o texto aqui. Se o texto corresponder às condições do filtro acima indicados, será escolhido o locutor que mais se aproxime aos atributos que indicar aqui. Carregue no botão à direita para mostrar o ecrã para Seleccionar o Locutor. Veja em “Seleccionar os Locutores (Avançado)”. |
![]() | Use estes botões para gravar a sua configuração de Selecção do Locutor, carregar a configuração a partir de um ficheiro gravado ou limpar toda a configuração. |
O filtro de Selecção do Locutor aplicar-se-á apenas ao texto se todas as condições preenchidas forem cumpridas na opção Aplicar este Filtro Quando. Terá de preencher pelo menos um dos campos.
A forma mais simples de aprender como configurar os Selectores de Locutores é experimentar. Desactive o Selector do Locutor e envie algum texto. Na página de Tarefas, veja o locutor que o KTTS escolhe. Carregue no botão , introduza alguns atributos e tente de novo para ver como a escolha é afectada. Obviamente, é necessário ter mais que um locutor configurado para que o Selector do Locutor faça algo de útil.
Os filtros de Detecção dos Limites de Frases quebram o texto em frases individuais. Isto é importante porque
permite ao KTTS começar a falar mais depressa, dado que necessita apenas de sintetizar a primeira frase, em vez do bloco de texto inteiro, que poderá ser demasiado grande e
permite-lhe voltar atrás ou avançar nas frases de texto na página de Tarefas e
permite-lhe colocar em pausa ou parar as tarefas de texto na página de Tarefas, mesmo que o sintetizador de voz não seja capaz de ser interrompido.
Por estas razões, o filtro normal de Detecção de Limites de Frases (SBD) está configurado automaticamente da primeira vez que executar o kttsmgr e não puder ser desactivado (ainda que o possa remover). Aconselha-se a não modificar este filtro, a menos que saiba o que está a fazer.
Você poderá, contudo, adicionar filtros SBD extra para resolver certos problemas. Por exemplo, como acontecia em Fevereiro de 2005, a voz do Festival em polaco tem o atributo incomodativo de falar a pontuação das frases. Ela irá falar os pontos no fim de cada frase, por exemplo. Você não poderá resolver este problema com um filtro de Substituição de Texto para remover a pontuação das frases porque, ao fazê-lo, irá evitar que o SBD normal reconheça as frases. Em alternativa, poderá criar uma versão modificada do SBD normal que reconhece as frases, enquanto remove simultaneamente a pontuação das frases. Para o fazer, adicione um filtro SBD e use o botão Carregar para ler o ficheiro polish_festival_sbdrc
que vem com o KTTS.
Os filtros de detecção dos limites das frases funcionam através da correspondência de uma expressão de regular de fim-de-frase e da inserção de uma tabulação (8 caracteres) nos limites da frase. (Todos os caracteres de tabulações são retirados automaticamente do texto, antes do início da filtragem). Lembre-se que a filtragem dos limites de frases preserva a pontuação das frases.
Os filtros de SBD nunca são aplicados às mensagens das Notificações do KDE (knotify), Avisos, Mensagens ou Resultados de Leitura do Ecrã.
Se remover acidentalmente o filtro de Detecção dos Limites das Frases, poderá repô-lo de novo se carregar no ficheiro standard_sbdrc
que vem com o KTTS.
Poderá configurar qualquer número de locutores na página de Locutores. Veja em “Configurar os 'Plugins' de Síntese (Locutores)”. Quando as aplicações enviam texto para o KTTS, poderão indicar os atributos de um dado locutor para falar o texto. O KTTS irá obter o locutor mais próximo, entre os locutores que configurou, para satisfazer o pedido da aplicação. Por exemplo, uma aplicação poderá pedir o texto para ser falado por uma voz inglesa feminina. Se tiver configurado um locutor com a voz inglesa e feminina, será usado esse locutor. Se tiver configurado todos os locutores como homens britânicos, será usado um desses locutores. Se uma aplicação não indicar atributos, será usado o locutor por omissão (o do topo) da página de Locutores.
Quando as aplicações indicam os atributos do locutor desejado, poderão indicar que certos atributos são "preferidos" sobre outros. Por exemplo, uma aplicação poderá dizer que prefere uma voz alta feminina para falar o texto e que o atributo "alto" é "preferido" sobre o atributo feminino. Se tiver uma voz feminina baixa e uma voz masculina forte configuradas, o KTTS irá escolher o locutor masculino para fazer a fala. Dado que a língua é um parâmetro crítico para tornar a fala compreensível, este é sempre um atributo "preferido".
Ao usar o ecrã Seleccionar o Locutor, poderá sobrepor a configuração do locutor da aplicação. É mostrado o seguinte ecrã
Quando carregar no botão Modificar o Locutor na página de Tarefas, ou
quando carregar no botão Locutor da janela Configuração do Filtro para um filtro de Escolha do Locutor, ou
quando carregar no botão Locutor da página Notificações.
O ecrã oferece três métodos para indicar os atributos desejados para o locutor:
Usar o locutor por omissão (o do topo da lista de Locutores). Por outras palavras, não são indicados atributos do locutor.
Usar o locutor mais próxima que tenha um ou mais atributos indicados.
Use o locutor mais próximo que tenha todos os atributos de um locutor configurado. Se não remover ou modificar a configuração do locutor, o KTTS irá escolher esse locutor específico. Se remover ou modificar a configuração do locutor, então o KTTS irá escolher o locutor mais próximo que tenha os atributos originais do locutor.
![]() | Escolha o método para introduzir os atributos do locutor desejados, carregando numa destas opções exclusivas. |
![]() | Escolha os atributos do locutor desejado aqui. Deixe um atributo em branco se não quiser saber deste atributo. |
![]() | Assinale esta opção se desejar que o atributo seja "preferido" sobre os outros atributos. Poderá assinalar mais que uma opção. |
![]() | Dado que a língua é um factor crítico ao tornar a fala compreensível, é sempre um atributo preferido. É raro usar este atributo. A única vez em que poderá preferir usar o atributo da língua, é quando souber que uma dada aplicação envia texto numa língua diferente do seu ambiente de trabalho. |
![]() | Esta é uma lista dos locutores que tem configurados de momento no KTTS. Ao escolher um destes, de facto, está a indicar todos os atributos desse locutor. Se esse locutor estiver ainda configurado, quando o texto for enviado, irá obter uma correspondência exacta e será escolhido esse locutor. Contudo, se remover posteriormente o locutor ou modificar a sua configuração, poderá não ser mais o locutor escolhido. O locutor que melhor corresponder aos atributos originais será o escolhido. |
O atributo Língua é especial, porque o texto ficará provavelmente ininteligível se for falado por um locutor que fale uma língua diferente do texto. Como tal, a língua é, automaticamente, um atributo preferido. Se você indicar uma língua, ela irá sobrepor a língua escolhida mas, se você a deixar em branco, será usada a língua existente que já tenha sido escolhida para o KTTS. Se a aplicação que envia o texto para o KTTS não indicar uma língua, o KTTS atribui a língua do locutor do topo, que você tenha configurado na página de Locutores. Por outras palavras, o locutor do topo assume-se que fala a língua do seu ecrã.
Para limpar todos os atributos na secção Usar o locutor mais próximo que tenha, carregue primeiro na opção Usar o locutor por omissão, depois carregue na Usar o locutor mais próximo que tenha.
O KTTS tem duas Interfaces de Programação de Aplicações (APIs):
A API de Texto-para-Voz do KDE, que é usada pelos programadores das aplicações para oferecerem às suas aplicações capacidades de TTS. As aplicações comunicam com o KTTSD através de DCOP.
A API de 'Plugins' do KTTSD, que é usada para adicionar 'plugins' de síntese de voz ao KTTSD, para que o KTTS funcione com motores novos de síntese de voz.
A secção seguinte dá uma breve descrição da API da Interface em DCOP de Texto-para-Voz do KDE. A documentação completa para ambas as APIs está disponível na página Web de Acessibilidade no KDE.
As aplicações comunicam os pedidos de serviços de Texto-para-Voz através da interface de DCOP do KDE para programar o objecto KSpeech do kttsd.
Indique os seguintes comandos numa Konsole.
Se o KTTSD não estiver já a correr
kttsd
Para agendar uma tarefa de texto a ser falada
dcop kttsd KSpeech setText "
texto
" "locutor
"
onde o
é o texto que pretende ser sintetizado e o texto
é um código de língua do tipo locutor
, en
, etc.. Este comando não fala o texto; simplesmente coloca-o numa fila de tarefas de texto para ser falado.pt
Exemplo.
dcop kttsd KSpeech setText "Isto é um teste." "pt"
Para falar a última tarefa de texto que foi posta na fila.
dcop kttsd KSpeech startText
0
Neste caso, o 0
refere-se à última tarefa de texto na fila. Poderá também indicar um número de tarefa específico. (Se não for indicado nenhum número, assume-se o 0
.)
Para parar a tarefa de texto a ser falada de momento
dcop kttsd KSpeech stopText 0
Dependendo do 'plugin' de voz usado, a síntese poderá não parar imediatamente.
Existem muitos mais comandos que poderão ser enviados. Para ver uma lista dos comandos possíveis,
dcop kttsd KSpeech
ou leia a página da API de Texto-para-Voz do KDE.
Este documento pode ter sido actualizado desde a sua instalação. Você poderá encontrar a última versão em http://docs.kde.org/current/kdeaccessibility/.
5.1. | O kttsmgr estoira imediatamente, após eu iniciá-lo. Compilei-o com suporte para depuração e não tenho qualquer espécie de registo de chamadas. |
O GStreamer estoirou, levando o KTTS com ele. Provavelmente, necessita de "registar" o GStreamer. Para o GStreamer 0.8x, o comando é o gst-register-0.8. Se isto não resolver o problema, é porque poderá ter uma versão incompatível do GStreamer instalada. Poderá tentar actualizar ou desinstalar o GStreamer. | |
5.2. | A saída de áudio do ALSA não fica a funcionar se eu estiver a ouvir música noutra aplicação ao mesmo tempo. Quando coloco em pausa uma tarefa de texto, o KTTS bloqueia. Reparo na mensagem "unable to open PCM" (incapaz de aceder ao PCM) no ecrã do 'konsole'. |
Você tem um problema de contenção do dispositivo do ALSA, o que impede de abrir mais que um dispositivo PCM de cada vez. Veja a página Web do ALSA (dmix) para descobrir soluções possíveis. www.alsa-project.org | |
5.3. | Preciso de recomeçar tudo. Como é que eu interrompo por completo o KTTS? |
Indique os seguintes comandos numa Konsole: killall kttsd killall kttsmgr | |
5.4. | Como é que vejo o resultado de depuração do kttsd? |
Abra duas janelas do Konsole. Primeiro inicie o kttsd numa janela e depois o kttsmgr na segunda. | |
5.5. | Tenho uma voz adicional do Festival que obtive da Internet. Instalei-a e posso usá-la no Festival, mas não aparece no kttsmgr. |
Edite o ficheiro | |
5.6. | Nenhum dos sintetizadores de voz suportados tem a língua que eu necessito. Onde é que poderei obter um sintetizador para a minha língua? |
O Google(tm) é seu amigo. Esta referência também poderá ajudar. Se descobrir um motor aberto que suporte a sua língua desejada e quiser adicionar o suporte para ele no KTTS, por favor contacte a equipa de desenvolvimento. Os motores abertos são especialmente bem-vindos. Se conhecer algum sintetizador comercial, talvez consiga persuadir o distribuidor a doar uma cópia gratuita à equipa de desenvolvimento do KTTS. Entretanto, poderá conseguir pôr o sintetizador a funcionar com o 'plugin' do Comando. Veja em “Usar o 'Plugin' do Comando”. | |
5.7. | O KTTS está a falar demasiado devagar. Como é que o posso acelerar? |
Existe uma opção de Velocidade na página de Áudio. Para esta funcionar, terá de ter o utilitário sox instalado e disponível na PATH. Alguns 'plugins' de síntese, como o Festival Interactive, também oferecem uma opção de Velocidade na janela de configuração do locutor. Dependendo da voz usada, poderá ou não estar activa. | |
5.8. | OK, isso funciona para algumas coisas, mas as páginas Web continuam a ser faladas demasiado lentamente. |
A configuração da velocidade é ignorada quando o KTTS estiver a falar o HTML. (Isto tem a ver com o facto de o HTML ser convertido para SSML, que tem as suas próprias marcas de "rate" (taxa ou ritmo).) Tanto poderá desligar o filtro de transformação de XML para HTML (ver em “Filtros (Avançado)”) ou, se tiver coragem, editar o ficheiro XSL no filtro de Transformação de HTML para SSML e aumente a taxa de fala por omissão. | |
5.9. | Não consigo que as páginas Web falem com uma voz feminina. Tenho o locutor feminino do Festival instalado, mas o KTTS fala sempre as páginas Web com uma voz masculina. |
Desde o Festival 1.95 beta, a marca SABLE GENDER não parece estar a funcionar. Para evitar que o Festival produza erros, o ficheiro XSL de conversão de SSML para SABLE retira as marcas de sexo. O mesmo de aplica às marcas de voz. | |
5.10. | Tenho o filtro de Transformação de XML para HTML configurado, mas as páginas Web não são faladas de todo com o 'plugin' do Festival. |
Devido a um erro no Festival 1.95 beta, terá de instalar a voz rab_diphone (homem Britânico) para o SABLE funcionar de todo, mesmo que não esteja a usar essa voz para falar as páginas Web. Do mesmo modo, verifique se o utilitário xsltproc está instalado e na PATH. | |
5.11. | Certos caracteres ou pontuações parecem estar a produzir erros no sintetizador, fazendo-o saltar frases inteiras ou pronunciar lixo. O que posso fazer? |
Primeiro, certifique-se que a opção de Codificação de caracteres da janela de configuração do locutor está bem definida para a língua. Se algumas palavras ou caracteres estiverem a causar problemas, poderá ajudar ter um filtro de Substituição do Texto. Se certos caracteres de pontuação estiverem a confundir a síntese, poderá necessitar de configurar o filtro de Detecção do Limite de Frases. Veja em “Filtros (Avançado)”. | |
5.12. | Adicionei um filtro de Substituição de Texto próprio e agora o KTTS não e permite avançar ou recuar nas frases. Na página de Tarefas, diz que cada tarefa só tem uma frase. O que é que fiz de errado? |
Não deverá filtrar os caracteres de pontuação de frases (ponto final, ponto de interrogação, de exclamação, ponto-e-vírgula e dois-pontos). Para esses caracteres, use um filtro de Detecção dos Limites das Frases em alternativa. |
KTTS
Programa Copyright (c) 2002 José Pablo Ezequiel "Pupeno" Fernández (pupeno AT kde.org)
Manutenção Actual: Gary Cramblitt (garycramblitt AT comcast.net)
Contribuições:
Olaf Schmidt (ojschmidt AT kde.org)
Gunnar Schmi Dt (gunnar AT schmi-dt.de)
Paul Giannaros (ceruleanblaze AT gmail.com)
Documentação Copyright (c) 2004 Gary R. Cramblitt (garycramblitt AT comcast.net)
Tradução de José Nuno Pires (jncp AT netcabo.pt)
A documentação está licenciada ao abrigo da GNU Free Documentation License.
Este programa está licenciado ao abrigo da GNU General Public License.
Os motores de síntese de voz usados pelo KTTS têm as suas próprias licenças. Veja a documentação de cada motor ou a sua página na Web para mais detalhes. Algumas das vozes também têm as suas próprias licenças.
Índice
O KTTS faz parte do projecto do KDE http://www.kde.org/.
O KTTS pode ser encontrado no pacote kdeaccessibility em ftp://ftp.kde.org/pub/kde/, o servidor principal do projecto do KDE.
(FUTURO) Comando de Instalação da Debian: apt-get install kdeaccessibility
Poderá encontrar algumas referências para os pacotes de código e binários na página Web de Acessibilidade do KDE (http://accessibility.kde.org).
Se tiver acesso ao repositório de código do KDE, poderá obter o KTTS através do módulo kdeaccessibility. O KTTS encontrar-se-á na pasta kttsd. Poderá também obter um pacote criado todas as noites em ftp://ftp.kde.org/pub/kde/
Requisitos obrigatórios:
KDE versão 3.2 ou posterior.
Um motor de síntese de voz. São suportados os seguintes motores e línguas faladas.
Festival | Inglês Americano, Inglês Britânico, Espanhol, Alemão, Finlandês, Checo, Polaco, Russo, Italiano, Francês do Canadá, Kiswahili, Zulu e Ibibio |
Festival Lite (flite) | Inglês |
Hadifix (MBROLA e txt2pho) | Alemão, Húngaro |
Epos | Checo, Eslovaco |
FreeTTS | Inglês |
Funciona também com qualquer motor de síntese que possa ser executado com um comando numa Konsole.
As línguas indicadas acima poderão não ser compreensíveis ou estar desactualizadas. Veja também a página do KTTS para obter mais informações que possa não ter estado incluída neste manual.
O KTTS usa uma arquitectura de 'plugins' flexível para os motores de síntese de voz. Se quiser melhorar o KTTS de modo a suportar outro motor, contacte a equipa de desenvolvimento.
Veja em “Configuração” as instruções específicas para cada um destes motores.
Pelo menos um dos seguintes sub-sistemas de áudio:
Sistema de Som aRts do KDE. O aRts vem normalmente instalado com o KDE.
ALSA (Advanced Linux® Sound Architecture). O ALSA vem instalado com a maioria dos sistemas Linux®. (www.alsa-project.org)
GStreamer versão 0.8.7 ou posterior. Nota: Certifique-se que regista os seus 'plugins' do GStreamer, executando o comando gst-register, antes de usar o GStreamer no KTTS. ( http://gstreamer.freedesktop.org)
Biblioteca aKode. O aKode é uma biblioteca de descodificação que faz parte do KDE.
O projecto do KDE pensa largar o aRts a partir da versão 4.
Alguns utilizadores passam por casos de contenção do dispositivo no ALSA. Se o seu sistema tiver este problema, não será capaz de tocar música enquanto fala em simultâneo. O KTTS irá também bloquear se pausar uma tarefa de texto e iniciar outra depois. Veja a página Web do ALSA ('dmix') para algumas soluções possíveis.
Desde Julho de 2005, o aKode não suporta uma capacidade de pausa real. Quando colocar em pausa uma tarefa de texto, o KTTS irá terminar de falar a frase actual.
Componentes opcionais:
O utilitário de áudio sox é necessário para ajustar a velocidade global da voz, mas não é necessário. Os utilizadores de Debian poderão instalar o 'sox' com o comando apt-get install sox. O Sox vem incluído na maioria dos CDs de distribuições de Linux®.
O utilitário xsltproc é necessário para o suporte de SSML e para o filtro de transformação XML, mas não é obrigatório. Os utilizadores de Debian poderão instalar o 'xsltproc' com o comando apt-get install xsltproc.
Para poder compilar o KTTS, você precisa de ter uma cópia recente (KDE 3.4 ou superior) dos ficheiros de desenvolvimento do KDE, incluindo o 'kdelibs' e o 'arts'.
Se obteve o KTTS como um pacote TAR, ligue-se como um utilizador normal e descomprima o pacote para uma pasta adequada, entre nesta e introduza os seguintes comandos.
./configure make
Estão disponíveis as seguintes opções do configure:
Opção por Omissão | Descrição | Alternativo |
--with-arts | Compila o 'plugin' de áudio do 'arts'. | --without-arts |
--with-alsa=check | Compila o 'plugin' de áudio do ALSA. | --with-alsa=no |
--with-gstreamer=no | Não compila o 'plugin' de áudio do GStreamer. | --with-gstreamer=check |
--with-akode=no | Não compila o 'plugin' de áudio do aKode. | --with-akode=check |
No KDE 4, o 'plugin' do aRts poderá ser removido ou, pelo menos, não irá compilar por omissão.
Os 'plugins' de síntese de voz são todos compilados por omissão. Alguns deles são dependentes somente a nível de execução de 'software' não-livre. (Não-livre de acordo com a Política da Debian). A coluna "Opção do Configure para Não Compilar"mostra o comando do 'configure' para não compilar o 'plugin':
Síntese | Licença | Opção do Configure para não compilar |
Festival | livre | --disable-kttsd-festivalint |
Festival Lite | livre | --disable-kttsd-flite |
Epos | livre | --disable-kttsd-epos |
Comando | livre | --disable-kttsd-command |
Hadifix | não-livre | --disable-kttsd-hadifix |
FreeTTS | não-livre | --disable-kttsd-freetts |
Por omissão, os comandos acima irão instalar o KTTS em /opt/kde3
. Se esta pasta não estiver não estiver na sua variável $$KDEDIRS
, poderá ter de adicionar uma opção --prefix=
. Por exemplo,destino
./configure --prefix=/usr/local make
Nos sistemas Debian, o
é o local normal para instalar as aplicações compiladas a partir de código-fonte. /usr/local
Ligue-se como 'root' e instale o KTTS compilado com os seguintes comandos.
su make install
Se obteve o código do KTTS a partir do módulo do repositório de código kdeaccessibility
ou através dos pacotes TAR nocturnos do repositório de código, use os seguintes comandos para compilar e instalar.
cd kdeaccessibility echo kttsd >inst-apps make -f Makefile.cvs ./configure cd kttsd make su make install
Certifique-se que o seu motor de síntese de voz está a funcionar antes de usar o KTTS. Siga as instruções que vieram com o motor.
Em alguns casos, é necessário dar acesso de escrita ao dispositivo de áudio.
chmod a+rw
/dev/dsp*
O Festival é um dos melhores motores de TTS gratuitos e abertos que se encontram disponíveis. A qualidade da voz é geralmente boa, existem algumas línguas e vozes suportadas e poderá controlar a voz, a velocidade do texto gerado e o tom no KTTS.
Nome do Sintetizador: Festival Interactive
URL: http://www.cstr.ed.ac.uk/projects/festival/
Comando de Instalação da Debian: apt-get install festival
Irá necessitar de instalar pelo menos uma língua. Siga as instruções que vêm com o Festival. Se quiser falar as páginas Web, deverá instalar a voz rab_diphone (Homem Britânico).
As vozes adicionais em inglês do Festival estão disponíveis em
As vozes adicionais em espanhol, inglês e alemão estão disponíveis em
http://cslu.cse.ogi.edu/tts/download/
Deverá compilar um módulo adicional para estas vozes, sendo necessário para isso o código-fonte do Festival. As vozes em alemão têm uma distribuição limitada.
Está disponível uma voz masculina em finlandês em
http://www.ling.helsinki.fi/suopuhe/download/.
Está disponível uma voz masculina em polaco em
http://www.artegence.com/download/voicexml/speech/festival_polish_voice.tgz.
Está disponível uma voz masculina em russo em
http://nshmyrev.narod.ru/festival/festival.html
Você precisa de ter instalado o Festival 1.95 beta ou posterior para usar esta voz. A voz ainda está em desenvolvimento. Descomprima em festival/lib/voices/russian/
. Quando configurar o locutor russo, o código da voz é o msu_ru_nsh_diphone
. Certifique-se que selecciona uma codificação de 8-bits cirílica, como o KOI8-R
.
As vozes em Italiano para o Festival 1.95 beta estão disponíveis em
http://www.csrf.pd.cnr.it/TTS/It-FESTIVAL-download.htm.
Se obtiver erros de CRC ao descomprimir os ficheiros, tente obtê-los de novo.
As vozes em Kiswahili, Zulu e Ibibio do Festival 1.95 beta estão disponíveis em
Infelizmente, a voz Hindi, também lá disponível, não irá funcionar com o KTTS.
As vozes comerciais, incluindo uma voz em Francês do Canadá, poderão ser compradas na Cepstral, LLC em
A FAQ na página de Suporte deles, tem informações sobre a utilização das vozes deles no Festival.
O Festival vem tipicamente incluído com as distribuições do Linux®. Veja nos CDs da sua distribuição se está incluído.
Ao usar as línguas Húngara, Checa ou Polaca, certifique-se que a opção de Codificação está definida como ISO 8859-2
.
Ao usar a língua Russa, certifique-se que a opção de Codificação está definida como cirílica de 8 bits, como por exemplo KOI8-R
.
O Festival pode ser usado em conjunto com o sintetizador MBROLA. Neste modo, o Festival faz a análise léxica e o MBROLA produz o áudio. O executável MBROLA e os ficheiros de vozes do MBROLA podem ser obtidos em
Siga as instruções no readme.txt
que vem com o pacote obtido.
Repare que o MBROLA não é um sistema de Texto-para-Voz completo. O MBROLA sintetiza a voz a partir de ficheiros de difonemas. Deverá ter um 'software' adicional que possa produzir os difonemas. Ao ser combinado com o Festival, o Festival produz os difonemas necessários para o MBROLA. O txt2pho poderá também ser usado para produzir difonemas a partir de texto em alemão. Veja o Usar com o Hadifix para mais informações.
Existem três métodos para combinar o Festival com o MBROLA.
Interfaces do MBROLA. Na altura em que este manual foi escrito, este método estava limitado a vozes em Inglês.
Neste método, o código adicional das interfaces é adicionado ao Festival para activar a síntese de voz com os ficheiros de vozes do MBROLA. Lembre-se que os ficheiros de vozes do MBROLA não são instalados na árvore de pastas do MBROLA. Em vez disso, são instalados na árvore de pastas festival/lib/
. Para mais instruções, veja
O IMS German Festival é uma versão modificada do Festival que usa as vozes em alemão do MBROLA. Funciona tanto com o Festival versão 1.4.1 como com o Festival 2.0 (1.95beta). Instale primeiro o Festival e o MBROLA, se não tiver já feito isso. Depois, obtenha o IMS German Festival em
http://www.ims.uni-stuttgart.de/phonetik/synthesis/festival_opensource.html.
Siga as instruções no ficheiro README
que vem com o pacote obtido. (Lembre-se que, se for usado em conjunto com o Festival 2.0, não é necessário aplica o pacote fixes, mas terá à mesma de recompilar o festival.) Finalmente, adicione as seguintes linhas ao ficheiro festival/lib/siteinit.scm
.
(voice-location "german_de1_os" "/usr/local/mbrola/de1" "German Female, IMS Festival de1") (voice-location "german_de2_os" "/usr/local/mbrola/de2" "German Male, IMS Festival de2") (voice-location "german_de3_os" "/usr/local/mbrola/de3" "German Female, IMS Festival de3")
logo acima da linha que diz
(provide 'siteinit)
(Em alguns sistemas, o ficheiro que edita é o /etc/festival.scm
). Adicione apenas as linhas que correspondem às vozes em alemão que instalou. Substitua a localização correcta por
. Lembre-se também que (na altura em que isto foi escrito), o IMS German Festival não funciona com os ficheiros de vozes de4, de5 ou de6./usr/local/mbrola/
Este método usa algum código especial para activar a síntese de voz no Festival com uma voz do MBROLA em checo. Para instalar, obtenha primeiro, instale o Festival e o MBROLA e certifique-se que ambos funcionam. Depois, obtenha o Festival-Czech em
http://www.freebsoft.org/festival-czech
Nos procedimentos seguintes, substitua as localizações de pastas correctas de acordo com as necessidades.
Descomprima o pacote transferido para uma pasta adequado e compile o léxico. O executável do Festival deverá estar na sua PATH
.
cd /usr/local tar xvfz festival-czech.tar.gz cd festival-czech make
Obtenha o ficheiro de voz cz2 da página Web do MBROLA e descomprima-o na pasta do MBROLA.
cd /usr/local/mbrola mkdir cz2 cd cz2 unzip cz2-001009.zip
Adicione as seguintes linhas ao ficheiro festival/lib/siteinit.scm
.
(set! czech-lexicon-file "/usr/local/festival-czech/czech-lexicon.out") (set! load-path (cons "/usr/local/festival-czech" load-path)) (require 'czech) (set! czech-mbrola_database "/usr/local/mbrola/cz2/cz2") (set! mbrola_progname "/usr/local/mbrola/mbrola") (voice-location "czech_mbrola_cz2" "/usr/local/mbrola/cz2" "Czech Male, MBROLA") (require 'czech-mbrola)
logo acima da linha que diz
(provide 'siteinit)
(Em alguns sistemas, o ficheiro que edita é o /etc/festival.scm
).
O Festival Lite é um motor gratuito e aberto que suporta de momento um número limitado de vozes e línguas. É leve, mas sacrifica de certa forma a qualidade da voz. Não pode controlar o tom, o volume ou a velocidade deste motor no KTTS.
Nome do Sintetizador: Festival Lite (flite)
URL: http://www.speech.cs.cmu.edu/flite/index.html
Comando de Instalação da Debian: apt-get install flite
O 'flite' vem tipicamente instalado com as distribuições de Linux. Verifique os CDs da sua distribuição para confirmar se vem incluído.
Compile e instale o 'flite', seguindo as instruções no README
que vem com ele.
O Hadifix é um motor de síntese de voz baseado em difonemas. O utilitário txt2pho converte o texto é difonemas e o motor MBROLA sintetiza os difonemas a reproduzir. A qualidade da voz é boa, mas o suporte da língua está de momento ligeiramente limitado. Poderá controlar a voz, o tom, a velocidade e o volume no kttsmgr.
Nome do Sintetizador: Hadifix
URL: ver em baixo
Comando de Instalação da Debian: nenhum
Se não tiver já o Hadifix instalado, faça o seguinte:
Obtenha o executável do MBROLA em http://festvox.org/mbrola/.
Instale o MBROLA na pasta /usr/local/mbrola
.
Obtenha pelo menos um ficheiro de língua (alemão, por exemplo), na página do MBROLA. Descomprima na pasta /usr/local/mbrola
.
Obtenha o 'txt2pho' de
http://www.ikp.uni-bonn.de/dt/forsch/phonetik/hadifix/HADIFIXforMBROLA.html.
Descomprima o 'txt2pho' em /usr/local/txt2pho
.
Modifique o ficheiro txt2phorc, colocando os locais correctos dados nele.
Copie o txt2phorc tanto para o ~/.txt2phorc
como para o /etc/txt2pho. Repare que deve retirar o "rc" do nome do ficheiro.
No kttsmgr, escolha a língua 'Alemão' (de), e adicione o Hadifix.
No ecrã para Configurar o Locutor, configure uma voz e as localizações do MBROLA e do txt2pho.
Carregue no botão para efectuar o teste.
Está disponível uma implementação em Húngaro para o MBROLA e o 'txt2pho' em
O Epos é um motor aberto e gratuito para Checo e Eslovaco. É leve, mas sacrifica de certa forma a qualidade da voz. Não poderá controlar o tom, o volume ou a velocidade deste motor no KTTS.
Nome do Sintetizador: Epos TTS Synthesis System
Comando de Instalação da Debian: apt-get install epos
Inicie o kttsmgr. Na página de Locutores, carregue no botão Adicionar. Escolha a língua Checo ou Eslovaco e o Epos TTS Synthesis System. Se o executável do servidor do Epos e o cliente não estiverem na sua PATH
, indique a localização destes executáveis no ecrã para Configurar o Locutor. As opções permitem-lhe passar argumentos adicionais ao cliente e ao servidor. Numa consola, escreva epos -h
ou say -h
para ver mais informações.
O FreeTTS é um motor de voz aberto e gratuito feito em Java™, o que significa que você precisa de ter a máquina virtual de Java™ instalada no seu sistema para a usar. De momento, tem um suporte de vozes e línguas limitado. Não pode controlar o tom, o volume ou a velocidade deste motor no KTTS.
Nome do Sintetizador: FreeTTS
URL: http://sourceforge.net/projects/freetts/
Comando de Instalação da Debian: nenhum
O 'plugin' do comando permite-lhe usar o KTTS com qualquer motor de síntese de voz que possa ser executado como um comando numa Konsole.
Nome do Sintetizador: Comando
URL: nenhum
Comando de Instalação da Debian: nenhum
Idealmente, deverá usar um comando que sintetize para um ficheiro de áudio temporário (WAV), em vez de enviar a voz directamente para o dispositivo de áudio.
Se o motor de síntese de voz necessitar que o texto seja codificado de forma diferente da codificação do seu ambiente de trabalho, terá de usar o parâmetro %f para passar o texto ao motor. O KTTS irá codificar o texto com a opção que indicar, quando escrever o texto no ficheiro temporário. Se você tentar passar o texto à linha de comandos com o parâmetro %t, ele será codificado com a sua configuração regional. Poderá também usar a opção Enviar os dados como 'standard input' para resolver este problema, se o motor aceitar os dados de entrada a partir do 'StdIn'. Por exemplo, aqui está um comando de exemplo para enviar o texto em polaco para o Festival, usando a codificação ISO 8859-2 e removendo os caracteres de pontuação desnecessários.
cat %f | tr '(){}[]"' ' ' | festival --tts --language polish
Would you like to make a comment or contribute an update to this page?
Send feedback to the KDE Docs Team