Edição de voz interativa de texto usando novas tecnologias de fala da Yandex. Pronúncia e entonação

Hoje nosso aplicativo Ditado para escrita interativa e edição de texto por voz apareceu na AppStore e no Google Play. Dele a tarefa principal- demonstrar alguns dos novos recursos do complexo tecnologias de fala Yandex. É sobre o que é interessante e único sobre nossas tecnologias de reconhecimento e síntese de fala que quero falar neste post.

Algumas palavras para que você entenda o que será discutido. O Yandex fornece há muito tempo uma API móvel gratuita que pode ser usada, por exemplo, para reconhecimento de endereço e consultas de pesquisa por voz. Durante este ano, conseguimos elevar sua qualidade quase ao mesmo nível em que tais solicitações e comentários são entendidos pelas próprias pessoas. E agora fazemos o próximo passo- modelo de reconhecimento discurso livre em qualquer tópico.

Além disso, nossa síntese de fala suporta as emoções na voz. E, até onde sabemos, esta é a primeira síntese de voz comercialmente disponível com essa capacidade.

Sobre tudo isso, bem como sobre alguns outros recursos do SpeechKit: sobre ativação por voz, pontuação automática e reconhecimento de objetos semânticos no texto - leia abaixo.

ASR onívora e qualidade de reconhecimento

O sistema de reconhecimento de voz no SpeechKit funciona com tipos diferentes texto, e Ano passado temos trabalhado para expandir seu escopo. Para isso, criamos um novo modelo de linguagem, até agora o maior, para reconhecer textos curtos em qualquer tópico.

Por ano passado a proporção relativa de palavras erroneamente reconhecidas (Word Error Rate) diminuiu 30%. Por exemplo, hoje o SpeechKit reconhece corretamente 95% dos endereços e objetos geográficos, aproximando-se de uma pessoa que entende 96-98% das palavras que ouve. Completude do reconhecimento do novo modelo de ditado vários textos agora está em 82%. Com este nível, você pode criar uma solução completa para usuários finais, que é o que queríamos mostrar no exemplo do Dictation.

Inicialmente, o SpeechKit funcionava apenas para consultas de pesquisa: tópicos gerais e geonavegação. Embora mesmo assim planejássemos fazer não apenas uma ferramenta de entrada adicional, um teclado de “voz”, mas uma interface universal que substituiria completamente qualquer interação com o sistema por uma conversa ao vivo.

Para fazer isso, foi necessário aprender a reconhecer qualquer discurso, textos sobre um tema arbitrário. E começamos a trabalhar em um modelo de linguagem separado para isso, que era várias vezes maior do que os modelos de geonavegação e pesquisa geral existentes.

Esse tamanho do modelo estabeleceu novas condições em termos de recursos computacionais. Para cada quadro, vários milhares de opções de reconhecimento são consideradas - e quanto mais sucesso, maior a qualidade. E o sistema deve funcionar em fluxo, em tempo real, para que todos os cálculos precisem ser otimizados dinamicamente. Experimentamos, tentamos, procuramos uma abordagem: conseguimos aceleração, por exemplo, alterando a biblioteca de álgebra linear.

Mas o mais importante e mais difícil foi coletar dados corretos suficientes adequados para o ensino de streaming de fala. Atualmente, cerca de 500 horas de fala transcrita à mão são usadas para treinar o modelo acústico. Não é desse jeito grande base- para comparação, o popular corpo científico Switchboard, que é frequentemente usado em propósitos de pesquisa, contém aproximadamente 300 horas de conversas espontâneas ao vivo. É claro que um aumento na base contribui para um aumento na qualidade do modelo treinado, mas focamos em treinamento adequado dados e transcrições de modelos com precisão, o que nos permite treinar com qualidade aceitável em uma base relativamente pequena.

Algumas palavras sobre como funciona o módulo de reconhecimento (falamos sobre isso em detalhes há algum tempo). O fluxo de fala gravado é cortado em quadros de 20 ms, o espectro do sinal é dimensionado e, após uma série de transformações, são obtidos MFCCs para cada quadro.

Os coeficientes são inseridos no modelo acústico, que calcula a distribuição de probabilidade para aproximadamente 4.000 senons em cada quadro. Senon é o início, meio ou fim de um fonema.

O modelo acústico do SpeechKit é construído em uma combinação de modelos ocultos de Markov e uma rede neural feedforward profunda (feedforward DNN). Esta já é uma solução comprovada, e no último artigo falamos sobre como o abandono das misturas gaussianas em favor da DNN deu um salto de quase duas vezes na qualidade.

Depois vem o primeiro modelo de linguagem: vários WFSTs - transdutores finais ponderados - transformam senones em fonemas dependentes do contexto, e palavras inteiras são construídas a partir deles usando o dicionário de pronúncia, e centenas de hipóteses são obtidas para cada palavra.

O processamento final ocorre no modelo de segunda linguagem. Conectado a ele está a RNN , uma rede neural recorrente, e esse modelo ordena as hipóteses recebidas, auxiliando na escolha da opção mais plausível. A rede de tipo recorrente é especialmente eficaz para o modelo de linguagem. Determinando o contexto de cada palavra, pode levar em conta a influência não apenas das palavras mais próximas, como em uma rede neural feed-forward (digamos, para um modelo de trigrama, são duas palavras anteriores), mas também as mais distantes, como se os “lembrasse”.

O reconhecimento de texto conectado por muito tempo está disponível no SpeechKit Cloud e no SpeechKit Mobile SDK - para usar o novo modelo de linguagem, você precisa selecionar o tópico "notas" nos parâmetros de consulta.

Ativação por voz

O segundo componente-chave da interface de voz é o sistema de ativação por voz, que aciona a ação desejada em resposta a uma frase-chave. Sem ele, não será possível “desatar as mãos” totalmente do usuário. Desenvolvemos nosso próprio módulo de ativação de voz para o SpeechKit. A tecnologia é muito flexível - um desenvolvedor usando a biblioteca SpeechKit pode escolher qualquer frase-chave para sua aplicação.

Ao contrário, por exemplo, das soluções do Google - seus desenvolvedores as usam para reconhecer frase de efeito"OK Google" profundo rede neural. DNN dá alta qualidade, mas o sistema de ativação é limitado a um único comando, e para o aprendizado é necessário Grande quantidade dados. Por exemplo, um modelo para reconhecer uma frase familiar foi treinado no exemplo de mais de 40.000 vozes de usuários que acessaram seus smartphones com o Google Now.

Com nossa abordagem, o módulo de ativação por voz é, na verdade, um sistema de reconhecimento em miniatura. Ele só funciona em condições mais severas. Primeiramente, o reconhecimento de comandos deve ocorrer no próprio dispositivo, sem entrar em contato com o servidor. E o poder de computação do smartphone é muito limitado. O consumo de energia também é crítico - se um módulo de reconhecimento regular for ligado apenas por um certo tempo para processar uma solicitação específica, o módulo de ativação funcionará constantemente, em modo de espera. E ao mesmo tempo não deve plantar a bateria.

No entanto, há uma indulgência - o sistema de ativação precisa de um dicionário muito pequeno, porque é suficiente para entender algumas frases-chave, e o resto do discurso pode ser simplesmente ignorado. Portanto, o modelo de linguagem de ativação é muito mais compacto. A maioria dos estados do WFST corresponde a uma certa parte do nosso comando - por exemplo, "o início do quarto fonema". Há também estados "lixo" que descrevem o silêncio, ruído estranho e todos os outros discursos que não sejam frase chave. Se um modelo de reconhecimento completo no SpeechKit tiver dezenas de milhões de estados e levar até 10 gigabytes, então, para ativação por voz, ele será limitado a centenas de estados e caberá em várias dezenas de kilobytes.

Portanto, um modelo para reconhecer uma nova frase-chave é construído sem dificuldade, permitindo dimensionar rapidamente o sistema. Há uma condição - o comando deve ser longo o suficiente (de preferência - mais de uma palavra) e raramente ocorre em discurso cotidiano para evitar falsos positivos. “Por favor” não é bom para ativação por voz, mas “ouvir meu comando” é bom.

Juntamente com um modelo de idioma limitado e uma acústica "leve", o reconhecimento de comandos está ao alcance de qualquer smartphone. Resta lidar com o consumo de energia. O sistema possui um detector de atividade de voz integrado, que monitora a aparência de uma voz humana no fluxo de áudio de entrada. Outros sons são ignorados, portanto, em segundo plano, o consumo de energia do módulo de ativação é limitado apenas ao microfone.

síntese de fala

O terceiro componente principal da tecnologia de fala é a síntese de fala (text-to-speech). A solução TTS SpeechKit permite que você dê voz a qualquer texto com voz masculina ou feminina e até pergunte a emoção certa. Nenhum dos mecanismos de voz conhecidos no mercado tem essa capacidade.

Existem vários fundamentos diferentes tecnologias síntese de voz e, na maioria sistemas modernos a síntese concatenativa é usada pelo método de "seleção de unidade". A amostra de voz pré-gravada é cortada em elementos constituintes(por exemplo, fonemas dependentes do contexto) a partir dos quais a base da fala é composta. Então qualquer as palavras certas montados a partir de unidades individuais. Acontece uma imitação crível de uma voz humana, mas é difícil percebê-la - os saltos de timbre, entonações não naturais e transições nítidas aparecem nas junções de unidades individuais. Isso é especialmente perceptível ao expressar um longo texto conectado. A qualidade de tal sistema pode ser melhorada aumentando o volume da base de fala, mas este é um longo e trabalho meticuloso, exigindo o envolvimento de um locutor profissional e muito paciente. E a completude da base sempre continua sendo o gargalo do sistema.

No SpeechKit, decidimos usar a síntese de voz estatística (paramétrica) baseada em modelos ocultos de Markov. O processo é essencialmente semelhante ao reconhecimento, só que ocorre em direção oposta. Texto originalé passado para o módulo G2P (grafema-para-fonema), onde é convertido em uma sequência de fonemas.

Em seguida, eles entram no modelo acústico, que gera vetores que descrevem as características espectrais de cada fonema. Esses números são passados para o vocoder, que sintetiza o som.

O timbre dessa voz é um pouco "computador", mas tem entonações naturais e suaves. Ao mesmo tempo, a suavidade da fala não depende do volume e da duração. texto legível e a voz é fácil de afinar. Basta especificar uma chave nos parâmetros de solicitação, e o módulo de síntese emitirá um voto com a correspondente coloração emocional. É claro que nenhum sistema de seleção de unidades pode fazer isso.

Para que o modelo de voz pudesse construir algoritmos correspondentes a diversas emoções, foi necessário do jeito certo treiná-la. Portanto, durante a gravação, nossa colega Evgenia, cuja voz pode ser ouvida no SpeechKit, pronunciou suas falas em uma voz neutra, alegre e, ao contrário, irritada. Durante o treinamento, o sistema identificou e descreveu os parâmetros e características da voz correspondentes a cada um desses estados.

Nem todas as modificações de voz são baseadas no aprendizado. Por exemplo, o SpeechKit também permite colorir a voz sintetizada com os parâmetros "bêbado" e "doente". Nossos desenvolvedores sentiram pena de Zhenya, e ela não precisava ficar bêbada antes de gravar ou correr no frio para pegar um bom resfriado.

Para uma voz bêbada, a fala é desacelerada de uma maneira especial - cada fonema soa duas vezes mais lento, o que dá um efeito característico. E para o paciente, o limiar da sonoridade aumenta - de fato, o que acontece com as cordas vocais de uma pessoa com laringite é modelado. A sonoridade dos diferentes fonemas depende se o ar passa livremente pelo trato vocal humano ou se os sons vibrantes estão em seu caminho. cordas vocais. No modo "doença", cada fonema tem menor probabilidade de ser dublado, o que torna a voz rouca, plantada.

Método estatístico também permite a rápida expansão do sistema. No modelo de seleção de unidade, para adicionar uma nova voz, você precisa criar uma base de fala separada. O locutor deve gravar muitas horas de fala, mantendo a mesma entonação sem falhas. No SpeechKit, para criar uma nova voz, basta gravar pelo menos duas horas de fala - aproximadamente 1800 frases especiais, foneticamente balanceadas.

Isolamento de objetos semânticos

É importante não apenas traduzir as palavras que uma pessoa pronuncia em letras, mas também preenchê-las com significado. A quarta tecnologia forma limitada disponível no SpeechKit Cloud, não afeta diretamente o trabalho com a voz - ele começa a funcionar depois que as palavras faladas são reconhecidas. Mas sem ele, uma pilha completa de tecnologias de fala não pode ser feita - esta é a seleção de objetos semânticos em fala natural, que na saída fornece texto não apenas reconhecido, mas já marcado.

Agora SpeechKit implementa a seleção de datas e horas, nomes completos, endereços. O sistema híbrido combina gramáticas livres de contexto, dicionários palavras-chave e dados estatísticos de pesquisa e vários serviços Yandex, bem como algoritmos aprendizado de máquina. Por exemplo, na frase "vamos para a rua Leo Tolstoy", a palavra "rua" ajuda o sistema a determinar o contexto, após o qual o objeto correspondente está localizado no banco de dados Yandex.Maps.

No Dictation, construímos nesta tecnologia a função de edição de texto por voz. A abordagem para extrair entidades é fundamentalmente nova, e a ênfase está na simplicidade da configuração - você não precisa saber programação para configurar o sistema.

A entrada do sistema é uma lista tipos diferentes objetos e exemplos de frases da fala ao vivo que os descrevem. Além disso, os padrões são formados a partir desses exemplos usando o método Pattern Mining. Eles levam em conta forma inicial, raízes, variações morfológicas das palavras. Próxima Etapa exemplos do uso de objetos selecionados em diferentes combinações para ajudar o sistema a entender o contexto. Com base nesses exemplos, um modelo oculto de Markov é construído, onde os objetos selecionados na réplica do usuário tornam-se estados observáveis, e os objetos correspondentes a eles do campo de assunto com um valor já conhecido tornam-se estados ocultos.

Por exemplo, existem duas frases: "inserir 'olá amigo' no início" e "colar da área de transferência". O sistema determina que no primeiro caso, após “colar” (ação de edição), haja um texto arbitrário e, no segundo, um objeto conhecido por ele (“área de transferência”), e reage de forma diferente a esses comandos. NO sistema tradicional isso exigiria escrever regras ou gramáticas à mão, e em nova tecnologia A análise de contexto Yandex ocorre automaticamente.

Pontuação automática

Ao ditar algo, você espera ver sinais de pontuação no texto resultante. E eles devem aparecer automaticamente para que você não precise falar com a interface no estilo telégrafo: “Caro amigo - vírgula - como você está - ponto de interrogação". Portanto, o SpeechKit é complementado por um sistema de pontuação automática.

O papel dos sinais de pontuação na fala é desempenhado por pausas entoacionais. Assim, inicialmente procurou-se construir um modelo acústico e linguístico completo para o seu reconhecimento. A cada sinal de pontuação foi atribuído um fonema e, do ponto de vista do sistema, novas “palavras” apareciam na fala reconhecida, consistindo inteiramente desses fonemas de “pontuação” - onde havia pausas ou entonação alterada de certa forma.

Uma grande dificuldade surgiu com os dados para treinamento - na maioria dos corpora já existem textos normalizados nos quais os sinais de pontuação são omitidos. Além disso, quase não há pontuação nos textos das consultas de pesquisa. Nós nos voltamos para Ekho Moskvy, que transcreve manualmente todas as suas transmissões, e eles nos permitiram usar seu arquivo. Rapidamente ficou claro que essas transcrições eram inadequadas para nossos propósitos - elas foram feitas próximas ao texto, mas não literalmente e, portanto, não eram adequadas para aprendizado de máquina. A próxima tentativa foi feita com audiolivros, mas no caso deles, ao contrário, a qualidade era muito alta. Vozes bem colocadas, recitando expressivamente o texto, estão muito longe de Vida real, e os resultados do treinamento nesses dados não puderam ser aplicados em ditado espontâneo.

O segundo problema foi que a abordagem escolhida teve um impacto negativo na qualidade geral reconhecimento. Para cada palavra, o modelo de linguagem considera várias palavras vizinhas para determinar corretamente o contexto, e palavras de "pontuação" adicionais inevitavelmente o estreitaram. Vários meses de experimentação não levaram a nada.

Eu tive que começar com ardósia limpa- decidimos colocar sinais de pontuação já na fase de pós-processamento. Começamos com um dos métodos mais simples, que, curiosamente, apresentou resultados bastante aceitáveis no final. As pausas entre as palavras recebem uma das marcas: espaço, ponto, vírgula, ponto de interrogação, Ponto de exclamação, cólon. Para prever qual rótulo corresponde a uma pausa específica, é usado o método de campos aleatórios condicionais (CRF). Para determinar o contexto, três palavras anteriores e duas subsequentes são levadas em consideração, e essas regras simples permitem que você coloque sinais com uma precisão bastante alta. Mas continuamos a experimentar modelos completos que serão capazes de interpretar corretamente as entonações humanas em termos de pontuação, mesmo no estágio de reconhecimento de voz.

Planos futuros

Hoje, o SpeechKit é usado ativamente para resolver tarefas de "combate" em serviços de massa para usuários finais. A próxima etapa é aprender a reconhecer a fala espontânea em uma transmissão ao vivo para que você possa transcrever uma entrevista em tempo real ou fazer anotações automaticamente em uma palestra, recebendo como saída o texto já marcado, com teses destacadas e fatos importantes. Esta é uma tarefa enorme e muito intensiva em ciência que ninguém no mundo conseguiu resolver ainda - e não gostamos dos outros!

Para o desenvolvimento do SpeechKit é muito importante Comentários. Colocar

é um serviço de reconhecimento e síntese de fala da plataforma Yandex.Cloud que fornece aos desenvolvedores acesso às tecnologias de fala Yandex. Neste artigo vamos falar sobre síntese de voz.

A tecnologia de síntese de fala permite traduzir texto em fala (arquivo de som). A tarefa é relevante para dar voz a informações atualizadas dinamicamente ou dados que mudam rapidamente, como o saldo de mercadorias no depósito, o repertório dos cinemas e assim por diante. A tecnologia de síntese de fala do Yandex é baseada em Hidden Markov Models (HMMs). Através do uso de uma abordagem estatística na modelagem acústica, é possível obter entonações suaves naturais. A tecnologia permite criar rapidamente novas vozes e sintetizar diferentes emoções.

A síntese de voz Yandex permite que você escolha:

macho ou voz feminina para dublagem;
emoções: gentil, zangada, voz neutra.

A documentação da API de reconhecimento e síntese de fala Yandex SpeechKit está disponível em https://cloud.yandex.ru/docs/speechkit/

Usando um componente

A partir do Oktell 2.12, o componente Speech Synthesis apareceu nos scripts de serviço e IVR. O componente expressa a frase especificada (sintetiza a fala) usando o serviço Yandex SpeechKit. Permite que você reproduza imediatamente o arquivo em linha ou gere um arquivo para uso posterior. Você pode habilitar o cache no componente, salvando assim todos os arquivos gerados na pasta \Oktell\Server\LocalStorage\SynthesisCache. Como cada solicitação ao serviço Yandex é paga, o cache incluído permite que você economize seu dinheiro.

Documentação técnica para o componente:

Para usar o sistema de síntese de fala Yandex SpeechKit, faça o seguinte:

Siga as etapas 1 a 5 das instruções para autorizar na API a obter o ID do diretório
Faça login na sua conta Yandex ou Yandex.Connect
Obtenha um token OAuth no serviço Yandex.OAuth. Para fazer isso, siga o link, clique em permitir e copie o token OAuth resultante.

Passo 2 Vamos para Administração / Configurações Gerais / Reconhecimento de voz Yandex SpeechKit Cloud. Insira os valores recebidos Token OAuth e ID do diretório para os campos apropriados

etapa 3. Considere um exemplo de uso de síntese de voz em um cenário IVR.

Componente " síntese de fala". Diz uma saudação ao chamador e salva a seleção do chamador em uma variável.

Modo - Jogue. Neste modo, o componente reproduz imediatamente o arquivo gerado na linha atual.
Texto - string " Olá! Bem-vindo à Empresa de Sistemas Telefônicos! Para se conectar com os gerentes, pressione 1. Para se conectar com os funcionários suporte técnico pressione 2.". O texto inserido será transferido para o servidor Yandex para voz.
Voz - Zahar. A configuração é responsável pela voz sintetizada: Zahar - voz masculina, Jane - feminina. É possível especificar um valor diferente se for suportado pelo serviço Yandex SpeechKit.
Emote - Padrão. A configuração é responsável pela coloração da voz utilizada. Opções possíveis: bom, neutro, mau, misto.
Cache - Usar. Se você usar um cache, o sistema tentará encontrar um arquivo com o texto dublado entre os gerados anteriormente (localizados na pasta \Oktell\Server\LocalStorage\SynthesisCache). Recomenda-se sempre ligá-lo para economizar dinheiro.
Tempo limite de resposta, s - 5. O tempo máximo de espera por uma resposta dos servidores Yandex.
Quebra de caracteres - string " 1, 2 ". Se o assinante pressionar os caracteres de interrupção especificados, o componente os salvará no buffer e passará para o próximo bloco.
Buffer para DTMF - variável entrada(corda). A variável na qual o caractere de quebra inserido é armazenado.
Limpar Buffer - Sim. Indica que o buffer será limpo primeiro.

Componente " Cardápio". Encaminha o assinante para o grupo de operadoras selecionado.

Argumento - variável Entrada
Valores -

1 - para o componente "Comutação 1" 2, outro - para o componente "Comutação 2"

A configuração de roteamento adicional não é considerada.

Para usar a síntese de fala para presetting, você deve primeiro gerar um arquivo usando o componente "Speech Synthesis" e salvar o caminho para este arquivo em uma variável (na propriedade correspondente). Em seguida, especifique este arquivo no componente "Preset Playback".

Isso adiciona um pouco de tempero e, se eu começar a experimentar outros mecanismos, recebo a hashtag #ReturnDashka nos comentários. É legal assistir a tudo isso, mas o processo não fica parado e muitas empresas desenvolvem suas próprias tecnologias. Por exemplo, gostei da voz, que às vezes também coloco no vídeo.

Recentemente me deparei com um complexo de tecnologias de fala Yandex, incluindo reconhecimento e síntese de fala, ativação de voz e seleção de objetos semânticos no texto falado. A tecnologia de fala aprendeu a reconhecer a ativação por voz, com sua ajuda você pode gravar mensagens SMS e deixar notas por voz, sem usar o teclado, acessar diretamente o back-end usado com sucesso nos aplicativos móveis Yandex. Por exemplo, o SpeechKit Mobile SDK permite incorporar reconhecimento e síntese de fala, bem como ativação de voz Yandex em aplicativo móvel para iOS, Android (em este momento russo, inglês, turco e Línguas ucranianas) ou Telefone do Windows(Língua russa). O controle de voz tornará seu aplicativo mais fácil de usar, especialmente se as mãos do usuário estiverem ocupadas. Sem tocar na tela, ele poderá chamar a função desejada com uma frase.

Sempre fui atraído pela tecnologia de síntese de fala, que permite traduzir texto em fala. Rapidamente esbocei o texto, dei voz (Milena TTS [Russo]) e coloquei no vídeo, sobre qualquer assunto. Isso será especialmente interessante para usuários que têm problemas com a fala ou aqueles que, por algum motivo, têm vergonha de sua voz.

Vozes do Yandex pareciam peculiares, agradáveis e facilmente percebidas ouvido humano, especialmente vozes masculinas zahar e ermil. As vozes femininas de jane, oksana, alyss e omazh me assustaram muito e, na minha opinião, não chegam às alturas de SuperDazhki. Então, como você ouve novas vozes em um computador doméstico típico? Para fazer isso, tive que cavar a Internet e a solução foi encontrada na forma de um script.

1. Primeiro, precisamos estar na página e clicar no botão "Developer's Room".

Você imediatamente entra em Área Pessoal e clique no botão "Obter chave". Em seguida, clique no botão "SpeechKit Cloud".

Preencha todos os campos marcados com um asterisco vermelho e clique no botão "Enviar".

A chave será recebida instantaneamente, após o que deve ser copiada.

Agora vamos para este, onde veremos vários parâmetros de consulta, alto-falante (voz da fala sintetizada), formato de resposta e exemplos de URL. Esta letra chinesa parecerá muito complicada para um usuário comum, então vamos simplificar nossas ações (ou vice-versa complicar) organizando um script simples.

2. Baixe o programa Notepad ++ para o seu computador (). Nós instalamos.

3. Crie um arquivo index.html. Quem não tem vontade de criar à mão, baixe isso.

Altere o nome do arquivo: index.html. Tipo de arquivo: Todos os arquivos. Codificação: UTF-8. Pressione o botão "Salvar". É importante salvar o arquivo index.html na raiz da unidade do sistema ou em qualquer pasta na unidade do sistema.

Agora o arquivo salvo precisa ser editado. Abra o arquivo com o Notepad++.

Na verdade, aqui está o nosso tão esperado script (). Edite seu arquivo corretamente: cole Lugar certo sua chave, mude sua voz, salve e use.

No futuro, clique duas vezes no arquivo index.html e, no navegador, obteremos o seguinte.

Resta escrever um poema em uma grande janela e zahar (ou qualquer outro personagem selecionado) o lerá para você. Eu não discuto que é possível que eu coloque nas prateleiras aqui e ninguém precise disso amanhã, eu só estava interessado no processo de síntese de fala do Yandex no meu computador, que compartilhei com você.

Ajude o projeto em seu desenvolvimento:
Cartão Sberbank: 676280139020834994
Yandex.Money: 410012054992141
Webmoney: carteira WMR R429054927097
carteira WMZ Z401294377967

tecnologia de reconhecimento de voz

Yandex Speechkit Autopoet.

Preparação de texto

Pronúncia e entonação

página ou em um site de recurso especial

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas também há problema inverso: transforma o texto disponível no computador em voz.

O Yandex usa a tecnologia de síntese de fala do complexo Yandex Speechkit para textos de voz. Por exemplo, ele permite que você aprenda a pronunciar palavras estrangeiras e frases no Tradutor. Graças à síntese de voz, Autopoet também recebeu sua própria voz.

Preparação de texto

Pronúncia e entonação

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e são necessários dados sobre a frase e a sentença como um todo para criar entonação correta fala sintetizada.

Para ler o texto preparado, é utilizado um modelo acústico. Ele difere do modelo acústico que é usado no reconhecimento de fala. No caso do reconhecimento de padrões, é necessário estabelecer uma correspondência entre sons com determinadas características e fonemas. No caso da síntese, o modelo acústico, ao contrário, deve compilar as descrições dos sons de acordo com as descrições dos frames.

Como o modelo acústico sabe pronunciar corretamente um fonema ou dar a entonação correta sentença interrogativa? Ela aprende com textos e arquivos de som. Por exemplo, você pode fazer upload de um audiolivro e seu texto correspondente. Quanto mais dados um modelo aprende, melhor sua pronúncia e entonação.

Você pode aprender mais sobre tecnologias do complexo Yandex SpeechKit nesta página ou em um recurso especial. Se você é um desenvolvedor e quer testar uma nuvem ou versão móvel SpeechKit, um site dedicado às tecnologias Yandex irá ajudá-lo.

","contentType":"text/html","amp":"

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas há também uma tarefa inversa: transformar em voz o texto que o computador tem à sua disposição.

Se o conjunto de textos a serem dublados for relativamente pequeno e neles ocorrerem as mesmas expressões - como, por exemplo, em anúncios sobre a partida e chegada de trens na estação -, basta convidar um locutor, registrar as palavras necessárias e frases no estúdio e, em seguida, coletar de qual mensagem. Com textos arbitrários, no entanto, essa abordagem não funciona. É aqui que a síntese de voz é útil.

O Yandex usa a tecnologia de síntese de fala do complexo Yandex Speechkit para textos de voz. Por exemplo, ele permite que você descubra como palavras e frases estrangeiras são pronunciadas no Tradutor. Graças à síntese de voz, Autopoet também recebeu sua própria voz.

Preparação de texto

A tarefa de síntese de voz é resolvida em várias etapas. Primeiro, um algoritmo especial prepara o texto para que seja conveniente para o robô lê-lo: ele escreve todos os números em palavras, expande as abreviações. Em seguida, o texto é dividido em frases, ou seja, em frases com entonação contínua - para isso, o computador foca em sinais de pontuação e construções estáveis. Para todas as palavras, é compilado transcrição fonética.

Para descobrir como ler uma palavra e onde colocar a ênfase nela, o robô primeiro recorre aos dicionários clássicos escritos à mão que são incorporados ao sistema. Se a palavra desejada não estiver no dicionário, o computador constrói a transcrição por conta própria - com base nas regras emprestadas de livros de referência acadêmica. Finalmente, se regras costumeiras não é suficiente - e isso acontece, porque qualquer língua viva está em constante mudança - ela usa regras estatísticas. Se a palavra ocorre no corpus textos de treinamento, o sistema lembrará qual sílaba geralmente foi enfatizada pelos falantes.

Pronúncia e entonação

Quando a transcrição está pronta, o computador calcula por quanto tempo cada fonema vai soar, ou seja, quantos quadros ele contém - é assim que são chamados os fragmentos de 25 milissegundos de duração. Em seguida, cada quadro é descrito de acordo com um conjunto de parâmetros: de que fonema faz parte e que lugar nele ocupa; a que sílaba pertence este fonema; se for uma vogal, é tônica; que lugar ocupa na sílaba; sílaba - em uma palavra; palavra - em uma frase; que sinais de pontuação existem antes e depois desta frase; que lugar a frase ocupa na frase; finalmente, que sinal está no final da frase e qual é a sua entonação principal.

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e os dados sobre a frase e a sentença como um todo são necessários para criar a entonação correta da fala sintetizada.

Como o modelo acústico sabe pronunciar corretamente um fonema ou dar a entonação correta a uma frase interrogativa? Ela aprende com textos e arquivos de som. Por exemplo, você pode fazer upload de um audiolivro e seu texto correspondente. Quanto mais dados um modelo aprende, melhor sua pronúncia e entonação.

Finalmente, sobre a voz em si. Nossas vozes são reconhecíveis, em primeiro lugar, pelo timbre, que depende das características estruturais dos órgãos. aparelho de fala Toda pessoa. O timbre da sua voz pode ser modelado, ou seja, suas características podem ser descritas - para isso, basta ler um pequeno corpo de textos no estúdio. Depois disso, seus dados de tom podem ser usados na síntese de fala em qualquer idioma, mesmo que você não conheça. Quando o robô precisa lhe dizer algo, ele usa um gerador ondas sonoras- vocoder. Ele é carregado com informações sobre as características de frequência da frase obtidas do modelo acústico, bem como dados sobre o timbre que confere à voz uma cor reconhecível.

Você pode aprender mais sobre tecnologias do complexo Yandex SpeechKit nesta página ou em um recurso especial. Se você é um desenvolvedor e deseja testar a versão em nuvem ou móvel do SpeechKit, o site dedicado às tecnologias Yandex o ajudará.

","instantArticle":"

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas há também uma tarefa inversa: transformar em voz o texto que o computador tem à sua disposição.

Preparação de texto

Para descobrir como ler uma palavra e onde colocar a ênfase nela, o robô primeiro recorre aos dicionários clássicos escritos à mão que são incorporados ao sistema. Se a palavra desejada não estiver no dicionário, o computador constrói a transcrição por conta própria - com base nas regras emprestadas de livros de referência acadêmica. Finalmente, se as regras usuais não são suficientes - e isso acontece, porque qualquer língua viva está em constante mudança - ela usa regras estatísticas. Se uma palavra foi encontrada no corpus dos textos de treinamento, o sistema lembrará qual sílaba os falantes normalmente enfatizaram nela.

Pronúncia e entonação

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e os dados sobre a frase e a sentença como um todo são necessários para criar a entonação correta da fala sintetizada.

Finalmente, sobre a voz em si. Nossas vozes são reconhecíveis, em primeiro lugar, pelo timbre, que depende das características estruturais dos órgãos do aparelho de fala de cada pessoa. O timbre de sua voz pode ser modelado, ou seja, suas características podem ser descritas - para isso, basta ler um pequeno corpo de textos no estúdio. Depois disso, seus dados de tom podem ser usados na síntese de fala em qualquer idioma, mesmo que você não conheça. Quando o robô precisa dizer algo para você, ele usa um gerador de ondas sonoras - um vocoder. Ele é carregado com informações sobre as características de frequência da frase obtidas do modelo acústico, bem como dados sobre o timbre que confere à voz uma cor reconhecível.

"),"proposedBody":("source":"

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas há também uma tarefa inversa: transformar em voz o texto que o computador tem à sua disposição.

Preparação de texto

Para descobrir como ler uma palavra e onde colocar a ênfase nela, o robô primeiro recorre aos dicionários clássicos escritos à mão que são incorporados ao sistema. Se a palavra desejada não estiver no dicionário, o computador constrói a transcrição por conta própria - com base nas regras emprestadas de livros de referência acadêmica. Finalmente, se as regras usuais não são suficientes - e isso acontece, porque qualquer língua viva está em constante mudança - ela usa regras estatísticas. Se uma palavra foi encontrada no corpus dos textos de treinamento, o sistema lembrará qual sílaba os falantes normalmente enfatizaram nela.

Pronúncia e entonação

Quando a transcrição está pronta, o computador calcula por quanto tempo cada fonema vai soar, ou seja, quantos quadros ele contém - é assim que são chamados os fragmentos de 25 milissegundos de duração. Em seguida, cada quadro é descrito de acordo com um conjunto de parâmetros: de que fonema faz parte e que lugar nele ocupa; a que sílaba pertence este fonema; se for uma vogal, é tônica; que lugar ocupa na sílaba; sílaba - em uma palavra; a palavra está na frase; que sinais de pontuação existem antes e depois desta frase; que lugar a frase ocupa na frase; finalmente, que sinal está no final da frase e qual é a sua entonação principal.

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e os dados sobre a frase e a sentença como um todo são necessários para criar a entonação correta da fala sintetizada.

Finalmente, sobre a voz em si. Nossas vozes são reconhecíveis, em primeiro lugar, pelo timbre, que depende das características estruturais dos órgãos do aparelho de fala de cada pessoa. O timbre de sua voz pode ser modelado, ou seja, suas características podem ser descritas - para isso, basta ler um pequeno corpo de textos no estúdio. Depois disso, seus dados de tom podem ser usados na síntese de fala em qualquer idioma, mesmo que você não conheça. Quando o robô precisa dizer algo para você, ele usa um gerador de ondas sonoras chamado vocoder. Ele é carregado com informações sobre as características de frequência da frase obtidas do modelo acústico, bem como dados sobre o timbre que confere à voz uma cor reconhecível.

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas há também uma tarefa inversa: transformar em voz o texto que o computador tem à sua disposição.

Preparação de texto

Para descobrir como ler uma palavra e onde colocar a ênfase nela, o robô primeiro recorre aos dicionários clássicos escritos à mão que são incorporados ao sistema. Se a palavra desejada não estiver no dicionário, o computador constrói a transcrição por conta própria - com base nas regras emprestadas de livros de referência acadêmica. Finalmente, se as regras usuais não são suficientes - e isso acontece, porque qualquer língua viva está em constante mudança - ela usa regras estatísticas. Se uma palavra foi encontrada no corpus dos textos de treinamento, o sistema lembrará qual sílaba os falantes normalmente enfatizaram nela.

Pronúncia e entonação

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e os dados sobre a frase e a sentença como um todo são necessários para criar a entonação correta da fala sintetizada.

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"menor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificaçãoDate":"Terça 03 de abril de 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("source":"

Quando você diz ao Navigator "Vamos para Gogol, 25" ou diz uma consulta de pesquisa em voz alta, a tecnologia de reconhecimento de voz converte sua voz em um comando de texto. Há também uma tarefa inversa: transformar texto em voz. Às vezes, basta convidar um locutor e apenas escrever as palavras e frases necessárias, mas isso não funcionará com textos arbitrários. É aqui que a síntese de voz é útil.

","contentType":"text/html"),"proposedPreview":("source":"

","contentType":"text/html"),"titleImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000"),"major288":(" height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/major444","fullPath":"https:/ /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ arquivo_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288": ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/minor288","width": 288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touch288","fullPath":"https ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width":444,"height":246),"touch900 ":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -yab logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("height":246,"path " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"), " w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net /get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288h160","width":288,"fullPath" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/47421/file_1475751 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("height":246 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w444 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620","fullPath":"https://avatars. mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"tecnologias Yandex","slug": " technologii-yandeksa","url":"/blog/empresa? ?tag=tekhnologii-yandeksa"),("displayName":"como funciona?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /empresa","addCommentUrl":"/blog/createComment/empresa/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/publish " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb9760017cf4ccf/edit","urlForRelate":"/blog/post/translate"sue ": "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","autor":("id":"24151397","uid ": ("value":"24151397","lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" nome":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","vazio":falso)),"endereço":" [e-mail protegido] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff": true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000") ,"major288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900": ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width": 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444 ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,"height":246),"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000")","w260h260":( " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https:/ / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288"," largura ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":" /get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162 ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444, "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_1475751201967/major620" ,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

Às vezes, precisamos ler o texto impresso com voz. Na maioria das vezes, esses programas são usados por aqueles que ensinam línguas estrangeiras para determinar a entonação e o estresse corretos, também para ler livros e apenas para se divertir e desenhar amigos. Para usar a dublagem do texto, não há necessidade de baixar programas para o seu computador, pois há um número suficiente deles em versões online(Diferente ). Este artigo irá cobrir melhores sintetizadores fala humana, que você pode usar online.

Translate.google.com é um serviço gratuito de tradução e síntese de texto.

O Google tradutor é um dos mais populares e os melhores serviços que oferece uma ampla gama de serviços. Por exemplo, todos tradutor famoso tem a função de dar voz ao texto inserido e em todos os idiomas suportados. A qualidade do som é um pouco baixa em alguns lugares, mas geralmente aceitável. Se você estiver traduzindo texto impresso em fala para aprendizado de idiomas, o sintetizador Google Tradutor irá atender você perfeitamente. O mais importante deste serviço é que ele é simples e acessível a todos os usuários da Internet.

Como sintetizar texto no Translate.google.com

Para usar o serviço do Google:

Acesse https://translate.google.com ;
Selecionar idioma necessário clicando no botão "Detectar idioma";
Em seguida, digite o texto na janela onde você escolheu o idioma;
Agora clique no ícone do gramofone na parte inferior da janela e você poderá ouvir a reprodução do texto em uma voz feminina.

Sua desvantagem é a incapacidade de baixar a síntese de voz reproduzida em um arquivo para o seu computador. Também não há configurações de voz ou seleção de artista.

Acapela - software gratuito de conversão de texto em fala

Acapela é o mais popular e um dos melhores sintetizadores de voz online. O serviço suporta mais de 30 idiomas, bem como um grande número de artistas para escolher, masculino e feminino. Para o inglês, existem até 20 timbres para escolher - feminino, masculino, adolescente, infantil, masculino áspero, feminino suave, etc. O programa é altamente personalizável e fácil de usar. O site possui um programa para uso offline. Você tem a oportunidade de experimentar uma versão demo do sintetizador de voz clicando no item correspondente na barra de menu.

Como usar o Acapela

Para configurar a síntese Discurso oral online, use o bloco do lado esquerdo da página http://www.acapela-group.com/voices/demo/ .

Então, como isso funciona:

Na primeira linha, selecione o idioma do texto falado.
A segunda linha não é necessária se você selecionar russo, porque há apenas uma opção - Alyona.
Na terceira linha, digite o texto que você deseja expressar. Você pode inserir até 300 caracteres.
Em seguida, concorde com os termos do serviço marcando a caixa "concordo com os termos e condições".
E clique no botão "Aceite os termos e condições" abaixo.

A dublagem através deste serviço é de qualidade média. A entonação está correta em quase todas as palavras. O produto está disponível para todas as plataformas.

Next.2yxa.mobi - serviço online para leitura de texto

O serviço online Next.2yxa.mobi é um sintetizador simples e acessível para reproduzir texto digitado. O site foi desenvolvido para dispositivos móveis, portanto, inserindo-o através de um navegador web, teremos uma ferramenta de síntese de texto leve e rápida. Nesse sentido, o site apresenta algumas limitações em seu trabalho. Por exemplo, se você precisar "ler" o texto baixado, o tamanho do arquivo não deve exceder 100 kb. Você pode digitar o texto e imediatamente expressá-lo.

Para isso você precisa:

Vocalizer - sintetizador de voz para reprodução de texto online

Outro entre os melhores sintetizadores de voz para teste de dublagem online, criado por desenvolvedores estrangeiros é o Vocalizer. Está disponível em http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. Este é um serviço simples e compreensível. O menu e a interface são totalmente em inglês, mas será muito fácil descobrir. Serviço on-line podemos usar como versão Demo. O sistema oferece 100 opções de voz diferentes e 47 idiomas.

Como usar o Vocalizer

Sintetizar a fala online com este programa é muito simples. Por esta:

No item "Idioma / Dialeto", selecione o idioma;
Em "Gênero" selecione uma dublagem masculina ou feminina (masculino - masculino, feminino - feminino);
Abaixo no bloco grande, digite o texto para voz e pressione o botão azul ao lado para jogar.

Portal para o aluno. Autotreinamento

ASR onívora e qualidade de reconhecimento

Ativação por voz

síntese de fala

Isolamento de objetos semânticos

Pontuação automática

Planos futuros

Usando um componente

Translate.google.com é um serviço gratuito de tradução e síntese de texto.

Como sintetizar texto no Translate.google.com

Acapela - software gratuito de conversão de texto em fala

Como usar o Acapela

Next.2yxa.mobi - serviço online para leitura de texto

Vocalizer - sintetizador de voz para reprodução de texto online

Como usar o Vocalizer

ARTIGOS RELACIONADOS