Os melhores sintetizadores de voz online. Extensão SpeakIt! Chrome: sintetizador de voz no navegador para quem tem preguiça de ler

Isso adiciona um pouco de tempero e, se eu começar a experimentar outros mecanismos, recebo a hashtag #ReturnDashka nos comentários. É legal assistir a tudo isso, mas o processo não fica parado e muitas empresas desenvolvem suas próprias tecnologias. Por exemplo, gostei da voz, que às vezes também coloco no vídeo.

Recentemente me deparei com um complexo de tecnologias de fala Yandex, incluindo reconhecimento e síntese de fala, ativação de voz e seleção de objetos semânticos no texto falado. A tecnologia de fala aprendeu a reconhecer a ativação por voz, com sua ajuda você pode gravar mensagens SMS e deixar notas por voz, sem usar o teclado, acessar diretamente o back-end usado com sucesso nos aplicativos móveis Yandex. Por exemplo, o SpeechKit Mobile SDK permite incorporar reconhecimento e síntese de fala, bem como ativação de voz Yandex, em um aplicativo móvel para iOS, Android (atualmente russo, inglês, turco e ucraniano) ou Windows Phone (russo). O controle de voz tornará seu aplicativo mais fácil de usar, especialmente se as mãos do usuário estiverem ocupadas. Sem tocar na tela, ele poderá chamar a função desejada com uma frase.

Sempre fui atraído pela tecnologia de síntese de fala, que permite traduzir texto em fala. Rapidamente esbocei o texto, dei voz (Milena TTS [Russo]) e coloquei no vídeo, sobre qualquer assunto. Isso será especialmente interessante para usuários que têm problemas com a fala ou aqueles que, por algum motivo, têm vergonha de sua voz.

As vozes do Yandex pareciam peculiares, agradáveis e facilmente percebidas pelo ouvido humano, especialmente as vozes masculinas de zahar e ermil. As vozes femininas de jane, oksana, alyss e omazh me assustaram muito e, na minha opinião, não chegam às alturas de SuperDazhki. Então, como você ouve novas vozes em um computador doméstico típico? Para fazer isso, tive que cavar a Internet e a solução foi encontrada na forma de um script.

1. Primeiro, precisamos estar na página e clicar no botão "Developer's Room".

Imediatamente você entra em sua conta pessoal e pressiona o botão "Obter a chave". Em seguida, clique no botão "SpeechKit Cloud".

Preencha todos os campos marcados com um asterisco vermelho e clique no botão "Enviar".

A chave será recebida instantaneamente, após o que deve ser copiada.

Agora vamos para este, onde veremos vários parâmetros de consulta, alto-falante (voz da fala sintetizada), formato de resposta e exemplos de URL. Esta letra chinesa parecerá muito complicada para um usuário comum, então vamos simplificar nossas ações (ou vice-versa complicar) organizando um script simples.

2. Baixe o programa Notepad ++ para o seu computador (). Nós instalamos.

3. Crie um arquivo index.html. Quem não tem vontade de criar à mão, baixe isso.

Altere o nome do arquivo: index.html. Tipo de arquivo: Todos os arquivos. Codificação: UTF-8. Pressione o botão "Salvar". É importante salvar o arquivo index.html na raiz da unidade do sistema ou em qualquer pasta na unidade do sistema.

Agora o arquivo salvo precisa ser editado. Abra o arquivo com o Notepad++.

Na verdade, aqui está o nosso tão esperado script (). Edite seu arquivo corretamente: cole sua chave no lugar certo, mude a voz, salve e use.

No futuro, clique duas vezes no arquivo index.html e, no navegador, obteremos o seguinte.

Resta escrever um poema em uma grande janela e zahar (ou qualquer outro personagem selecionado) o lerá para você. Eu não discuto que é possível que eu coloque nas prateleiras aqui e ninguém precise disso amanhã, eu só estava interessado no processo de síntese de fala do Yandex no meu computador, que compartilhei com você.

Ajude o projeto em seu desenvolvimento:
Cartão Sberbank: 676280139020834994
Yandex.Money: 410012054992141
Webmoney: carteira WMR R429054927097
carteira WMZ Z401294377967

tecnologia de reconhecimento de voz

Yandex Speechkit Autopoet.

Preparação de texto

Pronúncia e entonação

página ou em um site de recurso especial

Muitos de vocês provavelmente conseguiram controlar um computador ou smartphone com sua voz. Quando você diz ao Navigator “Vamos para Gogol, 25” ou faz uma consulta de pesquisa no aplicativo Yandex, a tecnologia de reconhecimento de fala converte sua voz em um comando de texto. Mas há também uma tarefa inversa: transformar em voz o texto que o computador tem à sua disposição.

O Yandex usa a tecnologia de síntese de fala do complexo Yandex Speechkit para textos de voz. Por exemplo, ele permite que você descubra como palavras e frases estrangeiras são pronunciadas no Tradutor. Graças à síntese de voz, Autopoet também recebeu sua própria voz.

Preparação de texto

Pronúncia e entonação

Em outras palavras, muitos dados são usados para sintetizar a cada 25 milissegundos de fala. As informações sobre o ambiente imediato garantem uma transição suave de quadro a quadro e de sílaba a sílaba, e os dados sobre a frase e a sentença como um todo são necessários para criar a entonação correta da fala sintetizada.

Para ler o texto preparado, é utilizado um modelo acústico. Ele difere do modelo acústico que é usado no reconhecimento de fala. No caso do reconhecimento de padrões, é necessário estabelecer uma correspondência entre sons com determinadas características e fonemas. No caso da síntese, o modelo acústico, ao contrário, deve compilar as descrições dos sons de acordo com as descrições dos frames.

Como o modelo acústico sabe pronunciar corretamente um fonema ou dar a entonação correta a uma frase interrogativa? Ela aprende com textos e arquivos de som. Por exemplo, você pode fazer upload de um audiolivro e seu texto correspondente. Quanto mais dados um modelo aprende, melhor sua pronúncia e entonação.

Você pode aprender mais sobre tecnologias do complexo Yandex SpeechKit nesta página ou em um recurso especial. Se você é um desenvolvedor e deseja testar a versão em nuvem ou móvel do SpeechKit, o site dedicado às tecnologias Yandex o ajudará.

","contentType":"text/html","amp":"

Se o conjunto de textos a serem dublados é relativamente pequeno e neles ocorrem as mesmas expressões - como, por exemplo, em anúncios sobre a partida e chegada de trens na estação - basta convidar um locutor, registrar as palavras necessárias e frases no estúdio e, em seguida, coletar de qual mensagem. Com textos arbitrários, no entanto, essa abordagem não funciona. É aqui que a síntese de voz é útil.

Preparação de texto

A tarefa de síntese de voz é resolvida em várias etapas. Primeiro, um algoritmo especial prepara o texto para que seja conveniente para o robô lê-lo: ele escreve todos os números em palavras, expande as abreviações. Em seguida, o texto é dividido em frases, ou seja, em frases com entonação contínua - para isso, o computador foca em sinais de pontuação e construções estáveis. Para todas as palavras, uma transcrição fonética é compilada.

Para descobrir como ler uma palavra e onde colocar a ênfase nela, o robô primeiro recorre aos dicionários clássicos escritos à mão que são incorporados ao sistema. Se a palavra desejada não estiver no dicionário, o computador constrói a transcrição por conta própria - com base nas regras emprestadas de livros de referência acadêmica. Finalmente, se as regras usuais não são suficientes - e isso acontece, porque qualquer língua viva está em constante mudança - ela usa regras estatísticas. Se uma palavra foi encontrada no corpus dos textos de treinamento, o sistema lembrará qual sílaba os falantes normalmente enfatizaram nela.

Pronúncia e entonação

Quando a transcrição está pronta, o computador calcula por quanto tempo cada fonema vai soar, ou seja, quantos quadros ele contém - é assim que são chamados os fragmentos de 25 milissegundos de duração. Em seguida, cada quadro é descrito de acordo com um conjunto de parâmetros: de que fonema faz parte e que lugar nele ocupa; a que sílaba pertence este fonema; se for uma vogal, é tônica; que lugar ocupa na sílaba; sílaba - em uma palavra; palavra - em uma frase; que sinais de pontuação existem antes e depois desta frase; que lugar a frase ocupa na frase; finalmente, que sinal está no final da frase e qual é a sua entonação principal.

Finalmente, sobre a voz em si. Nossas vozes são reconhecíveis, em primeiro lugar, pelo timbre, que depende das características estruturais dos órgãos do aparelho de fala de cada pessoa. O timbre da sua voz pode ser modelado, ou seja, suas características podem ser descritas - para isso, basta ler um pequeno corpo de textos no estúdio. Depois disso, seus dados de tom podem ser usados na síntese de fala em qualquer idioma, mesmo que você não conheça. Quando o robô precisa dizer algo para você, ele usa um gerador de ondas sonoras - um vocoder. Ele é carregado com informações sobre as características de frequência da frase obtidas do modelo acústico, bem como dados sobre o timbre que confere à voz uma cor reconhecível.

","instantArticle":"

Preparação de texto

Pronúncia e entonação

"),"proposedBody":("source":"

Se o conjunto de textos a serem dublados é relativamente pequeno e neles ocorrem as mesmas expressões - como, por exemplo, em anúncios sobre a partida e chegada de trens na estação - basta convidar um locutor, registrar as palavras necessárias e frases no estúdio, e então coletar de qual mensagem. Com textos arbitrários, no entanto, essa abordagem não funciona. É aqui que a síntese de voz é útil.

Preparação de texto

Pronúncia e entonação

Quando a transcrição está pronta, o computador calcula por quanto tempo cada fonema vai soar, ou seja, quantos quadros ele contém - é assim que são chamados os fragmentos de 25 milissegundos de duração. Em seguida, cada quadro é descrito de acordo com um conjunto de parâmetros: de que fonema faz parte e que lugar nele ocupa; a que sílaba pertence este fonema; se for uma vogal, é tônica; que lugar ocupa na sílaba; sílaba - em uma palavra; a palavra está na frase; que sinais de pontuação existem antes e depois desta frase; que lugar a frase ocupa na frase; finalmente, que sinal está no final da frase e qual é a sua entonação principal.

Finalmente, sobre a voz em si. Nossas vozes são reconhecíveis, em primeiro lugar, pelo timbre, que depende das características estruturais dos órgãos do aparelho de fala de cada pessoa. O timbre da sua voz pode ser modelado, ou seja, suas características podem ser descritas - para isso, basta ler um pequeno corpo de textos no estúdio. Depois disso, seus dados de tom podem ser usados na síntese de fala em qualquer idioma, mesmo que você não conheça. Quando o robô precisa dizer algo para você, ele usa um gerador de ondas sonoras chamado vocoder. Ele é carregado com informações sobre as características de frequência da frase obtidas do modelo acústico, bem como dados sobre o timbre que confere à voz uma cor reconhecível.

Preparação de texto

Pronúncia e entonação

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"menor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificaçãoDate":"Terça 03 de abril de 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("source":"

Quando você diz ao Navigator "Vamos para Gogol, 25" ou diz uma consulta de pesquisa em voz alta, a tecnologia de reconhecimento de voz converte sua voz em um comando de texto. Há também uma tarefa inversa: transformar texto em voz. Às vezes, basta convidar um locutor e apenas escrever as palavras e frases necessárias, mas isso não funcionará com textos arbitrários. É aqui que a síntese de voz é útil.

","contentType":"text/html"),"proposedPreview":("source":"

","contentType":"text/html"),"titleImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000"),"major288":(" height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/major444","fullPath":"https:/ /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ arquivo_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288": ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/minor288","width": 288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touch288","fullPath":"https ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width":444,"height":246),"touch900 ":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -yab logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("height":246,"path " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"), " w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net /get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288h160","width":288,"fullPath" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/47421/file_1475751 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("height":246 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w444 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620","fullPath":"https://avatars. mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"tecnologias Yandex","slug": " technologii-yandeksa","url":"/blog/empresa? ?tag=tekhnologii-yandeksa"),("displayName":"como funciona?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /empresa","addCommentUrl":"/blog/createComment/empresa/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/publish " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb9760017cf4ccf/edit","urlForRelate":"/blog/url/translate"s": "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","autor":("id":"24151397","uid ": ("value":"24151397","lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" nome":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","vazio":falso)),"endereço":" [e-mail protegido] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff": true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000") ,"major288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900": ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width": 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444 ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,"height":246),"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000")","w260h260":( " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https:/ / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288"," largura ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":" /get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162 ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444, "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_1475751201967/major620" ,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

SpeechKit Cloud é um programa que dá aos desenvolvedores acesso às tecnologias de reconhecimento e síntese de fala Yandex. A integração é implementada através do módulo Yandex TTS, disponível através do Add-ons Market do sistema MajorDoMo.

O procedimento de instalação e configuração é muito simples e é realizado em poucos passos.

1. Vá para o Painel de Controle

2. Vá para o mercado de complementos

3. Vá para a seção "Interação"

4. Adicione o módulo ao sistema MajorDomo - Painel de controle - Mercado de complementos - Interação - Yandex TTS - Adicione:

5. O sistema nos informará sobre a instalação bem-sucedida e redirecionará para a página "Mercado de complementos":

6. Para configurar ainda mais o módulo, você precisa da Yandex Api Key, que pode ser obtida gratuitamente no escritório do desenvolvedor usando uma conta Yandex existente:

7. Atribua um nome à chave criada e clique em SpeechKit Cloud:

8. Preencha os campos obrigatórios com os dados e clique no botão "Enviar":

9. Se tudo foi feito corretamente, a chave de API gerada aparecerá na lista à direita, que deve ser copiada para a área de transferência:

10. Abra as configurações do módulo Yantex TTS (MajorDoMo - Painel de Controle - Aplicativos - Yandex TTS), cole a chave copiada na etapa anterior no campo API-key, selecione a voz, o humor e também certifique-se de que o módulo está ativado:

11. Configuração concluída!

Atenção! Uma chave de API Yandex de teste é gerada por 1 mês, após o qual o sistema parará de pronunciar novas frases (não armazenadas em cache). Para obter uma chave permanente, você deve enviar uma carta ao Yandex com um pedido para converter a chave em permanente.

Na Yet another Conference 2013, apresentamos nossa nova biblioteca Yandex SpeechKit aos desenvolvedores. Esta é uma API de reconhecimento de fala pública que os desenvolvedores de Android e iOS podem usar. Você pode baixar o SpeechKit, bem como ler a documentação.

O Yandex SpeechKit permite que você acesse diretamente o back-end usado com sucesso nos aplicativos móveis Yandex. Temos vindo a desenvolver este sistema há muito tempo e agora reconhecemos corretamente 94% das palavras no Navigator e Mobile Maps, bem como 84% das palavras no Mobile Browser. Neste caso, o reconhecimento demora um pouco mais de um segundo. Esta já é uma qualidade muito digna, e estamos trabalhando ativamente para melhorá-la.

Pode-se argumentar que, em um futuro próximo, as interfaces de voz praticamente não diferirão em confiabilidade dos métodos de entrada clássicos. Uma história detalhada sobre como conseguimos alcançar esses resultados e como nosso sistema funciona está em falta.

O reconhecimento de fala é uma das tarefas mais interessantes e complexas da inteligência artificial. As conquistas de campos muito diferentes estão envolvidas aqui: da linguística computacional ao processamento digital de sinais. Para entender como uma máquina que entende a fala deve ser organizada, vamos primeiro entender com o que estamos lidando.

I. Noções básicas

A fala sonora para nós é, antes de tudo, um sinal digital. E se olharmos para a gravação deste sinal, não veremos palavras nem fonemas claramente expressos - diferentes “eventos de fala” fluem suavemente um para o outro sem formar limites claros. A mesma frase, falada por pessoas diferentes ou em ambientes diferentes, parecerá diferente no nível do sinal. Ao mesmo tempo, as pessoas de alguma forma reconhecem a fala umas das outras: portanto, existem invariantes segundo as quais é possível restituir do sinal o que, de fato, foi dito. A busca por tais invariantes é tarefa da modelagem acústica.

Suponha que a fala humana consista em fonemas (esta é uma simplificação grosseira, mas na primeira aproximação está correta). Vamos definir um fonema como uma unidade semântica mínima de uma língua, ou seja, um som, cuja substituição pode levar a uma mudança no significado de uma palavra ou frase. Vamos pegar uma pequena porção do sinal, digamos 25 milissegundos. Vamos chamar esta seção de "quadro". Que fonema foi pronunciado neste quadro? É difícil responder a essa pergunta de forma inequívoca - muitos fonemas são extremamente semelhantes entre si. Mas se é impossível dar uma resposta inequívoca, então pode-se argumentar em termos de “probabilidades”: para um dado sinal, alguns fonemas são mais prováveis, outros menos, e outros podem ser totalmente excluídos da consideração. Na verdade, um modelo acústico é uma função que recebe uma pequena seção de um sinal acústico (quadro) como entrada e produz a distribuição de probabilidade de vários fonemas nesse quadro. Assim, o modelo acústico nos dá a oportunidade de reconstruir pelo som o que foi dito - com graus variados de certeza.

Outro aspecto importante da acústica é a probabilidade de transição entre diferentes fonemas. Sabemos por experiência que algumas combinações de fonemas são fáceis de pronunciar e ocorrem com frequência, enquanto outras são mais difíceis de pronunciar e são menos usadas na prática. Podemos generalizar essa informação e levá-la em consideração ao avaliar a "plausibilidade" de uma determinada sequência de fonemas.

Agora temos todas as ferramentas para construir um dos principais "cavalos de trabalho" do reconhecimento automático de fala - o modelo oculto de Markov (HMM, Hidden Markov Model). Para fazer isso, vamos imaginar por um tempo que estamos resolvendo não o problema de reconhecimento de fala, mas exatamente o oposto - conversão de texto em fala. Digamos que queremos obter a pronúncia da palavra "Yandex". Deixe a palavra "Yandex" consistir em um conjunto de fonemas, digamos, [d][a][n][d][e][k][s]. Vamos construir uma máquina de estados para a palavra "Yandex", na qual cada fonema é representado por um estado separado. A cada momento estamos em um desses estados e “pronunciamos” o som característico desse fonema (sabemos como cada um dos fonemas se pronuncia graças ao modelo acústico). Mas alguns fonemas duram muito tempo (como [a] na palavra "Yandex"), outros são praticamente engolidos. É aqui que as informações sobre a probabilidade de transição entre os fonemas são úteis. Tendo gerado um som correspondente ao estado atual, tomamos uma decisão probabilística: permanecer no mesmo estado ou passar para o próximo (e, consequentemente, para o próximo fonema).

Mais formalmente, o HMM pode ser representado da seguinte forma. Primeiro, introduzimos o conceito de emissão. Como lembramos do exemplo anterior, cada um dos estados HMM "gera" uma característica de som desse estado específico (ou seja, fonemas). Em cada quadro, o som é "tocado" a partir da distribuição de probabilidade correspondente ao fonema dado. Em segundo lugar, são possíveis transições entre estados, que também obedecem a padrões probabilísticos predeterminados. Por exemplo, a probabilidade de o fonema [a] “esticar” é alta, o que não pode ser dito sobre o fonema [e]. A matriz de emissão e a matriz de transição definem exclusivamente o modelo oculto de Markov.

Ok, nós vimos como um Modelo Oculto de Markov pode ser usado para gerar fala, mas como você o aplica ao problema inverso do reconhecimento de fala? O algoritmo de Viterbi vem em socorro. Temos um conjunto de observáveis (na verdade, som) e um modelo probabilístico que correlaciona estados ocultos (fonemas) e observáveis. O algoritmo de Viterbi permite restaurar a sequência mais provável de estados ocultos.

Que haja apenas duas palavras em nosso dicionário de reconhecimento: “Sim” ([d] [a]) e “Não” ([n "] [e] [t]). Assim, temos dois modelos de Markov ocultos. Em seguida, Digamos que temos uma gravação da voz do usuário dizendo “sim” ou “não”. O algoritmo de Viterbi nos permitirá obter uma resposta para a pergunta de qual das hipóteses de reconhecimento é mais provável.

Agora nossa tarefa é restaurar a sequência mais provável de estados do modelo oculto de Markov, que “gerou” (mais precisamente, poderia gerar) a gravação de áudio apresentada a nós. Se o usuário disser "sim", a sequência correspondente de estados em 10 quadros pode ser, por exemplo, [d][d][d][d][a][a][a][a][a] [a] ou [e][a][a][a][a][a][a][a][a][a]. Da mesma forma, diferentes pronúncias para "não" são possíveis - por exemplo, [n "] [n"] [n"] [e] [e] [e] [e] [t] [t] [t] e [n " ] [n "] [e] [e] [e] [e] [e] [e] [t] [t]. Agora vamos encontrar o “melhor”, ou seja, a maneira mais provável de pronunciar cada Em cada frame, perguntaremos ao nosso modelo acústico qual a probabilidade de um determinado fonema soar aqui (por exemplo, [d] e [a]), além disso, levaremos em conta as probabilidades de transição ([d] ->[d], [d]->[ a], [a]->[a]). Assim, obtemos a maneira mais provável de pronunciar cada uma das hipóteses; além disso, para cada uma delas, obtemos uma medida de quão provável é que esta palavra em particular tenha sido pronunciada (podemos considerar esta medida como o comprimento do caminho mais curto através do gráfico correspondente).

O algoritmo de Viterbi é bastante simples de implementar (é utilizada programação dinâmica) e roda em tempo proporcional ao produto do número de estados HMM pelo número de frames. No entanto, nem sempre é suficiente conhecermos o caminho mais provável; por exemplo, ao treinar um modelo acústico, é preciso estimar a probabilidade de cada estado em cada quadro. Para isso, é utilizado o algoritmo Forward-Backward.

No entanto, o modelo acústico é apenas uma parte do sistema. E se o dicionário de reconhecimento não consistir em duas palavras, como no exemplo discutido acima, mas em centenas de milhares ou mesmo milhões? Muitos deles serão muito semelhantes na pronúncia ou até coincidirão. Ao mesmo tempo, na presença de contexto, o papel da acústica cai: palavras arrastadas, barulhentas ou ambíguas podem ser restauradas “pelo significado”. Novamente, modelos probabilísticos são usados para explicar o contexto. Por exemplo, um falante nativo de russo entende que a naturalidade (no nosso caso, a probabilidade) da frase “mamãe lavou o quadro” é maior do que “mamãe lavou o cíclotron” ou “mamãe lavou o quadro”. Ou seja, a presença de um contexto fixo "soap mom ..." define a distribuição de probabilidade para a próxima palavra, que reflete tanto a semântica quanto a morfologia. Este tipo de modelos de linguagem é chamado de modelos de linguagem n-gram (trigramas no exemplo acima); É claro que existem maneiras muito mais complexas e poderosas de modelar uma linguagem.

II. O que está sob o capô do Yandex ASR?

Agora, quando imaginamos a estrutura geral dos sistemas de reconhecimento de fala, descreveremos com mais detalhes os detalhes da tecnologia Yandex - o melhor, de acordo com nossos dados, o sistema russo de reconhecimento de fala.
Nos exemplos de brinquedos acima, fizemos deliberadamente algumas simplificações e omitimos vários detalhes importantes. Em particular, argumentamos que o "bloco de construção" básico da fala é o fonema. Na verdade, o fonema é uma unidade muito grande; para modelar adequadamente a pronúncia de um único fonema, três estados separados são usados - o início, o meio e o fim do fonema. Juntos, eles formam o mesmo HMM apresentado acima. Além disso, os fonemas são dependentes da posição e do contexto: formalmente, o “mesmo” fonema soa significativamente diferente dependendo da parte da palavra em que está e de quais fonemas é adjacente. No entanto, uma simples enumeração de todas as variantes possíveis de fonemas dependentes do contexto retornará um número muito grande de combinações, muitas das quais nunca ocorrem na vida real; para tornar o número de eventos acústicos considerado razoável, fonemas próximos e dependentes do contexto são agrupados no início do treinamento e considerados em conjunto.
Assim, primeiramente, tornamos os fonemas dependentes do contexto e, em segundo lugar, dividimos cada um deles em três partes. Esses objetos - "partes de fonemas" - agora compõem nosso alfabeto fonético. Eles também são chamados de senons. Cada estado do nosso HMM é seno. Nosso modelo usa 48 fonemas e cerca de 4000 senons.

Portanto, nosso modelo acústico ainda recebe o som como entrada e, na saída, fornece uma distribuição de probabilidade sobre os senons. Agora vamos ver o que exatamente está sendo inserido. Como dissemos, o som é cortado em seções de 25 ms (“frames”). Como regra, a etapa de fatiamento é de 10 ms, de modo que os quadros adjacentes se sobreponham parcialmente. É claro que o som "bruto" - a amplitude das oscilações ao longo do tempo - não é a forma mais informativa de representação do sinal acústico. O espectro deste sinal já é muito melhor. Na prática, costuma-se usar um espectro logarítmico e escalonado, que corresponde às leis da percepção auditiva humana (conversão Mel). Os valores obtidos são submetidos a uma transformada discreta de cosseno (DCT), e o resultado é MFCC - Mel Frequency Cepstral Coeficientes. (A palavra Cepstral é obtida reorganizando as letras em Spectral, refletindo a presença de um DCT adicional). MFCC é um vetor de 13 (geralmente) números reais. Eles podem ser usados como entrada para um modelo acústico bruto, mas são mais frequentemente submetidos a muitas transformações adicionais.

O treinamento do modelo acústico é um processo complexo e de vários estágios. Para o treinamento, são utilizados algoritmos da família Expectation-Maximization, como o algoritmo Baum-Welsh. A essência de algoritmos desse tipo é a alternância de duas etapas: na etapa de Expectativa, o modelo existente é usado para calcular a expectativa da função de verossimilhança, na etapa de Maximização, os parâmetros do modelo são alterados de forma a maximizar esta estimativa. Nos estágios iniciais de treinamento, modelos acústicos simples são usados: características MFCC simples são dadas como entrada, fonemas são considerados fora de contexto e uma mistura de Gaussianas com matrizes de covariância diagonal (GMMs Diagonais - Gaussian Mixture Models) é usada para modelar o probabilidade de emissão em HMM. Os resultados de cada modelo acústico anterior são o ponto de partida para treinar um modelo mais complexo, com uma função de distribuição de probabilidade de entrada, saída ou emissão mais complexa. Existem muitas maneiras de melhorar o modelo acústico, mas o efeito mais significativo é a transição do modelo GMM para o DNN (Deep Neural Network), que quase dobra a qualidade do reconhecimento. As redes neurais estão livres de muitas das limitações das misturas gaussianas e têm uma melhor capacidade de generalização. Além disso, os modelos acústicos baseados em redes neurais são mais resistentes ao ruído e apresentam melhor desempenho.

A rede neural para modelagem acústica é treinada em várias etapas. Para inicializar a rede neural, uma pilha de Máquinas de Boltzmann Restritas (RBM) é usada. RBM é uma rede neural estocástica que treina sem um professor. Embora os pesos que ela aprendeu não possam ser usados diretamente para distinguir entre classes de eventos acústicos, eles representam a estrutura da fala em detalhes. Você pode pensar no RBM como um extrator de recursos - o modelo generativo resultante é um excelente ponto de partida para construir um modelo discriminativo. O modelo discriminante é treinado usando o algoritmo clássico de retropropagação, enquanto aplica uma série de técnicas que melhoram a convergência e evitam o overfitting. Como resultado, na entrada da rede neural existem vários quadros de características MFCC (o quadro central está sujeito a classificação, o resto forma o contexto), na saída existem cerca de 4000 neurônios correspondentes a diferentes senons. Essa rede neural é usada como modelo acústico em um sistema de produção.

Vamos dar uma olhada no processo de decodificação. Para o problema de reconhecimento espontâneo de fala com um grande vocabulário, a abordagem descrita na primeira seção não é aplicável. O que é necessário é uma estrutura de dados que conecte todas as sentenças possíveis que o sistema possa reconhecer. Uma estrutura adequada é um transdutor de estado finito ponderado (WFST) - na verdade, apenas uma máquina de estado finito com uma fita de saída e pesos nas bordas. Na entrada deste autômato há sênons, na saída há palavras. O processo de decodificação se resume a escolher o melhor caminho nesse autômato e fornecer uma sequência de saída de palavras correspondentes a esse caminho. Nesse caso, o preço da passagem ao longo de cada arco consiste em dois componentes. O primeiro componente é conhecido antecipadamente e é calculado na etapa de montagem do autômato. Inclui o custo da pronúncia, a transição para um determinado estado, a avaliação da probabilidade pelo modelo de linguagem. O segundo componente é calculado separadamente para um determinado quadro: é o peso acústico do senon correspondente ao símbolo de entrada do arco considerado. A decodificação ocorre em tempo real, portanto nem todos os caminhos possíveis são explorados: heurísticas especiais limitam o conjunto de hipóteses às mais prováveis.

Claro, a parte mais interessante do ponto de vista técnico é a construção de tal autômato. Esta tarefa é resolvida offline. Para passar de HMMs simples para cada fonema sensível ao contexto para autômatos lineares para cada palavra, precisamos usar um dicionário de pronúncia. A criação de tal dicionário não é possível manualmente, e métodos de aprendizado de máquina são usados aqui (e a tarefa em si é chamada Grapheme-To-Phoneme, ou G2P na comunidade científica). Por sua vez, as palavras "se unem" em um modelo de linguagem, também representado como uma máquina de estados finitos. A operação central aqui é a composição do WFST, mas várias técnicas para otimizar o WFST para tamanho e eficiência de empilhamento de memória também são importantes.

O resultado do processo de decodificação é uma lista de hipóteses que podem ser posteriormente processadas. Por exemplo, um modelo de linguagem mais poderoso pode ser usado para reclassificar as hipóteses mais prováveis. A lista resultante é devolvida ao usuário, classificada pelo valor de confiança - o grau de nossa confiança de que o reconhecimento foi correto. Muitas vezes, resta apenas uma hipótese; nesse caso, o aplicativo cliente imediatamente executa o comando de voz.

Em conclusão, vamos abordar a questão das métricas de qualidade dos sistemas de reconhecimento de voz. A métrica mais popular é a Taxa de Erro de Palavras (e sua Precisão de Palavras inversa). Essencialmente, reflete a proporção de palavras não reconhecidas. Para calcular a Word Error Rate para um sistema de reconhecimento de voz, são usados corpora de consultas de voz rotulados manualmente que correspondem ao assunto do aplicativo usando o reconhecimento de voz.

Às vezes, precisamos ler o texto impresso com voz. Na maioria das vezes, esses programas são usados por quem aprende línguas estrangeiras para determinar a entonação e o estresse corretos, também para ler livros e simplesmente para se divertir e fazer brincadeiras com amigos. Para usar a dublagem do texto, não há necessidade de baixar programas para o seu computador, pois há um número suficiente deles na versão online (ao contrário). Este artigo analisará os melhores sintetizadores de fala humana que você pode usar online.

Translate.google.com é um serviço gratuito de tradução e síntese de texto.

O Google Tradutor é um dos serviços mais populares e melhores que oferece uma variedade de serviços diferentes. Por exemplo, um tradutor conhecido tem a função de dar voz ao texto inserido e em todos os idiomas suportados. A qualidade do som é um pouco baixa em alguns lugares, mas geralmente aceitável. Se você estiver traduzindo texto impresso em fala para aprendizado de idiomas, o sintetizador do Google Tradutor é perfeito para você. O mais importante deste serviço é que ele é simples e acessível a todos os usuários da Internet.

Como sintetizar texto no Translate.google.com

Para usar o serviço do Google:

Acesse https://translate.google.com ;
Selecione o idioma desejado clicando no botão "Definir idioma";
Em seguida, digite o texto na janela onde você escolheu o idioma;
Agora clique no ícone do gramofone na parte inferior da janela e você poderá ouvir a reprodução do texto em uma voz feminina.

Sua desvantagem é a incapacidade de baixar a síntese de voz reproduzida em um arquivo para o seu computador. Também não há configurações de voz ou seleção de artista.

Acapela - software gratuito de conversão de texto em fala

Acapela é o mais popular e um dos melhores sintetizadores de voz online. O serviço suporta mais de 30 idiomas, bem como um grande número de artistas para escolher, masculinos e femininos. Para o inglês, existem até 20 timbres para escolher - feminino, masculino, adolescente, infantil, masculino áspero, feminino suave, etc. O programa é altamente personalizável e fácil de usar. O site possui um programa para uso offline. Você tem a oportunidade de experimentar uma versão demo do sintetizador de voz clicando no item correspondente na barra de menu.

Como usar o Acapela

Para configurar a síntese de voz online, use o bloco do lado esquerdo da página http://www.acapela-group.com/voices/demo/ .

Então, como isso funciona:

Na primeira linha, selecione o idioma do texto falado.
A segunda linha não é necessária se você selecionar russo, porque há apenas uma opção - Alyona.
Na terceira linha, digite o texto que você deseja expressar. Você pode inserir até 300 caracteres.
Em seguida, concorde com os termos do serviço marcando a caixa "concordo com os termos e condições".
E clique no botão "Aceite os termos e condições" abaixo.

A dublagem através deste serviço é de qualidade média. A entonação está correta em quase todas as palavras. O produto está disponível para todas as plataformas.

Next.2yxa.mobi - serviço online para leitura de texto

O serviço online Next.2yxa.mobi é um sintetizador simples e acessível para reproduzir texto digitado. O site foi desenvolvido para dispositivos móveis, portanto, ao acessá-lo através de um navegador web, teremos uma ferramenta de síntese de texto leve e rápida. Nesse sentido, o site apresenta algumas limitações em seu trabalho. Por exemplo, se você precisar "ler" o texto baixado, o tamanho do arquivo não deve exceder 100 kb. Você pode digitar o texto e imediatamente expressá-lo.

Para isso você precisa:

Vocalizer - sintetizador de voz para reprodução de texto online

Outro entre os melhores sintetizadores de voz para teste de dublagem online, criado por desenvolvedores estrangeiros é o Vocalizer. Está disponível em http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. Este é um serviço simples e compreensível. O menu e a interface são totalmente em inglês, mas será muito fácil descobrir. Podemos usar o serviço online como uma versão Demo. O sistema oferece 100 opções de voz diferentes e 47 idiomas.

Como usar o Vocalizer

Sintetizar a fala online com este programa é muito simples. Por esta:

No item "Idioma / Dialeto", selecione o idioma;
Em "Gender" selecione uma dublagem masculina ou feminina (masculino - masculino, feminino - feminino);
Abaixo no bloco grande, digite o texto para voz e pressione o botão azul ao lado para jogar.

Portal para o aluno. Autotreinamento

I. Noções básicas

II. O que está sob o capô do Yandex ASR?

Translate.google.com é um serviço gratuito de tradução e síntese de texto.

Como sintetizar texto no Translate.google.com

Acapela - software gratuito de conversão de texto em fala

Como usar o Acapela

Next.2yxa.mobi - serviço online para leitura de texto

Vocalizer - sintetizador de voz para reprodução de texto online

Como usar o Vocalizer

ARTIGOS RELACIONADOS