Ferramenta Vall-E da Microsoft permite reproduzir vozes

Conheça VALL-E, a ferramenta da Meta que clona a voz de qualquer pessoa em segundos com inteligência artificial.

Você já imaginou poder clonar a sua voz ou a de outra pessoa com apenas alguns segundos de áudio? Essa é a proposta da ferramenta VALL-E, desenvolvida pela Microsoft, a empresa que pertencente ao Bill Gates.

Nisso, a tecnologia usa inteligência artificial para sintetizar a voz de qualquer pessoa, mantendo as características, emoções e até o ambiente sonoro do áudio original.

O que é VALL-E?

VALL-E é um modelo de conversão de texto em fala (text-to-speech, ou TTS) que usa a tecnologia EnCodec da Meta.

O EnCodec é um sistema que analisa a voz humana como tokens individuais e pode estimar como a voz soaria ao pronunciar outras palavras.

Assim, o modelo  produz códigos de áudio a partir de textos e prompts acústicos, em vez de manipular as ondas sonoras diretamente.

Para treinar o modelo, os pesquisadores da Meta usaram a coleção LibriLight, que contém mais de 60 mil horas de áudio em inglês falado por mais de 7 mil pessoas diferentes.

O resultado é que VALL-E pode replicar não só o som e a emoção do falante, mas também o ambiente onde ele fala, podendo clonar a voz de alguém em uma sala ou em uma ligação telefônica, por exemplo.

Como funciona VALL-E?

Para usar VALL-E, basta fornecer um texto e um prompt acústico, que é um trecho de áudio de pelo menos três segundos da pessoa cuja voz se quer clonar.

O modelo então gera um novo áudio com a voz sintetizada dizendo o texto fornecido. O prompt acústico pode ser de qualquer pessoa, mesmo que não tenha sido vista pelo modelo antes.

Segundo os pesquisadores, VALL-E supera os sistemas anteriores de TTS em termos de naturalidade e similaridade com o falante original.

Além disso, eles afirmam que VALL-E pode preservar a emoção e o ambiente acústico do prompt acústico na síntese.

Quais são as aplicações de VALL-E?

VALL-E pode ter diversas aplicações na criação de conteúdo digital, especialmente para quem quer personalizar sua identidade online com vozes artificiais.

Por exemplo, VALL-E pode ser usado para gerar vozes para personagens de jogos, vídeos, podcasts, animações e realidade virtual.

Outra empresa que oferece uma solução semelhante é a MetaVoice, que permite mudar a voz em tempo real usando inteligência artificial.

A MetaVoice tem dois aplicativos:

  • Studio, que permite gerar vozes artificiais para conteúdo pré-gravado;
  • Live, que permite alterar a voz em tempo real em mais de 800 plataformas, como Discord, Zoom, Google Meet e TikTok.

Outras empresas também estudam a tecnologia

A Meta revelou recentemente o lançamento de uma ferramenta de inteligência artificial revolucionária, que tem a capacidade de gerar falas humanas de forma impressionante.

Com isso, essa inovadora solução requer que o usuário forneça algumas frases gravadas, as quais serão utilizadas como base para a criação de novos áudios a partir de texto escrito.

Um exemplo notável dessa tecnologia foi compartilhado pelo próprio Mark Zuckerberg em um vídeo publicado no Instagram, onde ele surpreende a todos ao falar em português com fluência, incluindo um sotaque carioca muito autêntico.

Em resumo

VALL-E é uma ferramenta da Meta que usa inteligência artificial para clonar a voz de qualquer pessoa com apenas três segundos de áudio.

A tecnologia pode ser útil para quem quer criar conteúdo digital com vozes personalizadas e realistas.

No entanto, também levanta questões éticas sobre o uso indevido das vozes clonadas para fins maliciosos ou fraudulentos.

Comentários estão fechados.