ElevenLabs disse que seu gerador de voz de IA saiu da versão beta, dizendo que apoiaria criadores de videogame e audiobook

O que já é uma das empresas mais procuradas na internet para criar deepfakes visuais de aparência realista, agora apresenta a capacidade de clonar vozes em um crescente espectro de idiomas. A ElevenLabs anunciou em uma revelação emocionante na terça-feira que sua nova tecnologia de clonagem de voz agora abrange mais 22 idiomas do que anteriormente, incluindo ucraniano, coreano, sueco, árabe e muito mais.

Com base nas afirmações da ElevenLabs, o recém-lançado modelo Multilingual v2 promete entregar áudio de qualidade “rico em emoção” em um total de 30 idiomas. A empresa oferece duas ferramentas de voz baseadas em IA: um modelo de conversão de texto para fala e o “VoiceLab”, que permite que os usuários, mediante pagamento, clonem vozes inserindo fragmentos de fala (suas próprias ou de outras pessoas) no modelo, criando uma reprodução convincente da voz. Com o modelo v2, agora é possível fazer com que essas vozes geradas falem em grego, malaio ou turco.

Este serviço já está disponível no site da empresa desde o meio-dia, horário da costa leste (ET) de terça-feira. Os usuários só precisam digitar o texto em seu idioma nativo para ouvir a voz traduzida, e isso deve ser compatível com qualquer voz clonada criada pela empresa ou pelos próprios usuários. Como o inglês é o meu idioma principal, avaliar o quão bem as vozes com sotaque representam cada idioma é um desafio, mas o discurso tem sua naturalidade com pausas ocasionais entre frases e entonações.

Desde o seu lançamento no ano passado, a plataforma ElevenLabs tem sido cercada de polêmica. Na fase beta inicial da empresa, usuários do 4Chan exploraram seus sistemas para se passarem por celebridades, fazendo-as recitar discursos racistas, misóginos e transfóbicos. A ferramenta também foi usada por entusiastas da IA para atacar dubladores que manifestaram preocupações quanto ao uso generalizado da clonagem de voz por tecnologia. A ElevenLabs assegura ter implementado medidas adicionais para garantir que apenas a própria voz do usuário possa ser clonada. Os usuários precisam confirmar sua identidade através de um teste de texto captcha, que é então comparado com a amostra de voz original.

Mati Staniszewski, cofundador da empresa e ex-executivo da Palantir, comentou: “Eventualmente, almejamos expandir para abranger ainda mais idiomas e vozes com o auxílio da IA, eliminando as barreiras linguísticas para o conteúdo”.

Além dos novos aprimoramentos de idioma, a ElevenLabs também declarou que este avanço marca o fim da fase beta de sua tecnologia de clonagem de voz baseada em IA. Ao mesmo tempo, a empresa está empenhada em estender essa tecnologia para empresas de mídia. Em junho, a ElevenLabs arrecadou impressionantes US$ 19 milhões em financiamento inicial de investidores renomados como Andreesen Horowitz e o ex-Diretor da DeepMind e cofundador da Inflection AI, Mustafa Suleyman.

A ElevenLabs destaca sua tecnologia de clonagem de voz como uma solução para empresas que desejam criar audiolivros, vídeos e até fornecer vozes a NPCs em jogos de vídeo. A empresa já firmou parceria com a Paradox Interactive, a editora por trás de títulos como a série Hearts of Iron e o aguardado The Lamplighters League. A tecnologia de clonagem de voz da empresa tem sido notada por dubladores de jogos que expressaram preocupações sobre o impacto desta tecnologia em seu trabalho.

No que diz respeito aos audiolivros, gigantes como Google e Apple também tentaram promover audiolivros narrados por IA. O aplicativo Livros da Apple introduziu narradores virtuais com nomes como “Archie” e “Warren” para dar vida ao conteúdo. No entanto, muitos ouvintes notaram que essas vozes são, de certa forma, monótonas em comparação com dubladores profissionais que podem realmente enfatizar a narrativa. No cenário atual, o Sindicato de Atores SAG-AFTRA e o Sindicato de Roteiristas dos Estados Unidos (WGA) estão em greve, com grande parte das negociações centradas na presença da IA na indústria do entretenimento.

Por outro lado, a ElevenLabs destaca que as vozes de IA podem economizar tempo e recursos para as editoras na criação de audiolivros. Em um post recente em seu blog, a empresa mencionou uma colaboração com a Lukeman Literary, uma agência literária e pequena editora independente. A ElevenLabs afirmou que, com a IA, a Lukeman Literary conseguiu reduzir de “semanas” para poucas horas o tempo necessário para produzir um único audiolivro.

Embora a Lukeman Literary tenha enfatizado que sua agência e o setor editorial são entidades distintas, e não há planos para converter os títulos representados pela agência em narrações de IA, é notável que o ElevenLabs conseguiu impressionar até mesmo os céticos da IA. A Lukeman destacou que a narração por IA é uma bênção para escritores independentes devido à sua economia em relação à narração humana.

Apesar da IA ter alcançado um nível que permite narrativas de qualidade, ainda há um consenso de que a narração humana continuará sendo valorizada em certos contextos. Embora o futuro reserve desafios para dubladores, a tendência da IA na indústria editorial está claramente em ascensão, abrindo portas para novas abordagens criativas