Como fazer música com texto-para-fala?

Se quer compor uma canção, mas odeia a sua voz, não conhece um cantor com quem trabalhar, ou simplesmente não tem o equipamento para gravar, pode usar um software de texto-para-fala para cantar para si.

Ferramentas text-to-speech tais como “Emvoice”, “Synthesizer V Studio” ou “Vocaloid” permitem-lhe criar linhas vocais expressivas e realistas com diferentes vozes. As linhas vocais e a letra podem ser configuradas através de uma interface tipo sequenciador, com vibrato, expressão e até sons respiratórios.

Antes de vermos como fazer o seu computador cantar, vamos dar uma rápida olhada na história do texto-para-fala.

O que é text-to-speech?

Text-to-speech é uma tecnologia que cria um sinal de fala artificial. Apareceu pela primeira vez nos anos 30 com o VODER (vídeo abaixo), mas as primeiras aplicações comerciais foram desenvolvidas nos anos 60.

Nessa altura, o texto para a fala era usado principalmente para ajudar as pessoas com deficiências físicas a comunicar mais facilmente. Desde então, o text-to-speech tem sido usado em muitas aplicações diferentes, incluindo sistemas de informação telefónica e assistentes de voz inteligentes.

Ao longo das décadas, o text-to-speech tem visto muitas melhorias. Os primeiros sistemas eram muito mecânicos e não naturais, mas as tecnologias modernas permitem a criação de vozes artificiais que são quase indistinguíveis das vozes humanas reais. Os avanços na inteligência artificial e na aprendizagem de máquinas também melhoraram muito a qualidade e a natureza das vozes sintéticas.

Hoje em dia, o texto-para-fala é utilizado numa grande variedade de aplicações, incluindo a produção de livros áudio, sistemas de navegação e assistentes de voz inteligentes como os do iPhone ou do Android. Também é usado para ajudar pessoas com deficiências físicas a comunicar mais facilmente e para permitir às pessoas analfabetas o acesso à informação escrita.

Embora o texto para a fala tenha visto muitas melhorias e se tenha tornado bastante realista, ainda existem muitos desafios, especialmente no que diz respeito à naturalidade das vozes artificiais, bem como a capacidade de transmitir emoções e nuances subtis da linguagem falada.

A voz de Stephen Hawking

A voz sintetizada de Stephen Hawking é lembrada como uma versão personalizada do software DECtalk text-to-speech. Quando Hawking começou a perder a sua capacidade de falar devido à progressão da sua doença (doença da cal), ele começou a procurar uma forma alternativa de comunicar. Em 1985, ele começou a usar um programa text-to-speech chamado“Equalizer“, que foi instalado num computador Sinclair QL.

Em 1988 ele começou a usar um sintetizador de fala DECtalk que era controlado por um interruptor basculante. Era uma voz robótica e monótona que se tornou mundialmente famosa.

Contudo, em 1988 a placa de som do computador Sinclair QL foi retirada do mercado e substituída por um modelo que era incompatível com o sintetizador de voz DECtalk. Isto forçou o Hawking a procurar uma alternativa. Ele finalmente optou por uma voz fornecida pela empresa canadiana de texto-para-fala,“Speech Plus“.

Esta tornou-se a voz mais famosa, pois foi usada pelo Hawking durante mais de três décadas, até à sua morte em 2018.

Maçã e texto-para-fala

Igualmente famoso, o Macintosh SE, de texto-para-fala, usou o software MacinTalk, que foi desenvolvido pela Apple nos anos 80. Era uma voz robótica e mecânica que rapidamente se tornou emblemática dos computadores Apple da época.

Curiosamente, desde então, o texto-para-fala evoluiu significativamente, com vozes mais naturais e expressivas.

Que software texto-para-fala posso usar para fazer música?

Quando se trata de composição musical, a tecnologia também progrediu muito e por vezes tornou-se quase indistinguível de uma voz real.

Existem várias aplicações que lhe permitem compor linhas melódicas com uma voz sintetizada, mas existe uma grande disparidade em termos de realismo e das línguas disponíveis de um software para outro.

Parâmetros tais como vibrato, intensidade e até sons de respiração são controláveis e programáveis. Você terá de escrever as suas notas musicais e adicionar a letra da sua canção. Depois pode modular a articulação com diferentes efeitos de voz a partir da interface do software.

Vejamos quais são os melhores programas de texto-para-fala para música.

Emvoice

A Emvoice oferece várias vozes diferentes como Keela, Lucy, Jay e Thomas com diferentes tons de voz e gamas para vários estilos musicais. A Emvoice está disponível em formato VST para Mac e Windows.

https://emvoiceapp.com/

Sons Eclipsados

Eclipse Sounds produz muito possivelmente um dos melhores softwares de síntese de voz para música disponível hoje em dia com duas vozes diferentes: Solaria (feminino) e Asterian (masculino).

Ambas as vozes requerem o software gratuito Synthesizer V Studio Basic, mas podem ser usadas em todo o seu potencial com a versão Pro do software que lhe permitirá usar os plugins VST e Audio Unit.

Aqui está uma pequena amostra da interface do software:

Solaria

Solaria é uma voz feminina que pode cantar em três línguas diferentes,inglês, chinês e japonês.

https://www.eclipsedsounds.com/solaria

Asterian

Uma voz masculina profunda apenas em inglês.

https://www.eclipsedsounds.com/asterian

Vocaloid

Vocaloid é um software de síntese de fala muito popular. Foi criado pela Yamaha em 2004. Desde então, o software passou por muitas actualizações e melhorias, e tornou-se muito popular entre músicos e produtores musicais, especialmente no Japão depois de ter sido popularizado pelo sucesso de Hatsune Miku.

O número exacto de vozes disponíveis no Vocaloid depende da versão e dos pacotes adicionais instalados, mas normalmente há várias vozes diferentes disponíveis para cada língua suportada.

Por exemplo, a versão inglesa do Vocaloid 5 inclui vozes tais como“Ruby“,“Chris“,“Amy“,“Otomania” e “YAMAHA VOCALOID 5 Library”.

As vozes vocaloides são criadas por estúdios de produção de vozes tais como Crypton Future Media (que criou Hatsune Miku), Zero-G e PowerFX.

Apesar do seu relativo sucesso, outras vozes como Solaria e Emvoice são preferidas porque o seu som envelheceu bastante e soa robótico. 🤖

https://www.vocaloid.com/en/

Quem é a Hatsune Miku?

É difícil falar de síntese de voz sem falar da maior estrela da síntese de voz, Hatsune Miku. Ela é uma personagem virtual inteiramente criada pela Crypton Future Media usando o software de síntese de voz Vocaloid (desde a Versão 2). Ela canta exclusivamente em japonês, uma vez que o seu público é principalmente japonês.

O seu sucesso é tal que ela se tornou um verdadeiro ícone da cultura pop japonesa. Ela até dá concertos virtuais, como este em 2016:

Audiologia

Entre os sintetizadores de voz mais realistas estão Jun e Anri, produzidos pela Audiologie. Tal como no Eclipsed Sounds, estas duas vozes também requerem o software Synthesizer V Studio Basic (gratuito) mas mais parâmetros estarão disponíveis com a versão Pro do software.

https://audiologie.us/