Ključni podaci za van
- Tvrtke se utrkuju u pronalaženju načina da računalno generirani govor zvuči realističnije.
- NVIDIA je nedavno predstavila alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da uvježbate AI vlastitim glasom.
- Intonacija, emocija i muzikalnost značajke su koje računalnim glasovima još nedostaju, kaže jedan stručnjak.
Računalno generirani govor uskoro bi mogao zvučati puno ljudskije.
Proizvođač računalnih dijelova NVIDIA nedavno je predstavio alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da trenirate AI svojim glasom. Softver također može prenijeti riječi jednog govornika koristeći glas druge osobe. To je dio sve većeg nastojanja da računalni govor postane realističniji.
"Napredna glasovna AI tehnologija omogućuje korisnicima da govore prirodno, kombinirajući mnoge upite u jednu rečenicu i eliminirajući potrebu za stalnim ponavljanjem detalja iz originalnog upita," Michael Zagorsek, glavni operativni direktor tvrtke za prepoznavanje govora SoundHound, rekao je za Lifewire u intervjuu e-poštom.
"Dodatak više jezika, koji je sada dostupan na većini glasovnih AI platformi, čini digitalne glasovne asistente dostupnima u više geografskih područja i za više stanovništva, " dodao je.
Robospeech Rising
Amazonova Alexa i Appleova Siri zvuče puno bolje od računalnog govora od prije deset godina, ali neće ih se uskoro zamijeniti s autentičnim ljudskim glasovima.
Kako bi umjetni govor zvučao prirodnije, NVIDIA-in tim za istraživanje pretvaranja teksta u govor razvio je RAD-TTS model. Sustav omogućuje pojedincima da svojim glasom podučavaju model pretvaranja teksta u govor (TTS), uključujući tempo, tonalitet, boju i druge čimbenike.
Tvrtka je upotrijebila svoj novi model za izradu govorne naracije koja zvuči više razgovorno za svoju video seriju I Am AI.
"S ovim sučeljem, naš videoproducent mogao bi snimiti sebe kako čita videoskriptu i zatim upotrijebiti AI model za pretvaranje svog govora u glas pripovjedačice. Koristeći ovu osnovnu naraciju, producent bi zatim mogao usmjeravati AI poput glasovni glumac-podešava sintetizirani govor kako bi naglasio određene riječi i mijenja tempo naracije kako bi bolje izrazio ton videa," napisala je NVIDIA na svojoj web stranici.
Teže nego što zvuči
Učiniti da računalno generirani govor zvuči prirodno je težak problem, kažu stručnjaci.
"Morate snimiti stotine sati nečijeg glasa da biste stvorili njegovu računalnu verziju", rekao je Nazim Ragimov, izvršni direktor softverske tvrtke za pretvaranje teksta u govor Kukarella, za Lifewire u intervjuu e-poštom. “I snimka mora biti kvalitetna, snimljena u profesionalnom studiju. Što se više sati kvalitetnog govora učita i obradi, to je bolji rezultat."
Pretvaranje teksta u govor može se koristiti u igricama, kao pomoć osobama s glasovnim poteškoćama ili za pomoć korisnicima pri prevođenju s jednog jezika na drugi vlastitim glasom.
Intonacija, emocija i muzikalnost značajke su koje računalnim glasovima još uvijek nedostaju, rekao je Ragimov.
Ako umjetna inteligencija može dodati te karike koje nedostaju, računalno generirani govor neće se moći razlikovati od glasova pravih glumaca, dodao je. "To je u tijeku. Drugi glasovi moći će se natjecati s radijskim voditeljima. Uskoro ćete vidjeti glasove koji mogu pjevati i čitati audioknjige."
Govorna tehnologija postaje sve popularnija u nizu tvrtki.
"Autoindustrija je nedavno usvojila glasovnu umjetnu inteligenciju kao način za stvaranje sigurnijeg i povezanijeg iskustva vožnje", rekao je Zagorsek.
"Od tada su glasovni pomoćnici postali sve prisutniji jer robne marke traže načine da poboljšaju korisnička iskustva i zadovolje potražnju za lakšim, sigurnijim, praktičnijim, učinkovitijim i higijenskim metodama interakcije s njihovim proizvodima i uslugama."
Obično glasovna umjetna inteligencija pretvara upite u odgovore u procesu od dva koraka koji počinje transkribiranjem govora u tekst pomoću automatskog prepoznavanja govora (ASR), a zatim unosom tog teksta u model razumijevanja prirodnog jezika (NLU).
SoundHoundov pristup kombinira ova dva koraka u jedan proces za praćenje govora u stvarnom vremenu. Tvrtka tvrdi da ova tehnika omogućuje glasovnim pomoćnicima da razumiju značenje korisničkih upita, čak i prije nego što osoba završi s govorom.
Budući napredak u računalnom govoru, uključujući dostupnost raznih opcija povezivanja od samo ugrađenog (nije potrebna veza s oblakom) do hibridnog (ugrađeno plus oblak) i samo oblaka "pružit će više izbora tvrtkama u različitim industrijama u smislu cijene, privatnosti i dostupnosti procesorske snage, " rekao je Zagoresk.
NVIDIA je izjavila da njezini AI modeli za vijesti nadilaze glasovni rad.
"Pretvaranje teksta u govor može se koristiti u igricama, kao pomoć osobama s glasovnim poteškoćama ili kao pomoć korisnicima u prevođenju s jednog jezika na drugi vlastitim glasom", napisala je tvrtka. "Može čak rekreirati nastupe legendarnih pjevača, usklađujući ne samo melodiju pjesme, već i emocionalni izraz iza vokala."