Kako AI može učiniti računalni govor prirodnijim

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:49.
🖍 Zadnja promjena 2025-01-24 12:11.

Ključni podaci za van

Tvrtke se utrkuju u pronalaženju načina da računalno generirani govor zvuči realističnije.
NVIDIA je nedavno predstavila alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da uvježbate AI vlastitim glasom.
Intonacija, emocija i muzikalnost značajke su koje računalnim glasovima još nedostaju, kaže jedan stručnjak.

Računalno generirani govor uskoro bi mogao zvučati puno ljudskije.

Proizvođač računalnih dijelova NVIDIA nedavno je predstavio alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da trenirate AI svojim glasom. Softver također može prenijeti riječi jednog govornika koristeći glas druge osobe. To je dio sve većeg nastojanja da računalni govor postane realističniji.

"Napredna glasovna AI tehnologija omogućuje korisnicima da govore prirodno, kombinirajući mnoge upite u jednu rečenicu i eliminirajući potrebu za stalnim ponavljanjem detalja iz originalnog upita," Michael Zagorsek, glavni operativni direktor tvrtke za prepoznavanje govora SoundHound, rekao je za Lifewire u intervjuu e-poštom.

"Dodatak više jezika, koji je sada dostupan na većini glasovnih AI platformi, čini digitalne glasovne asistente dostupnima u više geografskih područja i za više stanovništva, " dodao je.

Robospeech Rising

Amazonova Alexa i Appleova Siri zvuče puno bolje od računalnog govora od prije deset godina, ali neće ih se uskoro zamijeniti s autentičnim ljudskim glasovima.

Kako bi umjetni govor zvučao prirodnije, NVIDIA-in tim za istraživanje pretvaranja teksta u govor razvio je RAD-TTS model. Sustav omogućuje pojedincima da svojim glasom podučavaju model pretvaranja teksta u govor (TTS), uključujući tempo, tonalitet, boju i druge čimbenike.

Tvrtka je upotrijebila svoj novi model za izradu govorne naracije koja zvuči više razgovorno za svoju video seriju I Am AI.

"S ovim sučeljem, naš videoproducent mogao bi snimiti sebe kako čita videoskriptu i zatim upotrijebiti AI model za pretvaranje svog govora u glas pripovjedačice. Koristeći ovu osnovnu naraciju, producent bi zatim mogao usmjeravati AI poput glasovni glumac-podešava sintetizirani govor kako bi naglasio određene riječi i mijenja tempo naracije kako bi bolje izrazio ton videa," napisala je NVIDIA na svojoj web stranici.

Teže nego što zvuči

Učiniti da računalno generirani govor zvuči prirodno je težak problem, kažu stručnjaci.

"Morate snimiti stotine sati nečijeg glasa da biste stvorili njegovu računalnu verziju", rekao je Nazim Ragimov, izvršni direktor softverske tvrtke za pretvaranje teksta u govor Kukarella, za Lifewire u intervjuu e-poštom. “I snimka mora biti kvalitetna, snimljena u profesionalnom studiju. Što se više sati kvalitetnog govora učita i obradi, to je bolji rezultat."

Pretvaranje teksta u govor može se koristiti u igricama, kao pomoć osobama s glasovnim poteškoćama ili za pomoć korisnicima pri prevođenju s jednog jezika na drugi vlastitim glasom.

Intonacija, emocija i muzikalnost značajke su koje računalnim glasovima još uvijek nedostaju, rekao je Ragimov.

Ako umjetna inteligencija može dodati te karike koje nedostaju, računalno generirani govor neće se moći razlikovati od glasova pravih glumaca, dodao je. "To je u tijeku. Drugi glasovi moći će se natjecati s radijskim voditeljima. Uskoro ćete vidjeti glasove koji mogu pjevati i čitati audioknjige."

Govorna tehnologija postaje sve popularnija u nizu tvrtki.

"Autoindustrija je nedavno usvojila glasovnu umjetnu inteligenciju kao način za stvaranje sigurnijeg i povezanijeg iskustva vožnje", rekao je Zagorsek.

"Od tada su glasovni pomoćnici postali sve prisutniji jer robne marke traže načine da poboljšaju korisnička iskustva i zadovolje potražnju za lakšim, sigurnijim, praktičnijim, učinkovitijim i higijenskim metodama interakcije s njihovim proizvodima i uslugama."

Obično glasovna umjetna inteligencija pretvara upite u odgovore u procesu od dva koraka koji počinje transkribiranjem govora u tekst pomoću automatskog prepoznavanja govora (ASR), a zatim unosom tog teksta u model razumijevanja prirodnog jezika (NLU).

SoundHoundov pristup kombinira ova dva koraka u jedan proces za praćenje govora u stvarnom vremenu. Tvrtka tvrdi da ova tehnika omogućuje glasovnim pomoćnicima da razumiju značenje korisničkih upita, čak i prije nego što osoba završi s govorom.

Budući napredak u računalnom govoru, uključujući dostupnost raznih opcija povezivanja od samo ugrađenog (nije potrebna veza s oblakom) do hibridnog (ugrađeno plus oblak) i samo oblaka "pružit će više izbora tvrtkama u različitim industrijama u smislu cijene, privatnosti i dostupnosti procesorske snage, " rekao je Zagoresk.

NVIDIA je izjavila da njezini AI modeli za vijesti nadilaze glasovni rad.

"Pretvaranje teksta u govor može se koristiti u igricama, kao pomoć osobama s glasovnim poteškoćama ili kao pomoć korisnicima u prevođenju s jednog jezika na drugi vlastitim glasom", napisala je tvrtka. "Može čak rekreirati nastupe legendarnih pjevača, usklađujući ne samo melodiju pjesme, već i emocionalni izraz iza vokala."

Preporučeni:

Kako AI može učiniti računalni govor prirodnijim

Sadržaj:

Ključni podaci za van

Robospeech Rising

Teže nego što zvuči

Preporučeni:

AI vam može pomoći da razumijete govor životinja

Kako snimiti računalni zvuk

Kako razmagnetizirati tradicionalni CRT računalni monitor

Kako koristiti TV kao računalni monitor

Kako prepoznati imate li računalni virus

Kako ispisati e-poštu iz programa Outlook ili Outlook.com

Amazon najavljuje monitor kvalitete zraka u zatvorenom prostoru koji podržava Alexa

Lažna koža mogla bi učiniti Metaverse stvarnim

Kako provjeriti status jamstva za svoj iPad

Virtualna stvarnost ponovno čini e-poštu zabavnom

Za koga je Panicova igraća konzola Playdate?

Epski darovi za izvrsne maturante

Multo pametna kuhinja čini da izgledam kao dobar kuhar

Koliko vaše računalo stvarno treba biti brzo?

Prepoznajte postignuća s pravim tekstom potvrde

Najbolje Google Cardboard aplikacije 2022

Najbolji alati za oluju ideja za 2022

5 najboljih aplikacija za proračunske tablice za Android u 2022

Najbolja web mjesta za e-čestitke za Očev dan za 2022

10 najboljih aplikacija za produktivnost 2022