Uskoro možda nećete znati da razgovarate s računalom

Sadržaj:

Uskoro možda nećete znati da razgovarate s računalom
Uskoro možda nećete znati da razgovarate s računalom
Anonim

Ključni podaci za van

  • Ubrzo se približava dan kada više nećete moći razlikovati računalno generirani govor od pravog.
  • Google je nedavno predstavio LaMDA, model koji bi mogao omogućiti prirodnije razgovore.
  • Proizvodnja ljudskog govora također zahtijeva golemu količinu procesorske snage.
Image
Image

Trenutno je lako prepoznati kada razgovarate s računalom, ali to bi se uskoro moglo promijeniti zahvaljujući nedavnom napretku umjetne inteligencije.

Google je nedavno predstavio LaMDA, eksperimentalni model za koji tvrtka tvrdi da bi mogao poboljšati sposobnost konverzacijskih AI pomoćnika i omogućiti prirodnije razgovore. LaMDA ima za cilj s vremenom normalno razgovarati o gotovo svemu bez ikakve prethodne obuke.

To je jedan od sve većeg broja AI projekata koji bi vas mogli natjerati da se zapitate razgovarate li s ljudskim bićem.

"Moja je procjena da će u sljedećih 12 mjeseci korisnici početi biti izloženi i navikavati se na te nove, emotivnije glasove, " James Kaplan, izvršni direktor MeetKai-a, virtualnog glasovnog asistenta i pretraživanja AI za razgovor motor, rekao je u intervjuu e-poštom.

"Kada se to dogodi, sintetizirani govor današnjice korisnicima će zvučati kao što nama danas zvuči govor ranih 2000-ih."

Glasovni pomoćnici s likom

Googleova LaMDA izgrađena je na Transformeru, arhitekturi neuronske mreže koju je izumio Google Research. Za razliku od drugih jezičnih modela, Googleov LaMDA obučen je za pravi dijalog.

Dio izazova u stvaranju govora umjetne inteligencije koji zvuči prirodno je otvorena priroda razgovora, napisao je Eli Collins iz Googlea u postu na blogu.

Image
Image

"Razgovor s prijateljem o TV emisiji mogao bi se razviti u raspravu o zemlji u kojoj je emisija snimljena prije nego što se započne rasprava o najboljoj regionalnoj kuhinji te zemlje," dodao je.

Stvari se brzo odvijaju uz govor robota. Eric Rosenblum, izvršni partner u tvrtki Tsingyuan Ventures, koja ulaže u konverzacijsku umjetnu inteligenciju, rekao je da su neki od najosnovnijih problema u računalno potpomognutom govoru gotovo riješeni.

Na primjer, stopa točnosti u razumijevanju govora već je iznimno visoka u uslugama kao što su transkripcije koje vrši softver Otter.ai ili medicinske bilješke koje vodi DeepScribe.

"Sljedeća je granica, međutim, puno teža," dodao je.

"Zadržavanje razumijevanja konteksta, što je problem koji daleko nadilazi obradu prirodnog jezika, i empatije, poput računala u interakciji s ljudima, trebaju razumjeti frustraciju, ljutnju, nestrpljivost itd. Radi se na oba ova problema, ali oba su prilično daleko od zadovoljavajućeg."

Neuronske mreže su ključ

Da bi generirale glasove slične životu, tvrtke koriste tehnologiju poput dubokih neuronskih mreža, oblik strojnog učenja koji klasificira podatke kroz slojeve, Matt Muldoon, sjevernoamerički predsjednik ReadSpeakera, tvrtke koja razvija softver za pretvaranje teksta u govor, rekao je u intervjuu e-poštom.

"Ovi slojevi pročišćavaju signal, sortirajući ga u složenije klasifikacije", dodao je. "Rezultat je sintetički govor koji nevjerojatno zvuči kao ljudski."

Još jedna tehnologija u razvoju je Prosody Transfer, koja uključuje kombiniranje zvuka jednog glasa za pretvaranje teksta u govor sa stilom govora drugog, rekao je Muldoon. Tu je i prijenos učenja, koji smanjuje količinu podataka za obuku potrebnu za proizvodnju novog neuralnog glasa teksta u govor.

Kaplan je rekao da proizvodnja ljudskog govora također zahtijeva ogromne količine procesorske snage. Tvrtke razvijaju čipove za neuralne akceleratore, koji su prilagođeni moduli koji rade zajedno s običnim procesorima.

"Sljedeća faza u ovome bit će stavljanje ovih čipova u manji hardver, jer se to trenutno već radi za kamere kada je potrebna umjetna inteligencija za vid", dodao je. "Neće proći dugo prije nego što ova vrsta računalnih mogućnosti bude dostupna u samim slušalicama."

Jedan izazov za razvoj govora vođenog umjetnom inteligencijom je to što svatko govori drugačije, pa nas računala obično teško razumiju.

"Razmislite o akcentima Georgije naspram Bostona ili Sjeverne Dakote i je li engleski vaš primarni jezik", rekla je u e-poruci Monica Dema, koja radi na analitici glasovnog pretraživanja u MDincu. "Razmišljajući globalno, skupo je učiniti ovo za sve regije Njemačke, Kine i Indije, ali to ne znači da nije ili se ne može učiniti."

Preporučeni: