Razgovori s vašim računalom mogu postati realističniji

Sadržaj:

Razgovori s vašim računalom mogu postati realističniji
Razgovori s vašim računalom mogu postati realističniji
Anonim

Ključni podaci za van

  • Meta koristi AI za izradu programa koji mogu izraziti emocije u govoru.
  • Tim tvrtke za umjetnu inteligenciju rekao je da je napravio napredak u modeliranju ekspresivnih vokalizacija, kao što su smijeh, zijevanje, plač i "spontano čavrljanje" u stvarnom vremenu.
  • AI se također koristi za poboljšanja prepoznavanja govora.
Image
Image

Možda ćete uskoro moći prirodnije razgovarati sa svojim računalom, zahvaljujući snazi umjetne inteligencije (AI).

Meta je rekla da je napravila značajan napredak u nastojanju da stvori realističnije govorne sustave generirane umjetnom inteligencijom. Tvrtkin tim za umjetnu inteligenciju rekao je da je napravio napredak u sposobnosti modeliranja ekspresivnih vokalizacija, kao što su smijeh, zijevanje i plač, uz "spontano čavrljanje" u stvarnom vremenu.

"U bilo kojem razgovoru, ljudi razmjenjuju neverbalne signale, poput intonacija, emocionalnog izražavanja, pauza, naglasaka, ritmova – a sve je to važno za međuljudsku interakciju", napisao je tim u nedavnoj objavi na blogu. "Ali današnji AI sustavi ne uspijevaju uhvatiti te bogate, izražajne signale jer uče samo iz pisanog teksta, koji hvata ono što govorimo, ali ne i kako to govorimo."

Pametniji govor

U postu na blogu Meta AI tim rekao je da radi na prevladavanju ograničenja tradicionalnih AI sustava koji ne mogu razumjeti neverbalne signale u govoru, kao što su intonacije, emocionalni izrazi, pauze, naglasci i ritmovi. Sustavi su sputani jer mogu učiti samo iz pisanog teksta.

Ali Metin rad razlikuje se od prijašnjih pokušaja jer njezini AI modeli mogu koristiti modele obrade prirodnog jezika kako bi uhvatili punu prirodu govornog jezika. Meta istraživači kažu da novi modeli mogu omogućiti AI sustavima da prenesu osjećaje koje žele prenijeti - poput dosade ili ironije.

"U bliskoj budućnosti usredotočit ćemo se na primjenu bestekstnih tehnika za izgradnju korisnih nizvodnih aplikacija bez potrebe za tekstualnim oznakama koje zahtijevaju velike resurse ili sustavima za automatsko prepoznavanje govora (ASR), kao što je odgovaranje na pitanja (npr., "Kako je vrijeme?"), napisao je tim u objavi na blogu. "Vjerujemo da prozodija u govoru može pomoći u boljem raščlanjivanju rečenice, što zauzvrat olakšava razumijevanje namjere i poboljšava izvedbu odgovaranja na pitanja."

Razumijevanje moći AI

Ne samo da su računala sve bolja u prenošenju značenja, već se AI koristi i za poboljšanje prepoznavanja govora.

Računalni znanstvenici rade na računalnom prepoznavanju govora najmanje od 1952. godine, kada su tri istraživača iz Bell Labsa stvorili sustav koji može prepoznati pojedinačne numeričke znamenke, rekao je glavni tehnološki direktor AI Dynamicsa, Ryan Monsurate, u e-poruci upućenoj Lifewire. Do 1990-ih, sustavi za prepoznavanje govora bili su komercijalno dostupni, ali su i dalje imali stopu pogrešaka koja je bila dovoljno visoka da obeshrabri upotrebu izvan vrlo specifičnih domena primjene kao što je zdravstvo.

"Sada kada su modeli dubinskog učenja omogućili skupnim modelima (poput onih iz Microsofta) postizanje nadljudskih performansi u prepoznavanju govora, imamo tehnologiju koja omogućuje verbalnu komunikaciju neovisnu o govorniku s računalima na velikom broju", rekao je Monsurate. "Sljedeća faza uključivat će smanjenje troškova tako da će svi koji koriste Siri ili Googleove AI pomoćnike imati pristup ovoj razini prepoznavanja govora."

Image
Image

AI je koristan za prepoznavanje govora jer se s vremenom može poboljšati kroz učenje, rekao je Ariel Utnik, glavni direktor prihoda i generalni direktor glasovne tvrtke AI Verbit.ai, rekao je za Lifewire u intervjuu e-poštom. Na primjer, Verbit tvrdi da njegova interna AI tehnologija detektira i filtrira pozadinsku buku te odjekuje i transkribira govornike bez obzira na naglasak kako bi generirala detaljne, profesionalne transkripte i titlove iz uživo i snimljenog videa i zvuka.

Ali Utnik je rekao da je većina trenutnih platformi za prepoznavanje govora samo 75-80% točna.

"AI nikada neće u potpunosti zamijeniti ljude jer je osobna provjera prepisivača, lektora i urednika neophodna kako bi se osigurala visoka kvaliteta i vrhunska točnost konačnog prijepisa," dodao je.

Bolje prepoznavanje glasa također bi se moglo koristiti za sprječavanje hakera, rekao je u e-poruci Sanjay Gupta, potpredsjednik globalnog voditelja proizvoda i korporativnog razvoja u tvrtki za prepoznavanje glasa Mitek Systems. Istraživanja pokazuju da će unutar dvije godine 20 posto svih uspješnih napada za preuzimanje računa koristiti sintetičko povećanje glasa, dodao je.

"To znači kako tehnologija dubokog lažiranja postaje sve sofisticiranija, moramo istovremeno stvoriti naprednu sigurnost koja se može boriti protiv ovih taktika zajedno s dubokim lažiranjem slika i videa", rekao je Gupta. "Borba protiv krivotvorenja glasa zahtijeva tehnologiju detekcije živosti koja može razlikovati živi glas od snimljene, sintetičke ili računalno generirane verzije glasa."

Ispravak 2022-05-04: Ispravljeno pravopisno ime Ryan Monsurate u odlomku 9.

Preporučeni: