Ključni podaci za van
- Istraživači kažu da mogu naučiti umjetnu inteligenciju da označava videozapise gledanjem i slušanjem.
- Sustav umjetne inteligencije uči predstavljati podatke kako bi uhvatio koncepte koji dijele vizualni i audio podaci.
-
To je dio nastojanja da se umjetna inteligencija nauči razumjeti pojmove koje ljudi nemaju problema naučiti, ali koje računala teško shvaćaju.
Novi sustav umjetne inteligencije (AI) mogao bi gledati i slušati vaše videozapise i označavati stvari koje se događaju.
Istraživači MIT-a razvili su tehniku koja uči umjetnu inteligenciju da uhvati akcije koje dijele video i audio. Na primjer, njihova metoda može shvatiti da je čin bebinog plača u videu povezan s izgovorenom riječi "plač" u zvučnom isječku. To je dio nastojanja da se umjetna inteligencija nauči kako razumjeti koncepte koje ljudi nemaju problema naučiti, ali koje računala teško shvaćaju.
"Prevladavajuća paradigma učenja, nadzirano učenje, dobro funkcionira kada imate skupove podataka koji su dobro opisani i potpuni", rekao je stručnjak za umjetnu inteligenciju Phil Winder za Lifewire u intervjuu e-poštom. "Nažalost, skupovi podataka rijetko su potpuni jer stvarni svijet ima lošu naviku predstavljanja novih situacija."
Pametniji AI
Računala imaju poteškoća u shvaćanju svakodnevnih scenarija jer trebaju hrskati podatke, a ne zvuk i slike poput ljudi. Kada stroj "vidi" fotografiju, mora kodirati tu fotografiju u podatke koje može koristiti za obavljanje zadatka kao što je klasifikacija slike. AI se može zaglaviti kada ulazi dolaze u više formata, poput videozapisa, audio zapisa i slika.
"Glavni izazov ovdje je, kako stroj može uskladiti te različite modalitete? Kao ljudima, ovo je lako za nas," Alexander Liu, istraživač MIT-a i prvi autor rada o toj temi, rekao je u vijesti. "Vidimo automobil, a zatim čujemo zvuk automobila koji prolazi i znamo da je to ista stvar. Ali za strojno učenje nije tako jednostavno."
Liuov tim razvio je tehniku umjetne inteligencije za koju kažu da uči predstavljati podatke kako bi uhvatio koncepte koji se dijele između vizualnih i audio podataka. Koristeći ovo znanje, njihov model strojnog učenja može prepoznati gdje se određena radnja odvija u videu i označiti je.
Novi model uzima neobrađene podatke, poput videozapisa i njihovih odgovarajućih tekstualnih naslova, i kodira ih izdvajanjem značajki ili zapažanja o objektima i radnjama u videozapisu. Zatim preslikava te podatkovne točke u rešetku, poznatu kao prostor za ugradnju. Model grupira slične podatke zajedno kao pojedinačne točke u mreži; svaka od ovih podatkovnih točaka, ili vektora, predstavljena je pojedinačnom riječi.
Na primjer, video isječak osobe koja žonglira može se preslikati na vektor označen kao "žongliranje."
Istraživači su dizajnirali model tako da može koristiti samo 1000 riječi za označavanje vektora. Model može odlučiti koje akcije ili koncepte želi kodirati u jedan vektor, ali može koristiti samo 1000 vektora. Model odabire riječi za koje misli da najbolje predstavljaju podatke.
"Ako postoji video o svinjama, model može dodijeliti riječ 'svinja' jednom od 1000 vektora. Zatim, ako model čuje nekoga kako izgovara riječ 'svinja' u audio isječku, još uvijek treba koristiti isti vektor za kodiranje, " objasnio je Liu.
Vaši videozapisi, dekodirani
Bolji sustavi označavanja poput onog koji je razvio MIT mogli bi pomoći u smanjenju pristranosti u umjetnoj inteligenciji, rekao je Marian Beszedes, voditelj istraživanja i razvoja biometrijske tvrtke Innovatrics, za Lifewire u intervjuu e-poštom. Beszedes je predložio da podatkovna industrija može promatrati AI sustave iz perspektive proizvodnog procesa.
"Sustavi prihvaćaju sirove podatke kao ulaz (sirovi materijali), pretprocesiraju ih, unose, donose odluke ili predviđanja i izlaze analitiku (gotovi proizvodi)," rekao je Beszedes. "Ovaj tijek procesa nazivamo "tvornicom podataka", i kao i drugi proizvodni procesi, trebao bi biti podložan kontroli kvalitete. Industrija podataka treba tretirati pristranost umjetne inteligencije kao problem kvalitete.
"Iz perspektive potrošača, pogrešno označeni podaci otežavaju npr. online pretraživanje određenih slika/video zapisa", dodao je Beszedes. "S ispravno razvijenom umjetnom inteligencijom, označavanje možete obavljati automatski, puno brže i neutralnije nego s ručnim označavanjem."
Ali MIT model još uvijek ima neka ograničenja. Kao prvo, njihovo se istraživanje usredotočilo na podatke iz dva izvora istovremeno, ali u stvarnom svijetu ljudi se susreću s mnogo vrsta informacija istovremeno, rekao je Liu
"I znamo da 1000 riječi funkcionira na ovoj vrsti skupa podataka, ali ne znamo može li se generalizirati na problem iz stvarnog svijeta," dodao je Liu.
Istraživači MIT-a kažu da njihova nova tehnika nadmašuje mnoge slične modele. Ako se AI može uvježbati da razumije videozapise, možda ćete s vremenom moći preskočiti gledanje videa s odmora svojih prijatelja i umjesto toga dobiti računalno generirano izvješće.