AI vă poate înțelege acum videoclipurile vizionându-le

Cuprins:

AI vă poate înțelege acum videoclipurile vizionându-le
AI vă poate înțelege acum videoclipurile vizionându-le
Anonim

Recomandări cheie

  • Cercetătorii spun că pot învăța inteligența artificială să eticheteze videoclipuri prin vizionarea și ascultarea.
  • Sistemul AI învață să reprezinte date pentru a capta conceptele partajate între datele vizuale și cele audio.
  • Face parte dintr-un efort de a învăța inteligența artificială să înțeleagă conceptele pe care oamenii nu le au probleme de învățat, dar pe care computerele le înțeleg greu.

Image
Image

Un nou sistem de inteligență artificială (AI) ar putea viziona și asculta videoclipurile dvs. și ar putea eticheta lucrurile care se întâmplă.

Cercetătorii MIT au dezvoltat o tehnică care învață AI să captureze acțiunile partajate între video și audio. De exemplu, metoda lor poate înțelege că actul unui copil care plânge într-un videoclip este legat de cuvântul rostit „plâns” dintr-un clip audio. Face parte dintr-un efort de a învăța inteligența artificială cum să înțeleagă concepte pe care oamenii nu au probleme de învățat, dar pe care computerele le înțeleg greu.

„Paradigma de învățare predominantă, învățarea supravegheată, funcționează bine atunci când aveți seturi de date bine descrise și complete”, a declarat Phil Winder, expert în inteligență artificială, pentru Lifewire într-un interviu prin e-mail. „Din păcate, seturile de date sunt rareori complete, deoarece lumea reală are un obicei prost de a prezenta situații noi.”

AI mai inteligent

Computerele întâmpină dificultăți în a înțelege scenarii de zi cu zi, deoarece trebuie să analizeze mai degrabă datele decât sunetul și imaginile ca oamenii. Când o mașină „vede” o fotografie, trebuie să codifice fotografia respectivă în date pe care le poate folosi pentru a efectua o sarcină precum o clasificare a imaginilor. AI se poate bloca atunci când intrările vin în mai multe formate, cum ar fi videoclipuri, clipuri audio și imagini.

„Principala provocare aici este cum poate o mașină să alinieze aceste modalități diferite? Ca oameni, acest lucru este ușor pentru noi”, a spus Alexander Liu, cercetător MIT și primul autor al unei lucrări despre acest subiect, într-un comunicat de presă. „Vedem o mașină și apoi auzim sunetul unei mașini care trece și știm că acestea sunt același lucru. Dar pentru învățarea automată, nu este atât de simplu.”

Echipa lui Liu a dezvoltat o tehnică de inteligență artificială despre care se spune că învață să reprezinte date pentru a capta conceptele partajate între datele vizuale și audio. Folosind aceste cunoștințe, modelul lor de învățare automată poate identifica unde are loc o anumită acțiune într-un videoclip și o etichetă.

Noul model preia date brute, cum ar fi videoclipurile și subtitrările lor corespunzătoare, și le codifică prin extragerea de caracteristici sau observații despre obiecte și acțiuni din videoclip. Apoi mapează acele puncte de date într-o grilă, cunoscută sub numele de spațiu de încorporare. Modelul grupează date similare împreună ca puncte unice în grilă; fiecare dintre aceste puncte de date, sau vectori, este reprezentat de un cuvânt individual.

De exemplu, un clip video cu o persoană care jonglează ar putea fi mapat la un vector etichetat „jongler”.

Cercetătorii au conceput modelul astfel încât să poată folosi doar 1.000 de cuvinte pentru a eticheta vectorii. Modelul poate decide ce acțiuni sau concepte dorește să codifice într-un singur vector, dar poate folosi doar 1.000 de vectori. Modelul alege cuvintele despre care consideră că reprezintă cel mai bine datele.

„Dacă există un videoclip despre porci, modelul ar putea atribui cuvântul „porc” unuia dintre cei 1.000 de vectori. Apoi, dacă modelul aude pe cineva rostind cuvântul „porc” într-un clip audio, ar trebui să folosească în continuare același vector pentru a-l codifica”, a explicat Liu.

Videoclipurile dvs., decodate

Sisteme de etichetare mai bune, cum ar fi cel dezvoltat de MIT, ar putea ajuta la reducerea părtinirii în IA, a declarat Marian Beszedes, șeful de cercetare și dezvoltare la firma de biometrie Innovatrics, pentru Lifewire într-un interviu prin e-mail. Beszedes a sugerat că industria datelor poate vedea sistemele AI din perspectiva procesului de producție.

„Sistemele acceptă date brute ca intrare (materii prime), le preprocesează, le ingerează, iau decizii sau previziuni și ies analitice (produse finite),” a spus Beszedes. „Numim acest flux de proces „fabrica de date” și, ca și alte procese de producție, ar trebui să facă obiectul controalelor de calitate. Industria datelor trebuie să trateze părtinirea AI ca pe o problemă de calitate.

„Din perspectiva consumatorilor, datele etichetate greșit fac, de exemplu, căutarea online pentru anumite imagini/videoclipuri mai dificilă”, a adăugat Beszedes. „Cu IA dezvoltată corect, puteți face etichetarea automat, mult mai rapid și mai neutru decât cu etichetarea manuală.”

Image
Image

Dar modelul MIT are încă unele limitări. În primul rând, cercetările lor s-au concentrat pe date din două surse în același timp, dar în lumea reală, oamenii întâlnesc multe tipuri de informații simultan, a spus Liu

„Știm că 1.000 de cuvinte funcționează pe acest tip de set de date, dar nu știm dacă poate fi generalizat la o problemă din lumea reală”, a adăugat Liu.

Cercetătorii MIT spun că noua lor tehnică depășește multe modele similare. Dacă AI poate fi antrenat să înțeleagă videoclipuri, în cele din urmă este posibil să renunți la vizionarea videoclipurilor din vacanță ale prietenului tău și să obții în schimb un raport generat de computer.

Recomandat: