În curând, este posibil să nu știi că vorbești cu un computer

Cuprins:

În curând, este posibil să nu știi că vorbești cu un computer
În curând, este posibil să nu știi că vorbești cu un computer
Anonim

Recomandări cheie

  • Se apropie rapid ziua în care nu veți putea deosebi vorbirea generată de computer de ceea ce este real.
  • Google a dezvăluit recent LaMDA, un model care ar putea permite conversații mai naturale.
  • Producerea unui vorbire asemănătoare omului necesită, de asemenea, o mare putere de procesare.
Image
Image

În acest moment, este ușor să știi când vorbești cu un computer, dar asta se poate schimba în curând datorită progreselor recente în AI.

Google a dezvăluit recent LaMDA, un model experimental despre care compania susține că ar putea spori capacitatea asistenților AI conversaționali și ar permite conversații mai naturale. LaMDA își propune să converseze în cele din urmă în mod normal despre aproape orice, fără niciun fel de pregătire prealabilă.

Este unul dintr-un număr tot mai mare de proiecte AI care te-ar putea face să te întrebi dacă vorbești cu o ființă umană.

„Estimarea mea este că în următoarele 12 luni, utilizatorii vor începe să fie expuși și să se obișnuiască cu aceste voci noi, mai emoționante”, James Kaplan, CEO-ul MeetKai, un asistent vocal virtual AI conversațional și de căutare. motor, a spus într-un interviu prin e-mail.

„Odată ce se întâmplă acest lucru, vorbirea sintetizată de astăzi va suna utilizatorilor așa cum ne sună discursul de la începutul anilor 2000 astăzi.”

Asistenți vocali cu caracter

LaMDA de la Google este construit pe Transformer, o arhitectură de rețea neuronală inventată de Google Research. Spre deosebire de alte modele lingvistice, LaMDA de la Google a fost instruit pe dialog real.

O parte a provocării de a face un discurs AI cu sunet natural este natura deschisă a conversațiilor, a scris Eli Collins de la Google într-o postare pe blog.

Image
Image

„O conversație cu un prieten despre o emisiune TV ar putea evolua într-o discuție despre țara în care a fost filmată emisiunea înainte de a se decide cu o dezbatere despre cea mai bună bucătărie regională a acelei țări”, a adăugat el.

Lucrurile se mișcă rapid cu vorbirea robotului. Eric Rosenblum, partener de conducere la Tsingyuan Ventures, care investește în IA conversațională, a spus că unele dintre cele mai fundamentale probleme ale vorbirii asistate de computer sunt practic rezolvate.

De exemplu, rata de acuratețe în înțelegerea vorbirii este deja extrem de ridicată în servicii precum transcripțiile realizate de software-ul Otter.ai sau notițele medicale luate de DeepScribe.

„Următoarea frontieră, totuși, este mult mai dificilă”, a adăugat el.

Păstrarea înțelegerii contextului, care este o problemă care depășește cu mult procesarea limbajului natural, și empatia, cum ar fi computerele care interacționează cu oamenii, trebuie să înțeleagă frustrarea, furia, nerăbdarea etc. Se lucrează la ambele probleme, dar ambele sunt destul de departe de a fi satisfăcătoare.”

Rețelele neuronale sunt cheia

Pentru a genera voci reale, companiile folosesc tehnologii precum rețelele neuronale profunde, o formă de învățare automată care clasifică datele prin straturi, Matt Muldoon, președinte nord-american la ReadSpeaker, o companie care dezvoltă software text-to-speech, spus într-un interviu prin e-mail.

„Aceste straturi rafinează semnalul, sortându-l în clasificări mai complexe”, a adăugat el. „Rezultatul este o vorbire sintetică care sună ciudat ca un om.”

O altă tehnologie în curs de dezvoltare este Prosody Transfer, care implică combinarea sunetului unei voci text-to-speech cu stilul de vorbire al alteia, a spus Muldoon. Există, de asemenea, transferul de învățare, care reduce cantitatea de date de antrenament necesare pentru a produce o nouă voce neuronală text-to-speech.

Kaplan a spus că producerea de vorbire asemănătoare omului necesită, de asemenea, o putere enormă de procesare. Companiile dezvoltă cipuri de accelerare neuronală, care sunt module personalizate care funcționează împreună cu procesoare obișnuite.

„Următoarea etapă va fi introducerea acestor cipuri într-un hardware mai mic, deoarece în prezent se face deja pentru camere când este necesară IA pentru viziune”, a adăugat el. „Nu va trece mult până când acest tip de capacitate de calcul va fi disponibil în căștile în sine.”

O provocare pentru dezvoltarea vorbirii bazate pe inteligență artificială este aceea că toată lumea vorbește diferit, așa că computerele tind să înțeleagă greu să ne înțeleagă.

„Gândește-te la accentele Georgia vs. Boston vs. Dakota de Nord și dacă engleza este sau nu limba ta principală”, a spus Monica Dema, care lucrează la analiza căutării vocale la MDinc, într-un e-mail. „Gândind la nivel global, este costisitor să faci asta pentru toate regiunile din Germania, China și India, dar asta nu înseamnă că nu este sau nu se poate face.”

Recomandat: