Conversațiile cu computerul dvs. pot deveni mai realiste

Cuprins:

Conversațiile cu computerul dvs. pot deveni mai realiste
Conversațiile cu computerul dvs. pot deveni mai realiste
Anonim

Recomandări cheie

  • Meta folosește AI pentru a crea programe care pot exprima emoții în vorbire.
  • Echipa AI a companiei a spus că a făcut progrese în modelarea vocalizărilor expresive, cum ar fi râsul, căscatul, strigătele și „chit-chat-ul spontan” în timp real.
  • AI este, de asemenea, folosit pentru îmbunătățirea recunoașterii vorbirii.
Image
Image

Puteți în curând să aveți o conversație mai naturală cu computerul dvs., datorită puterii inteligenței artificiale (AI).

Meta a declarat că a făcut progrese semnificative în efortul său de a crea sisteme de vorbire mai realiste generate de AI. Echipa AI a companiei a spus că a făcut progrese în capacitatea de a modela vocalizări expresive, cum ar fi râsul, căscatul și strigătele, pe lângă „chit-chat-ul spontan” în timp real.

„În orice conversație, oamenii fac schimb de semnale nonverbale, cum ar fi intonații, expresii emoționale, pauze, accente, ritmuri – toate acestea sunt importante pentru interacțiunile umane”, a scris echipa în postarea recentă pe blog.. „Dar sistemele AI de astăzi nu reușesc să capteze aceste semnale bogate și expresive, deoarece învață doar din textul scris, care surprinde ceea ce spunem, dar nu și cum îl spunem.”

Discurs mai inteligent

În postarea de pe blog, echipa Meta AI a spus că lucrează pentru a depăși limitările sistemelor tradiționale de AI care nu pot înțelege semnalele non-verbale în vorbire, cum ar fi intonații, expresii emoționale, pauze, accente și ritmuri.. Sistemele sunt reținute deoarece pot învăța numai din textul scris.

Dar munca lui Meta diferă de eforturile anterioare, deoarece modelele sale AI pot folosi modele de procesare a limbajului natural pentru a surprinde întreaga natură a limbajului vorbit. Cercetătorii meta spun că noile modele pot permite sistemelor AI să transmită sentimentul pe care doresc să-l transmită, cum ar fi plictiseala sau ironia.

"În viitorul apropiat, ne vom concentra pe aplicarea tehnicilor fără text pentru a construi aplicații utile în aval, fără a necesita nici etichete de text care necesită mult resurse sau sisteme de recunoaștere automată a vorbirii (ASR), cum ar fi răspunsul la întrebări (de exemplu, „Cum este vremea?"), a scris echipa în postarea de pe blog. „Considerăm că prozodia în vorbire poate ajuta la analizarea mai bună a unei propoziții, ceea ce, la rândul său, facilitează înțelegerea intenției și îmbunătățește performanța răspunsului la întrebări.”

AI puterea de înțelegere

Nu numai că computerele devin mai bune în comunicarea sensului, dar AI este folosită și pentru a îmbunătăți recunoașterea vorbirii.

Informaticianii lucrează la recunoașterea vorbirii computerizate din cel puțin 1952, când trei cercetători de la Bell Labs au creat un sistem care putea recunoaște cifre numerice unice, a declarat directorul de tehnologie al AI Dynamics, Ryan Monsurate, într-un e-mail către Lifewire. Până în anii 1990, sistemele de recunoaștere a vorbirii erau disponibile comercial, dar aveau totuși o rată de eroare suficient de mare pentru a descuraja utilizarea în afara unor domenii de aplicații foarte specifice, cum ar fi asistența medicală.

„Acum, că modelele de învățare profundă au permis modelelor de ansamblu (cum ar fi cele de la Microsoft) să atingă performanțe supraomenești la recunoașterea vorbirii, avem tehnologia care să permită comunicarea verbală independentă de vorbitor cu computere la scară”, a spus Monsurate. „Următoarea etapă va include reducerea costurilor, astfel încât toți cei care folosesc Siri sau asistenții AI de la Google să aibă acces la acest nivel de recunoaștere a vorbirii.”

Image
Image

AI este util pentru recunoașterea vorbirii, deoarece se poate îmbunătăți în timp prin învățare, a declarat Ariel Utnik, directorul de venituri și directorul general al companiei de voce AI Verbit.ai, pentru Lifewire într-un interviu prin e-mail. De exemplu, Verbit susține că tehnologia sa AI internă detectează și filtrează zgomotul de fundal și ecourile și transcrie difuzoarele indiferent de accent pentru a genera transcrieri și subtitrări profesionale detaliate din videoclipuri și sunet în direct și înregistrate.

Dar Utnik a spus că majoritatea platformelor actuale de recunoaștere a vorbirii au o precizie de doar 75-80%.

„AI nu va înlocui niciodată pe deplin oamenii, deoarece evaluarea personală de către transcrieri, corectori și editori este necesară pentru a asigura o transcriere finală de în altă calitate și acuratețe maximă”, a adăugat el.

O mai bună recunoaștere a vocii ar putea fi folosită și pentru a preveni hackeri, a declarat într-un e-mail Sanjay Gupta, vicepreședintele global al departamentului de produse și dezvoltare corporativă la compania de recunoaștere a vocii Mitek Systems. Cercetările indică faptul că în decurs de doi ani, 20% din toate atacurile de succes de preluare a conturilor vor folosi creșterea sintetică a vocii, a adăugat el.

„Aceasta înseamnă că, pe măsură ce tehnologia deep fake devine mai sofisticată, trebuie să creăm simultan securitate avansată care să poată combate aceste tactici alături de falsurile de imagine și video”, a spus Gupta. „Combaterea falsificării vocii necesită tehnologie de detectare a vieții, capabilă să facă distincția între o voce live și o versiune înregistrată, sintetică sau generată de computer a unei voci.”

Corectare 2022-05-04: S-a corectat ortografia numelui lui Ryan Monsurate în paragraful 9.

Recomandat: