Cum AI ar putea face vorbirea computerului mai naturală

Cuprins:

Cum AI ar putea face vorbirea computerului mai naturală
Cum AI ar putea face vorbirea computerului mai naturală
Anonim

Recomandări cheie

  • Companiile se întrec pentru a găsi modalități de a face vorbirea generată de computer să sune mai realiste.
  • NVIDIA a dezvăluit recent instrumente care pot capta sunetul vorbirii naturale, permițându-vă să antrenați un AI cu propria voce.
  • Intonația, emoția și muzicalitatea sunt caracteristicile care încă le lipsesc vocilor computerizate, spune un expert.
Image
Image

Discursul generat de computer ar putea suna în curând mult mai uman.

Producătorul de piese pentru computere NVIDIA a dezvăluit recent instrumente care pot capta sunetul vorbirii naturale, permițându-vă să antrenați o IA cu vocea. De asemenea, software-ul poate transmite cuvintele unui vorbitor folosind vocea altei persoane. Face parte dintr-un impuls în creștere pentru a face vorbirea de pe computer mai realistă.

„Tehnologia avansată AI vocală permite utilizatorilor să vorbească natural, combinând multe întrebări într-o singură propoziție și eliminând nevoia de a repeta în mod constant detaliile din interogarea originală”, Michael Zagorsek, directorul de operațiuni al companiei de recunoaștere a vorbirii SoundHound, a declarat pentru Lifewire într-un interviu prin e-mail.

„Adăugarea mai multor limbi, acum disponibile pe majoritatea platformelor vocale AI, face ca asistenții vocali digitali să fie accesibili în mai multe zone geografice și pentru mai multe populații”, a adăugat el.

Robospeech Rising

Alexa de la Amazon și Siri de la Apple sună mult mai bine decât vorbirea computerului de acum un deceniu, dar nu vor fi confundate cu voci umane autentice în curând.

Pentru a face ca vorbirea artificială să sune mai naturală, echipa de cercetare a text-to-speech a NVIDIA a dezvoltat un model RAD-TTS. Sistemul permite persoanelor să predea un model text-to-speech (TTS) cu vocea lor, inclusiv ritmul, tonalitatea, timbrul și alți factori.

Compania și-a folosit noul model pentru a construi o narațiune vocală cu sunet mai conversațional pentru seria sa de videoclipuri I Am AI.

Cu această interfață, producătorul nostru video ar putea să se înregistreze citind scenariul video și apoi să folosească modelul AI pentru a-și converti discursul în vocea naratorului feminin. Folosind această narațiune de bază, producătorul ar putea apoi să direcționeze AI ca un actorul vocal modificând discursul sintetizat pentru a sublinia anumite cuvinte și modificând ritmul narațiunii pentru a exprima mai bine tonul videoclipului”, a scris NVIDIA pe site-ul său.

Mai greu decât pare

A face ca vorbirea generată de computer să sune naturală este o problemă dificilă, spun experții.

„Trebuie să înregistrați sute de ore din vocea cuiva pentru a crea o versiune de computer a acesteia”, a declarat Nazim Ragimov, CEO-ul companiei de software pentru text în vorbire Kukarella, într-un interviu prin e-mail pentru Lifewire. „Și înregistrarea trebuie să fie de în altă calitate, înregistrată într-un studio profesionist. Cu cât sunt mai multe ore de vorbire de calitate încărcate și procesate, cu atât rezultatul este mai bun."

Text-to-speech poate fi folosit în jocuri, pentru a ajuta persoanele cu dizabilități vocale sau pentru a ajuta utilizatorii să traducă între limbi cu propria lor voce.

Intonația, emoția și muzicalitatea sunt caracteristicile care încă le lipsesc vocilor computerizate, a spus Ragimov.

Dacă AI poate adăuga aceste legături lipsă, vorbirea generată de computer va fi „nediferențiată de vocile actorilor reali”, a adăugat el. „Este o lucrare în desfășurare. Alte voci vor putea concura cu gazdele radio. În curând veți vedea voci care pot cânta și pot citi cărți audio.”

Tehnologia vorbirii devine din ce în ce mai populară într-o gamă largă de companii.

„Industria auto a adoptat recent AI vocal ca o modalitate de a crea experiențe de conducere mai sigure și mai conectate”, a spus Zagorsek.

„De atunci, asistenții vocali au devenit din ce în ce mai omniprezenti, deoarece mărcile caută modalități de a îmbunătăți experiențele clienților și de a satisface cererea de metode mai ușoare, mai sigure, mai convenabile, mai eficiente și mai igienice de interacțiune cu produsele și serviciile lor.”

De obicei, IA vocală convertește interogările în răspunsuri într-un proces în doi pași care începe prin a transcrie vorbirea în text folosind recunoașterea automată a vorbirii (ASR) și apoi introduce textul într-un model de înțelegere a limbajului natural (NLU).

Image
Image

Abordarea SoundHound combină acești doi pași într-un singur proces pentru a urmări vorbirea în timp real. Compania susține că această tehnică permite asistenților vocali să înțeleagă semnificația interogărilor utilizatorilor, chiar înainte ca persoana să termine de vorbit.

Avansările viitoare în vorbirea computerului, inclusiv disponibilitatea unei varietăți de opțiuni de conectivitate, de la numai încorporat (nu este necesară o conexiune la cloud) la hibrid (încorporat plus cloud) și numai în cloud „vor oferi mai multe opțiuni companiilor din toate industriile în ceea ce privește costul, confidențialitatea și disponibilitatea puterii de procesare”, a spus Zagoresk.

NVIDIA a spus că noutățile sale AI depășesc munca de voce off.

„Text-to-speech poate fi folosit în jocuri, pentru a ajuta persoanele cu dizabilități vocale sau pentru a ajuta utilizatorii să traducă între limbi cu propria lor voce”, a scris compania. „Poate chiar recrea interpretările cântăreților emblematici, potrivindu-se nu numai cu melodia unui cântec, ci și cu expresia emoțională din spatele vocii.”

Recomandat: