Recomandări cheie
- DeepZen folosește AI (inteligență artificială) pentru a crea cărți audio uimitor de realiste din text.
- Tehnologia folosește actori vocali umani reali pentru a oferi elementele de bază.
- Amazon și Audible nu acceptă momentan cărți audio generate de computer.
DeepZen este o companie care creează voci de computer folosite în cărți audio, pe baza vocilor reale ale actorilor umani. Calitatea este înfricoșătoare - suficient de bună pentru a fi ascultată ore întregi. Trucul aici este componenta AI (inteligență artificială), care poate citi textul și poate deduce răspunsul emoțional corect în funcție de context. Apoi pune acea emoție în voce.
Este impresionant și foarte convenabil. Dar ne dorim cu adevărat o experiență omogenizată de carte audio? Și cum rămâne cu acești actori vocali?
„Din perspectiva editorului independent, orice reduce costul producției de cărți audio este foarte interesant”, a declarat Rick Carlile, proprietarul editurii independente Carlile Media, pentru Lifewire prin e-mail.
"Dar această atracție presupune că produsul ar fi de o calitate egală cu narațiunea tradițională. Nu cred că suntem încă sută la sută acolo. Nu mă înțelege greșit, DeepZen este uimitor de bun. Este un descoperire extraordinară, iar creatorii săi merită laude și succes imense. Dar nu este încă perfectă."
Audio care este „destul de bun”
Cea mai bună modalitate de a înțelege calitatea DeepZen este să ascultați mostrele. Dacă nu știai că sunt generate de computer, s-ar putea să nu-ți dai seama. Oricum nu pentru o vreme. Să presupunem că AI-ul lui DeepZen este perfect și că nu interpretează niciodată greșit notele emoționale pe care ar trebui să le lovească.
Chiar și atunci, un om poate oferi interpretări mai nuanțate și adesea mai surprinzătoare. Un actor ar putea pune o întorsătură neașteptată cuvintelor pe care un computer nu le-ar lua niciodată în considerare. Și, în realitate, interpretarea AI cu siguranță nu este încă la fel de bună ca cea a unui actor vocal profesionist.
„Ca unul care lucrează la filme și, cel mai recent, în lumea narațiunii audio, deși sunt impresionat de inteligența artificială – știu cu adevărat că există adâncimi profunde de înțeles pe care o mașină nu le poate interpreta”, voce profesională actorul Paul Cram a declarat pentru Lifewire prin e-mail.
"Va exista un val de autori necunoscuți care îl vor folosi? Garantez că va fi, deoarece este „destul de bun"."
A fi suficient de bun, combinat cu comoditatea și economiile de costuri, ar putea fi suficient pentru a conduce editorii indie către serviciu.
„Cărțile audio pot costa până la 500 USD pe oră terminată de sunet (mult mai mult pentru o voce de celebritate), iar asta nu include costul de timp al managementului și al administrării”, spune Carlile. „Este extrem de atractiv să poți reduce la jumătate acest cost prin simpla încărcare a unui manuscris la un furnizor precum DeepZen.”
Probleme de vorbire
Nu este încă la fel de ușor ca să-ți concediezi actorii vocali și să încarci manuscrise în DeepZen. În prezent, există o barieră în calea orării ușoare cu inteligența artificială a cărților audio și este de la Amazon.
„În prezent, ACX, calea auto-editorului către distribuția de cărți audio Audible și Amazon, nu va accepta cărți audio pe care un om nu le-a înregistrat”, spune Carlile.
De ce? Calitate. Iată intrarea cu întrebări frecvente de pe site:
Text-to-speech sau alte înregistrări automate nu sunt permise. Ascultătorii audibili aleg cărți audio pentru interpretarea materialului, precum și povestea. Pentru a îndeplini această așteptare, cartea audio trebuie să fie înregistrată de un om. „
Aceasta înseamnă că cărțile audio generate de DeepZen sunt disponibile, cel puțin deocamdată. Aceasta este speculație pură, dar DeepZen ar părea o achiziție destul de bună pentru Amazon, lăsându-l să vândă serviciul și să-l păstreze numai pentru cărțile Audible. Și chiar dacă acest lucru nu se întâmplă, dacă calitatea cărților audio generate de computer este la fel de bună, atunci se pare că există puține motive pentru a nu face o excepție de la această regulă.
Ai fi fericit să asculți cărți audio realizate în acest fel? Când se va întâmpla, majoritatea oamenilor nici nu vor bănui. Unii ar putea prefera perfecțiunea vocilor generate de computer, deoarece vor fi libere de ticuri vocale și obiceiuri care uneori pot distrage atenția. Tehnologia este potrivită și pentru jocuri video, reclame TV și radio și orice alt scenariu în care ați angaja un actor vocal.
Tehnologia DeepZen ar fi, de asemenea, o modalitate excelentă de a crea automat podcasturi de știri din articole scrise, ceea ce ar putea fi util pentru navetă.
Și cum rămâne cu actorii ăia de voce? Ei bine, va exista cel puțin o oportunitate: pot merge să lucreze pentru DeepZen.