de Marina Danilevsky, IBM

specifice

Este familiar să faci gimnastica mentală pentru a face distincția fenetică între cuvinte și fraze, cum ar fi „aud” la „sunt aici” sau „nu pot așa, dar tone” la „nu pot coase nasturi”, este familiar pentru oricine a întâlnit mesaje text autocorectate, mesaje de socializare punny și altele asemenea. Deși la prima vedere poate părea că similitudinea fonetică poate fi cuantificată doar pentru cuvintele audibile, această problemă este adesea prezentă în spații pur textuale.

Abordările AI pentru analizarea și înțelegerea textului necesită o intrare curată, ceea ce implică, la rândul său, o cantitate necesară de pre-procesare a datelor brute. Homofonele și sinofoanele incorecte, indiferent dacă sunt folosite greșit sau în glumă, trebuie corectate la fel ca orice altă formă de ortografie sau eroare gramaticală. În exemplul de mai sus, transformarea corectă a cuvintelor „auzi” și „așa” la omologii lor corecți din punct de vedere fonetic necesită o reprezentare solidă a similarității fonetice între perechile de cuvinte.

Majoritatea algoritmilor pentru similitudinea fonetică sunt motivați de cazuri de utilizare în limba engleză și sunt proiectați pentru limbile indo-europene. Cu toate acestea, multe limbi, cum ar fi chineza, au o structură fonetică diferită. Sunetul vorbirii unui caracter chinez este reprezentat de o singură silabă în pinyin, sistemul oficial de romanizare al chinezilor. O silabă pinyin constă din: o inițială (opțională) (cum ar fi „b”, „zh” sau „x”), o finală (cum ar fi „a”, „ou”, „wai” sau „yuan”) și ton (din care sunt cinci). Cartografierea acestor sunete de vorbire la fonemele englezești are ca rezultat o reprezentare destul de inexactă, iar utilizarea algoritmilor de similaritate fonetică indo-europeană agravează problema. De exemplu, doi algoritmi binecunoscuți, Soundex și Double Metaphone, indică consoane în timp ce ignoră vocalele (și nu au concept de tonuri).

Deoarece o silabă pinyin reprezintă în medie șapte caractere chinezești diferite, preponderența homofonelor este chiar mai mare decât în ​​limba engleză. Între timp, utilizarea pinyinului pentru crearea de text este extrem de răspândită în aplicațiile mobile și de chat, atât atunci când se utilizează vorbirea către text, cât și când se tastează direct, deoarece este mai practic să introduceți o silabă pinyin și să selectați caracterul dorit. Ca rezultat, erorile de intrare pe bază de fonetică sunt extrem de frecvente, evidențiind necesitatea unui algoritm de similaritate fonetică foarte precis, pe care să se poată baza pentru a remedia erorile.

Motivați de acest caz de utilizare, care se generalizează la multe alte limbi care nu se potrivesc cu ușurință cu mucegaiul fonetic al englezei, am dezvoltat o abordare pentru învățarea unei codificări fonetice n-dimensionale pentru chineză. O caracteristică importantă a Pinyinului este că cele trei componente unei silabe (inițială, finală și tonică) ar trebui luate în considerare și comparate independent. De exemplu, similitudinea fonetică a finalelor „ie” și „ue” este identică în perechile Pinyin și, în ciuda inițialelor diferite. Astfel, asemănarea unei perechi de silabe pinyin este o agregare a asemănărilor dintre inițialele, finalele și tonurile lor.

Cu toate acestea, constrângerea artificială a spațiului de codificare la o dimensiune redusă (de exemplu, indexarea fiecărei inițiale la o singură valoare categorică sau chiar numerică) limitează acuratețea captării variațiilor fonetice. Abordarea corectă, bazată pe date, este deci de a învăța în mod organic o codificare de dimensionalitate adecvată. Modelul de învățare obține codificări exacte luând în considerare în comun caracteristicile lingvistice pinyin, cum ar fi locurile de articulare și metodele de pronunție, precum și seturi de date de antrenament adnotate de înaltă calitate.

Demonstrarea unei îmbunătățiri de 7,5X față de abordările de asemănare fonetică existente

Prin urmare, codificările învățate pot fi folosite pentru, de exemplu, să accepte un cuvânt ca intrare și să returneze o listă clasificată de cuvinte similare fonetic (clasificate prin similitudine fonetică descrescătoare). Clasarea este importantă, deoarece aplicațiile din aval nu se vor scala pentru a lua în considerare un număr mare de candidați supleanți pentru fiecare cuvânt, mai ales atunci când rulează în timp real. Ca exemplu din lumea reală, am evaluat abordarea noastră pentru generarea unei liste clasate de candidați pentru fiecare dintre cele 350 de cuvinte chinezești preluate dintr-un set de date de social media și am demonstrat o îmbunătățire de 7,5X față de abordările de similaritate fonetică existente.

Sperăm că îmbunătățirile aduse de această lucrare pentru reprezentarea similarității fonetice specifice limbajului contribuie la calitatea numeroaselor aplicații de procesare a limbajului natural multilingv. Această lucrare, care face parte din proiectul IBM Research SystemT, a fost prezentată recent la Conferința SIGNLL din 2018 privind învățarea computerizată a limbilor naturale, iar modelul chinezesc pregătiți este disponibil cercetătorilor pentru a-l folosi ca resursă în construirea chatbot-urilor, aplicații de mesagerie, verificatori ortografici și orice alte aplicații relevante.