ASTRA ("Automatinis šnekos transkribavimas tekstu") | Naujasis knygnešys

ASTRA ("Automatinis šnekos transkribavimas tekstu")

5
Lankytojų simpatijos
Sprendimo kūrėjas: VšĮ Vytauto Didžiojo universitetas


Kur galima rasti sprendimą: https://www.semantika.lt/ ; https://www.semantika.lt/Analysis/Transcriber ; https://www.semantika.lt/ ; https://www.semantika.lt/Analysis/Transcriber

Kodėl?

ASTRA sprendžia tris pagrindines problemas: 1. Lietuviško elektroninio teksto ir duomenų gavybos iš garso įrašo (fonogramos) proceso automatizavimas. Eksponentiškai didėja kiekis duomenų, kaupiamų garso įrašų - fonogramų - formatu (posėdžių įrašai, skambučių centrų klientų aptarnavimo medžiaga, apklausos, žurnalistų imami interviu, chirurginių operacijų protokolai, teismo posėdžių įrašai ir t.t.). Pavyzdžiui, bendrojo pagalbos centro 2019 metų bendra pokalbių įrašų trukmė siekė 35 500 valandų, sprendimo kūrėjų atliktos apklausos rezultatai rodo, kad per 2020 m. du mėnesius advokatų kontoros sukaupė vidutiniškai po 100 val. teismo posėdžių fonogramų. Garso įrašas yra efektyvus ir žmogui priimtinas būdas generuoti veiklos turinį (pavyzdžiui, chirurginės operacijos protokolas, paciento apžiūros protokolas, bendravimas su klientu, interviu ėmimas), bet fonogramos perrašymas tekstu rankiniu būdu yra daug laiko reikalaujantis, varginantis, rutininis darbas. Vienos valandos fonogramos perrašymui tekstu reikia vidutiniškai trijų valandų rankinio darbo. Kokybiškas automatizuotas sprendimas tą padaro per kelias minutes. Tai leidžia mažinti veiklos kaštus, efektyvinti veiklą, paspartinamas sprendimų priėmimo procesas, efektyviai parengti medžiagą tolesnei automatinei analizei. 2. Žmonių su negalia įtraukimas. Žmogui dėl įvairių sveikatos sutrikimų gali būti problemiška rašyti. Todėl mūsų sprendimo pagalba pakanka, kad tai, ką jis nori išdėstyti raštu, žmogus įrašo kaip garso failą, o likusį darbą už jį atlieka mašina, paversdama garsą sklandžiu tekstu, nes mūsų sprendimas atpažintą tekstą papildomai apdoroja, suskaidydamas jį į sakinius. Mūsų sprendimas, greta teksto, sukuria ir tarptauitnius standartus atitinkantį subtitravimui skirtą failą, todėl galima operatyviai subtitruoti vaizdo įrašus, jei juos stebi klausos negalią turintys žmonės. 3. Priemonės inovacijų vystymui. Lietuvoje gausėja inovatyvių startuolių, gebančių ir norinčių kurti inovacijas (produktus ir paslaugas) kalbos technologijų ir Dirbtinio intelekto srityje, įgalinant visavertę sąsają žmogus-mašina. Tačiau lietuvių kalba yra sudėtinga, nekomercinė. Jai skirtų kokybiškų priemonių, leidžiančių kokybiškai atpažinti lietuvių šneką vis dar trūksta, o būtent šis pradinis etapas (kurį galima pavadinti „žaliavos“ gamybos etapu, kai žmogaus šnekos įrašas paverčiamas kompiuteriu analizuotinu tekstu), yra esminis, lemiantis kuriamos inovatyvios paslaugos kokybę srityse, kurios neatsiejamos nuo žmogaus kalbos (teisė, medicina, viešasis sektorius ir t.t.). Sukurti kokybišką atpažintuvą užima daug laiko, reikalauja nemažai lėšų ir reikia turėti kompetentingą personalą. Mūsų sprendimą inovatyvių paslaugų kūrėjai gali naudoti sąsaja mašina-mašina arba jį diegti savo sistemose. Tai leidžia jiems taupyti laiką, kaštus ir sutelkti dėmesį į konkretaus taikymo inovacijos kūrimą/vystymą (pvz.: teismo posėdžio fonogramos transkripcijos automatinę analizę, vystant virtualaus teisininko paslaugą).

Kaip?

Mūsų sprendimas lietuvių šnekos įrašo failą (fonogramą) automatiškai transkribuoja (perrašo) lietuvių kalbos tekstu ir vartotojui grąžina tris rezultatus (failus): 1) sintaksiškai ir gramatiškai sutvarkytą fonogramos transkripciją, kurioje tekstas suskaidytas pagal kalbėtojus (jei yra keli kalbėtojai); 2) sinchronizacijos failą, kuri leidžia vartotojui transkripciją patogiai redaguoti mūsų parengtame transkripcijų redaktoriuje; 3) tarptautinius standartus atitinkančią subtitravimo failą, kurios pagalba galima sutitruoti vaizdo įrašą, kurio garso takelis buvo transkribuotas mūsų sprendimu. Sprendimas gali transkribuoti neribotos apimties, laisvai formuluojamos lietuvių kalbos fonogramas. Internete pateikta paslaugos versija, teikiama per vartotojo grafinę sąsają, dėl įvairių priežasčių priima ribotos apimties rinkmenas. Vartotojas, norintis apdoroti neribotus duomenų masyvus ir/arba norintis apsaugoti fonogramose esančias tarnybines paslaptis/jautrius duomenis (pvz.: advokatų kontoros, sveikatos priežiūros įstaigos), mūsų sprendimą gali patogiai įsidiegti ir nemokamai naudoti savo įmonės/organizacijos informacinėje sistemoje.
Kuriant šnekos atpažinimo ir tranksribavimo tekstu sprendimą, buvo išspręsta daug MTEP uždavinių iš kurių svarbiausi yra šie: 1) buvo ištirti ir sudaryti HMM (Paslėpti Markovo modeliai), TDNN (angl. Time-Delay Neural Network), BLSTM (Rekurentinių neuroninių tinklų modifikacija angl. Bidirectional Long Short Term Memory), CNN (Sąsūkio neuroninis tinklas angl. Convolutional Neural Network) tipo lietuvių kalbos akustiniai modeliai ir pasirinktas modelis leidžia pasiekti didžiausią šnekos atpažinimo tikslumą; 2) buvo ištirtos ir sudarytos įvairios dekoderio architektūros, įskaitant “end-to-end” principu veikiančią dirbtinių neuroninių tinklų ir hibridinę dirbtinių neuroninių tinklų – paslėptų Markovo modelių architektūras; 3) buvo sukurtas ir sukonstruotas specializuotas konverteris, atsižvelgiantis į lietuvių kalbos kirčiavimo dėsningumus; 4) buvo sukurtas ir sukonstruotas nuosavas VAD (šnekos įvykio aptikimas (angl. voice activity detection)) metodas, garso įraše atpažįstantis dviejų tipų segmentus (tyla/šneka); 5) buvo sukurtas ir sukonstruotas rašytinės kalbos normalizavimo sprendimas, kuriuo siekiama priartinti rašytinę kalbą prie šnekamosios kalbos stiliaus (transkripcijos normalizavimo etapas prieš pateikiant ją vartotojui); 6) buvo sukurta metodologija, leidžianti greitai ir efektyviai rinkti audio resursus – balso pavyzdžius ir juos tinkamai anotuoti, automatiškai atpažinti netiksliai ekspertų anotuotus įrašus ir juos eliminuoti iš akustinio modelio mokymo proceso – taip sumažinant duomenų triukšmą ir padidinant akustinio modelio tikslumą; 7) pradinis sprendimo variante naudojamas lietuvių kalbos modelis atpažino 1,5 mln. žodžių formų, bet žodynas nuolat pildomas. Aprašytų technologinių sprendimų dėka pavyko pasiekti aukštą tikslumą, aukštą kokybę ir vartotojo poreikius tenkinančią sprendimo greitaveiką.

Kuo išskirtinis?

ATRA sprendimo išskirtinumai:
1. Kokybė. Sprendimą rengė ilgametę patirtį turinti informatikų ir kalbininkų komanda. Todėl mūsų sprendimas šiuo metu yra vienas iš kokybiškiausių (auščiausią tikslumą turinčių) lietuvių kalbos šneką transkribuojantis kokybišku lietuvišku tekstu sprendimų.
2. Skirta apdoroti neribotos apimties laisvai formuluojamą lietuvių šneką bendrinės, medicinos ir teisinės kalbos srityse. Tuo skiriasi nuo diktavimo sprendimų, kurie orientuoti į trumpų frazių atpažinimą.
3. Prieš pateikiant tranksribuotą tekstą vartotojui, jis papildomai sutvarkomas, panaudojant specialiai tam sukurtą lietuvių kalbos modelį. Todėl vartotojui pateikiamas tekstas yra gramatiškai sutvarkytas ir suskaidytas į semantiškai bei struktūriškai prasmingus vienetus (sakinius). T.y., vartotojui pateikiamas sutvarkytas lietuviškas tekstas.
4. Vartotojui pateikiamas patogus, nemokamas transkripcijų redaktorius, kuris leidžia patogiai redaguoti transkripciją, reikalui esant išklausant tik vartotojui abejones sukėlusią fonogramos vietą. Tai ypač patogu redaguojant ilgos fonogramos transkripciją.
5. Sprendimas ir jo visos jo teikiamos paslaugos yra nemokamos (per vartotojo grafinę sąsają, sąsaja mažina-mažina, transkripcijų redaktorius, vartotojo sistemoje diegiamas arba kuriamoje paslaugoje panaudojamas sprendimo programinis kodas).
6. Technologinis sprendimas patalpintas tarptautinius standartus atitinkančiuose Docker konteineriuose. Tai leidžia technologinį sprendimo variantą patogiai diegti ir panaudoti savo sistemose ir/arba naujai kuriamose paslaugose. Sprendimas veikia tinklo paslaugos (web service) principu, todėl lengvai integruojamas į bet kokią sistemą bei gali veikti cloud ready sistemoje.

Video nuoroda: https://www.youtube.com/watch?v=MfRcnTpvHsA&t=190s

1 2 3 4 5   Įvertinimas
*Norėdami balsuoti per Facebook prieigą
*Jūs jau balsavote už šį projektą
  • http://graph.facebook.com/10206585356854915/picture