Pretvorba govora v besedilo, krajše ASR (angl. automatic speech recognition), je v zadnjih nekaj letih iz akademske teme prerasla v vsakdanje orodje. Z njim si pomagajo zdravniki pri narekovanju izvidov, novinarji pri prepisovanju intervjujev, sodišča pri prepisu obravnav in podjetja pri analizi klicev. Za uporabnike v slovenskem jeziku pa rezultati niso vedno tako gladki, kot obljubljajo svetovni ponudniki. Razlog je preprost: slovenščina je za samodejne sisteme bistveno težja od angleščine, in modeli, ki so naučeni globalno, to težko nadoknadijo. V tem članku pojasnjujemo, kako sodobna razpoznava govora deluje, zakaj je za slovenščino smiselno uporabiti namensko zgrajen sistem in kako se to pozna v praksi.

Kaj je razpoznava govora in zakaj je slovenščina poseben primer

Sistem ASR pretvori zvočni signal v zapisano besedilo. V grobem to počne v dveh fazah. Najprej akustični model iz zvočnega vala razbere zaporedje glasov in zlogov; nato jezikovni model te glasovne enote zlepi v smiselne besede in stavke. Sodobni modeli (na osnovi transformerjev in samouček arhitektur, kot so Conformer in Whisper) obe fazi pogosto opravita v enem koraku, vendar logika ostane enaka: brez dobrega jezikovnega znanja niti najbolj natančen akustični model ne bo dal zanesljivega prepisa.

Slovenščina ima nekaj jezikovnih lastnosti, ki sistemom otežujejo delo:

Sklanjanje in spreganje — ena beseda ima lahko deset in več oblik. Generičen model, naučen na angleščini, te variabilnosti pogosto ne pokriva.
Dvojina — slovnična kategorija, ki je v drugih indoevropskih jezikih skoraj ni. Generični modeli "dvojino" pogosto interpretirajo kot napako in jo zgladijo v množino.
Narečna in regijska variabilnost — od dolenjskega do prekmurskega narečja so razlike v izgovorjavi izrazite.
Velika morfološka gostota — ker je veliko informacij zapisanih v končnicah, je vsaka napaka v koncu besede pogosto napaka v pomenu.
Stik z angleščino in tujimi imeni — strokovna besedila so polna prevzetih besed in tujih lastnih imen.

Globalni ponudniki govornih API-jev (Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech) slovenščino sicer podpirajo, vendar gre praviloma za stransko podporo: enak temeljni model za desetine jezikov, dotrenirani na razmeroma majhnih količinah slovenskih podatkov. Pri pogovornem in narečnem gradivu se to opazi v napakah pri sklonih, pri imenih krajev in pri strokovnem izrazoslovju.

Splošna težava globalnih sistemov ni le natančnost — težava je tudi v tem, da napake niso enakomerno porazdeljene. Najpogosteje odpovedo prav tam, kjer je natančnost najpomembnejša: pri lastnih imenih, številkah, strokovnem besedišču in pravnih ali medicinskih izrazih. Splošen prepis splošnega pogovora deluje sprejemljivo, prepis specialističnega srečanja pa hitro postane neuporaben.

Zakaj namenski slovenski modeli prinašajo boljše rezultate

Pri Vitasisu smo Truebar od začetka leta 2016 gradili kot govorno tehnologijo, optimizirano za slovenščino. To pomeni, da akustični in jezikovni modeli niso le dotreniran tuji sistem, temveč so naučeni na obsežnih slovenskih korpusih — od parlamentarnih dobesednih zapisnikov, prek zdravstvene in pravne dokumentacije, do narečnih posnetkov. Rezultat je v neodvisnih preizkusih dosledno višja natančnost na slovenskem zvoku v primerjavi s svetovnimi cloud API-ji.

Slovenske posebnosti se obravnavajo neposredno: model pozna dvojino kot legitimno slovnično kategorijo, prepoznava običajne narečne realizacije in pri sklanjanju ne zgladi končnic v "varne", a napačne oblike. Pri specifičnih domenah — medicini, pravu, parlamentarni razpravi, finančnih storitvah — uporabljamo namenske slovarje, ki vsebujejo strokovno izrazoslovje, lastna imena institucij in pogoste izraze posameznega področja.

Praktične rabe v Sloveniji

Razpoznava govora v slovenskem okolju trenutno najhitreje raste v štirih panogah.

Zdravstvo. Zdravniki narekujejo izvide neposredno v bolnišnični informacijski sistem in s tem zmanjšajo administrativno breme. Truebar v tem segmentu uporablja med drugim Splošna bolnišnica Franca Derganca Nova Gorica. Več o pristopu in možnostih integracije je opisano na strani Zdravstvo.

Sodstvo. Prepis obravnav v realnem času s podnaslavljanjem se preverja v 19 slovenskih sodnih dvoranah, kjer naš sistem TB-Podnaslavljalnik pomaga pri dokumentiranju in dostopnosti. Podrobnosti so na strani Sodstvo.

Mediji in radiodifuzija. Televizijske hiše uporabljajo samodejno podnaslavljanje za dostopnost vsebin gluhim in naglušnim gledalcem ter za hitrejšo arhivsko obdelavo. Več najdete v razdelku Mediji.

Podjetja. Klicni centri, banke in zavarovalnice prepisujejo klice za nadzor kakovosti, analitiko in usposabljanje agentov. Pošta Slovenije uporablja Truebar v podlagi za pogovornega agenta Pio. Telekom Slovenije našo tehnologijo vključuje v storitveno platformo NEO. Več v razdelku Podjetja.

Posebno mesto med uporabniki ima slovenski parlament: Državni zbor Truebar uporablja pri pripravi dobesednih zapisnikov sej. Gradivo, ki nastaja v takem okolju, je hkrati največji zagon razvoja — slovenski parlamentarni jezik je formalno bogat, terminološko širok in akustično raznolik, vse to pa neposredno prispeva k splošni kakovosti slovenskih jezikovnih modelov.

Kaj dobro orodje za slovenščino mora znati

Pri ocenjevanju razpoznave govora se pogosto preveč pozornosti nameni le surovi natančnosti besed (WER — word error rate). V resnici je v vsakdanji rabi pomembnih še več lastnosti:

Samodejna ločila in velike začetnice. Brez njih je dolg prepis težko berljiv. Truebar oboje doda samodejno.
Inverzna tekstovna normalizacija števil, datumov in valut: namesto "tristo evrov" se v prepisu pojavi "300 EUR".
Diarizacija govorcev — samodejno ločevanje, kdo je v posnetku govoril, ki ga podrobneje obravnavamo na strani Diarizacija.
Časovne oznake na ravni besed, ki omogočajo iskanje po posnetku in usklajevanje z videom.
Lasten besednjak — možnost dodajanja strokovnih izrazov, kratic in lastnih imen, ki jih splošen model ne pozna.
Sub-sekundna latenca za rabo v živo (podnaslavljanje, narekovanje).
Izvozi v formate, ki jih dejansko potrebujete: DOCX za uredništva, SRT/VTT za podnapise, JSON za razvijalce, PDF za poročila.

Načini uporabe in integracije

Truebar je danes na voljo v treh oblikah, ki pokrivajo različne uporabnike.

Spletna aplikacija TB-Urejevalnik. Naložite zvočno ali video datoteko, počakate na prepis in besedilo dokončno uredite v brskalniku. Primerno za novinarje, raziskovalce, študente in vse, ki občasno potrebujejo prepis. Več o aplikaciji najdete v razdelku Transkripcija.

Namizna aplikacija TB-Narekovalnik. Diktirate neposredno v poljubno besedilno polje na vašem računalniku — v elektronsko pošto, urejevalnik, bolnišnični sistem. Aplikacija je opisana v razdelku Narekovanje.

TB-API. REST in WebSocket vmesnika za razvijalce, ki želijo razpoznavo govora vgraditi v lasten produkt. Podpira tako paketno obdelavo datotek kot pretočno (streaming) razpoznavo v realnem času. Tehnične podrobnosti so opisane v razdelku API.

Za organizacije, kjer občutljivost podatkov ne dopušča oblačne storitve, Truebar ponuja namestitev pri stranki (on-premise), pri kateri zvok in prepis nikoli ne zapustita lokalne infrastrukture. To je pogosta izbira v zdravstvu, sodstvu in javni upravi.

Med dodatne zmogljivosti, ki dopolnjujejo razpoznavo govora, sodijo še sinteza govora (TTS) za naravno zvenečo slovensko sintezo glasu, ter prevajanje v realnem času v več kot 30 jezikov. Vse to teče v okviru ene platforme, kar pomeni, da podjetju ali ustanovi ni treba integrirati več neodvisnih ponudnikov govornih storitev.

Pogosta vprašanja

Koliko stane uporaba Truebara?

Na voljo so štirje plačilni razredi, od brezplačnega Osnovnega paketa (60 minut prepisa mesečno) do paketa Pro (900 minut prepisa, transkripcija v živo in prevajanje) in poslovne naročnine z neomejenimi uporabniki, lastnimi modeli ter namestitvijo na lokaciji. Aktualne cene in primerjavo paketov si oglejte na strani Cenik.

Ali Truebar deluje za slovenska narečja?

Da, akustični modeli so naučeni tudi na narečnem gradivu, zato sistem v večini primerov pravilno prepozna pogovorno in narečno govorjenje. Pri močnih lokalnih različicah ali pri izrazito mešanih govorcih natančnost pričakovano upade; v takih primerih priporočamo prilagoditev modela z dodatnimi posnetki.

Kako natančna je razpoznava?

Pri jasno posnetem studijskem ali poslovnem zvoku v slovenščini Truebar dosega natančnost, primerljivo s človeškim prepisovalcem. Pri zahtevnem terenskem zvoku, hrupnih konferencah ali velikem številu istočasnih govorcev se natančnost zniža. Konkreten odstotek je odvisen od domene in kakovosti zvoka — za zaupanja vredno oceno priporočamo pilotni preizkus na vašem gradivu.

Ali so podatki varni?

Truebar je skladen z GDPR in usklajen s standardom ISO 27001. Vsa obdelava v oblačni različici poteka v Sloveniji oziroma znotraj EU. Za organizacije s strožjimi zahtevami je na voljo namestitev na lokaciji stranke. Vaših podatkov ne uporabljamo za splošno učenje modelov brez izrecnega soglasja.

Ali Truebar prepoznava strokovno izrazoslovje?

Da. Imamo namenske modele za medicino, pravo, parlamentarne razprave, finance in medije. Za posamezne organizacije lahko model dodatno prilagodimo: dodamo lastna imena, kratice in pogosto rabljene izraze v vaši domeni.

Lahko Truebar uporabljam v živo, ne le na posnetkih?

Da. Pretočna razpoznava (streaming ASR) deluje s sub-sekundno latenco in se uporablja v podnaslavljanju, narekovanju, prevajanju v živo in pogovornih agentih.

Kateri formati so podprti?

Vhodno: WAV, MP3, MP4, WebM, FLAC, OGG, AAC, M4A in večina običajnih zvočnih oziroma video formatov. Izhodno: TXT, DOCX, PDF, SRT, VTT in JSON z besednimi časovnimi oznakami. Za pretočno rabo prek WebSocketa priporočena vzorčna frekvenca je 16 kHz, podprt pa je razpon od 8 kHz (telefonske linije) do 48 kHz (studijski zajem).

Ali Truebar zna prevajati hkrati s prepisovanjem?

Da. Truebar je celovita platforma, ki poleg razpoznave govora vključuje tudi sintezo govora in prevajanje v realnem času. To v praksi pomeni, da lahko en sistem hkrati prepiše slovenski govor in ga sproti prevede, recimo v angleščino ali nemščino za udeležence dogodka, ki ne razumejo slovensko.

Začnite z lastnim preizkusom

Najhitreje boste občutek za delovanje dobili tako, da Truebar preizkusite na lastnem gradivu. Aktualne pakete in možnosti najdete na strani Cenik; za večje organizacije, integracije ali namestitev na lokaciji vas vabimo, da nas kontaktirate prek obrazca za stik. Pripravimo vam pilotni preizkus na vašem zvoku in pokažemo, kakšne rezultate lahko pričakujete v vašem okolju.