Slovenščina je v svetu samodejne razpoznave govora majhen jezik. Globalni ponudniki jo bodisi ne podpirajo bodisi jo obdelujejo z modelom, ki je bil učen na zelo majhni količini posnetkov, pogosto zunaj slovenskega govornega okolja. Razlika med dobrim in slabim prepisom je v praksi razlika med uporabnim dokumentom in besedilom, ki ga je hitreje napisati znova.
V tem članku primerjamo šest rešitev, ki jih slovenski uporabniki danes najpogosteje preverjajo: Truebar, OpenAI Whisper, Otter.ai, Google Cloud Speech-to-Text, Microsoft Azure Speech in Trint. Vsako ocenjujemo po štirih kriterijih: točnost v slovenščini, podpora strokovnemu besedišču, varnost in suverenost podatkov ter cenovni model.
Kako smo merili
Ko ocenjujemo ASR sistem za slovenščino, ni dovolj pogledati le splošno stopnjo napak v besedah (WER). Pomembno je, kako sistem ravna z naslednjim:
- redko besedišče (medicinski izrazi, pravni izrazi, lastna imena slovenskih krajev in podjetij)
- več govorcev v istem posnetku (diarizacija)
- spontani govor s premori, prekinitvami, vmesnimi vprašanji
- ločila, velika začetnica, številke in datumi v zapisu
- možnost prilagajanja modela na domeno (npr. besedišče bolnišnice)
Naslednja primerjava obravnava prav te razsežnosti, ne le marketinških trditev.
Truebar
Truebar je edina rešitev na seznamu, ki je bila zasnovana primarno za slovenščino. Modele ASR razvijamo v Vitasisu že desetletje, učili smo jih na tisočih ur slovenskih posnetkov iz različnih govornih situacij: parlamentarne razprave, klinična narekovanja, novinarski intervjuji, klicni centri. To se pozna pri obravnavi narečij, hitrega govora in strokovnega besedišča.
Truebar podpira transkripcijo (paketno in v živo), diarizacijo govorcev, narekovanje za zdravstvo in pravo, samodejne podnapise, prevajanje v živo ter sintezo govora. Vse storitve so dostopne tudi prek API-ja.
Podatki tečejo po infrastrukturi v Sloveniji oziroma v EU, na voljo je tudi namestitev v okolju stranke (on-premise). To je razlog, zakaj Truebar uporabljajo Državni zbor, Splošna bolnišnica Franca Derganca Nova Gorica, Telekom Slovenije v platformi NEO in Pošta Slovenije.
Cenik je transparenten in temelji na obsegu uporabe; za večje organizacije sklenemo letno pogodbo s prilagojenim modelom.
OpenAI Whisper
Whisper je odprtokodni večjezični model, ki ga je objavil OpenAI. V različici large-v3 podpira tudi slovenščino in je za marsikoga prva izbira, ker je brezplačen in se ga da namestiti lokalno.
V praksi pa Whisper zna slovenščino bistveno slabše kot angleščino, predvsem zato, ker je bil učen pretežno na angleških posnetkih. Za splošen, počasen, dobro posnet govor da spodobne rezultate. Slabše obvlada strokovno besedišče, lastna imena slovenskih krajev in oseb, redke besede ter slabše posnete telefonske klice. Diarizacija ni vključena, treba jo je dodati ločeno (npr. s pyannote.audio).
Whisper je dober za eksperimente in za razvijalce, ki ga znajo postaviti, prilagoditi in vzdrževati. Za poslovno rabo, kjer šteje točnost in odgovornost za rezultat, je tveganje pogosto preveliko.
Otter.ai
Otter.ai je priljubljeno orodje za zapis sestankov v ZDA. Uradno podpira angleščino, francoščino in španščino. Slovenščine ne podpira. Posnetek v slovenščini bo Otter.ai bodisi zavrnil bodisi poskusil dekodirati kot angleščino, kar pomeni neuporaben rezultat.
Za slovenske ekipe Otter.ai zato ni resna možnost, razen v okoljih, kjer so sestanki dejansko v angleščini.
Google Cloud Speech-to-Text
Google Cloud uradno podpira slovenščino prek modelov latest_long in latest_short. Točnost je za splošen govor sprejemljiva, vendar bistveno odstopa od angleščine. Strokovno besedišče zahteva dodaten napor: prek t. i. SpeechAdaptation lahko model usmerimo na specifične izraze, vendar prilagoditev v slovenščini ne dosega ravni, ki bi jo pričakovali od domenskega ASR.
Diarizacija je na voljo, kakovost pa v slovenščini niha. Hosting je možen v evropskih regijah. Cenik temelji na sekundah obdelanega zvoka in lahko pri večjih obsegih hitro naraste.
Google je smiselna izbira, kadar organizacija že uporablja Google Cloud kot platformo in slovenščina ni primarni jezik prepisa.
Microsoft Azure Speech
Azure Speech podpira slovenščino in v primerjavi z Googlom ponuja bolj razdelan sistem prilagajanja modela (Custom Speech). To pomeni, da je za organizacijo, ki je pripravljena vložiti delo v zbiranje učnih posnetkov, mogoče doseči boljše rezultate kot pri generičnem modelu.
Diarizacija je na voljo, prav tako prepis v živo. Podatki ostanejo v izbrani Azure regiji, na voljo so tudi evropske. Cenik je primerljiv z Googlom, pri zakupu rezervirane zmogljivosti ugodnejši.
Pomanjkljivost je enaka kot pri Googlu: model je generičen in v slovenščini ne pozna domenskega besedišča v primerjavi s sistemi, ki so bili razviti za ta jezik.
Trint
Trint je britanska platforma, prepoznavna med novinarji in medijskimi hišami. Uradno podpira več kot trideset jezikov, slovenščine med njimi ni. Posamezne slovenske posnetke bo platforma poskusila obravnavati prek splošnega večjezičnega modela, kakovost pa ne dosega ravni jezikov, ki so uradno podprti.
Za slovenske medijske hiše je Trint zato uporaben le, kadar se prepisuje vsebine v angleščini ali drugih večjih jezikih.
Kako izbrati
Izbira je v praksi odvisna od dveh vprašanj.
Prvo: ali je slovenščina vaš primarni jezik prepisa? Če je, je smiselno izbrati rešitev, ki je bila zasnovana zanj. Generični modeli z dobro splošno arhitekturo nadomestijo specializacijo redko in nikoli povsem.
Drugo: kako pomembna je suverenost podatkov? Za javne ustanove, zdravstvo, pravo in finance je odgovor jasen — podatki morajo ostati v EU oziroma znotraj države. To izloči večino ameriških ponudnikov in pri Googlu ter Azuru zahteva pazljivo nastavitev regije in pogodbenih klavzul.
Če sta odgovora "da" in "pomembna je", je Truebar najbližje pričakovanjem. Če gre za priložnostno, splošno rabo brez specifičnih zahtev, sta Google ali Azure spodobni izbiri. Whisper je smiseln le, kadar imate inženirske vire za njegovo postavitev in prilagajanje.
Če bi radi videli, kako Truebar deluje na vaših posnetkih, stopite v stik — naredimo testni prepis vzorca in vam vrnemo rezultat, ki ga lahko sami primerjate z drugimi.