A-Ö Efnisyfirlit

Gervigreind: íslenskan í betri stöðu en milljóna-mál

Frá Íslendingasögum til gervigreindar.
Frá Íslendingasögum til gervigreindar. Myndir:​ Prompt by JPxG, model by Boris Dayma, upscaler by Xintao Wang, Liangbin Xie et al/WikimediaCommons

Alþjóðlegi móðurmálsdagurinn. Tungumál. Gervigreind getur haft mikil áhrif á þróun lítilla tungumála – til góðs eða ills. Málvísindamenn og baráttufólk fyrir stafrænum réttindum hafa sífellt þyngri áhyggjur af því að tungumálum í útrýmingarhættu kunni að fjölga ef þeirra nýtur ekki við innan gervigreindarinnar. 21. febrúar er alþjóðlegi móðurmálsdagurinn.

Eitt tungumál hverfur á tveggja vikna fresti í heiminum. Með því hverfur menningarlegur og vitsmunalegur arfur í heilu lagi. UNESCO, Mennta-, vísinda- og menningarstofnun Sameinuðu þjóðanna, telur að alls séu til 8 324 tungumál töluð eða á táknmáli. Af þeim eru 7 000 enn í notkun. Helmingur þeirra er talinn í útrýmingarhættu.

. Mynd: Steve
Gervigreind. Mynd: Steve Johnson/Unsplash.

Gera má ráð fyrir að til sé ákveðin „rauð lína“ þar sem skilur á milli feigs og ófeigs og ákvarðar hvort gervigreind kemur tungumálunum til góða eða þvert á móti grefur undan þeim.

Rauð lína

Vilhjálmur Þorsteinsson. Mynd: Miðeind.
Vilhjálmur Þorsteinsson. Mynd: Miðeind.

Athafnamaðurinn Vilhjálmur Þorsteinsson stofnaði fyrirtækið Miðeind fyrir tíu árum með það að markmiði „að tryggja að íslenska standi jafnfætis stærri tungumálum í tækni og gervigreind.” Vilhjálmur tekur undir að það sé einhvers konar rauð lína sem ráði hvort gervigreind komi að gagni.

„Ef tungumál einhvern veginn komast yfir þessa rauðu línu, þá er hægt að búa til þessi tól og þá getum við komist í jákvæða spíral, en ef tungumálin einhvern veginn ná ekki yfir þessa rauðu línu, þá einmitt er hætta á því að þróunin verði frekar í hnignunarátt.”

Eitt af því sem hér ræður úrslitum er hversu mikið magn stafrænna gagna er til á hverju tungumáli eða „þjálfunargögn“ fyrir gervigreindina.

„Ísland er að mörgu leyti vel sett miðað við þessa frægu höfðatölu,” segir Vilhjálmur. „Svo við tökum dæmi erum við með mjög góða Wikipediu á íslensku og þrátt fyrir allt hafa verið starfandi veffjölmiðlar lengi þannig að það er búið að vera að skrifa mikið efni á vefinn.”

Enn má nefna að stjórnvöld hafa haldið úti verkefnum í máltækni. Loks minnir Vilhjálmur á að barið hafi verið að dyrum hjá Open AI á mikilvægu augnabliki áður en ChatGPT varð að veruleika, en forseti Íslands og íslensk sendinefnd gengu á fund fyrirtækisins í maí 2022.

Guterres ávarpar gervigreindarþing í Nýju Dehli.
Guterres ávarpar gervigreindarþing í Nýju Dehli. Mynd:UN Photo/Ishan Tankha

Gervigreindarþing í Nýju Delhi

Vandi lítilla tungumála andspænis gervigreind eru á meðal málefna sem krufin hafa verið til mergjar á leiðtogafundi um gervigreind sem staðið hefur yfir í Nýju Delhi, höfuðborg Indlands, 16–20 febrúar. Í ræðu sinni á fundinum lagði António Guterres aðalframkvæmdastjóri Sameinuðu þjóðanna áherslu á að „framtíð gervigreindar mætti ekki vera í höndum örfárra ríkja og örfárra auðkýfinga. Gervigreind ber að vera öllum aðgengileg.”

Á fundinum hafa verið látnar í ljós áhyggjur af því að færri en sjö þúsund tungumál heims njóti þjónustu gervigreindar. Hún er að mestu þjálfuð á ensku og í þágu ensku og nokkurra annarra tungumála.

Sama-fáni.
Sama-fáni. Mynd: norden.org

Mikið af stafrænum gögnum

Net-fótspor tungumála skiptir sköpum þegar gervigreind er annars vegar og kann hugsanlega að ráða úrslitum um hvort þau lifi eða deyi drottni sínum. Hvað íslenskuna varðar er mikið af stafrænum gögnum auk opinbers stuðnings við máltækni. Vilhjálmur telur að nútímatæknii muni koma þeim tungumálum til góða sem eru réttu megin rauðu línunnar, en kunni að grafa undan þeim sem ekki ná yfir línuna.

„Hættan er sú að samíska og grænlenska komist ekki yfir línuna því það er úr svo litlu gagnamagni að spila,“ segir Vilhjálmur.

Alþjóðlegi fjölskyldudagurinn.
Börn að leik í Nuuk á Grænlandi. Mynd: Mads Schmidt Rasmussen / norden.org

Milljónatungur í hættu

Tilvist tungumála á netinu og í stafrænu formi skiptir miklu máli um notkun þeirra í gervigreind. Slíkt getur aftur skilið á milli lífs og dauða mála. Aðeins nokkur hundruð tungumál eru notuð svo nokkru nemi á netinu og færri en eitt hundrað hafa haslað sér völl svo nokkru nemi innan gervigreindar.

Brúðkaup á Java. Jafnvel javanska sem töluð er af 80 milljónum manna hefur tiltölulega lítið stafrænt fótspor
Brúðkaup á Java. Jafnvel javanska sem töluð er af 80 milljónum manna hefur tiltölulega lítið stafrænt fótspor

Hér er ekki aðeins um að ræða lítil tungumál á borð við samísku eða grænlensku, heldur tungumál sem töluð eru af tugum milljóna manna. Dæmi um tungumál sem eru berskjölduð, sökum lítils stafræns gagnamagns, eru afrísku tungumálin oromo (35-40 milljónir manna), igbo (30 milljónir) og hausa (50+ milljónir). Sama er upp á teningnum í Asíu þar sem javanska (80+ milljónir), bhojpuri (50+ milljónir), sundanska (40 milljónir) og pastó (40–50 milljónir).

Ef stafrænum gögnum er ekki til að dreifa koma þær ekki að notum við þjálfun gervigreindar.
Ef stafrænum gögnum er ekki til að dreifa koma þær ekki að notum við þjálfun gervigreindar. Mynd: : Anita Miruškina / norden.lv

Hætta á að fólk leiti á náðir annarra mála

Þegar tungumál eru ekki til staðar í gervigreindartólum (þýðingakerfum, raddstýrðum aðstoðarmönnum, leitarvélum, menntaforritum o.s.frv.) geta þeir sem tala erlend tungumál leitað á náðir „stafrænt öflugri“ tungumála af efnahagslegum og félagslegum ástæðum. Með tímanum getur þetta hraðað hnignun tungumála. Vilhjálmur Þorsteinsson var vel meðvitaður um þess hættu þegar hann stofnaði fyrirtæki sitt fyrir áratug.

„Það var náttúrulega alltaf sú hætta að fólk færi hreinlega að freistast til þess að skipta yfir í ensku til þess að geta nýtt sér þessi tól. Fyrirtæki voru farin að sjá hag í því að hafa viðskiptaferlana á ensku til þess að geta nýtt sér þessa tækni. Við sáum ákveðið tækifæri og þörf til að reyna að gera eitthvað í þessu og styrkja stöðu íslenskunnar í þessu sambandi. Sem betur fer var búið að vinna töluverða undirbúningsvinnu og safna stafrænum gögnum. Þegar tæknin er orðin nógu góð og fer að virka fyrir íslensku, þá getur þetta styrkt tungumálið.”

Morgunblaðið.
Morgunblaðið. Mynd: Eivind Sætre/norden.org

Það eru ekki aðeins fyrirtæki sem hagnast á máltækni og gervigreindarlausnum heldur einnig ýmsir hópar sem eiga í erfiðleikum með málið af mismunandi ástæðum. Þar á meðal lesblindir og fólk sem hefur íslensku að öðru tungumáli. „Þetta getur unnið gegn fordómum,“ segir Vilhjálmur.

Alþjóðlegi móðurmálsdagurinn er haldinn 21. febrúar árlega til að efla tungumálalega- og menningarlega fjölbreytni og fjöltungustefnu í heiminum. Sjá nánar hér og hér.