Vajaminev dokumentatsioon mudelite treenimisel

Nagu ka varasemates artiklites oleme rõhutanud, siis üheks olulisemaks võtmeteemaks määruses on läbipaistvuse ja seekaudu ka mudelite turvalisuse tagamine. Kõige laiemad kohustused langevad tehisaru loojatele, kuid kohustusi rakendub ka tehistaibu kasutusele võtjatele. Seejuures ei oma tähtsust, kas mudeli taga olev ettevõte asub Euroopa Liidus või mitte.

Kõrge riskiga tehisaru süsteemide pakkujad on kohustatud looma põhjaliku tehnilise dokumentatsiooni ning ka seda järjepidevalt vastavalt vajadusele uuendama. Dokumentatsioonis on kohustuslik kajastada riske, meetmeid nende maandamiseks ning kirjeldada tehisintellekti mudeli loomise arendusprotsessi. Näiteks kui leitakse, et tehisintellekti süsteemil on kalduvus mõnes demograafilises rühmas teatud haigust sagedamini valesti diagnoosida, tuleb see probleem põhjalikult dokumenteerida. Dokumentatsioon peaks sisaldama ka selle riski käsitlemiseks ja vähendamiseks rakendatavaid parandusmeetmeid, mis tagaksid süsteemi töökindluse ja õiglasemaks muutumise.

Üldotstarbeliste tehistaipude ehk selliste mudelite puhul, mis teevad suure mõjuga otsuseid või millel on märkimisväärne turuosa, tuleb kirjeldada põhjalikult kõiki andmeid, mida on kasutatud mudeli treenimisel. Üldotstarbeliste tehistaipude hulka kuuluvad muuhulgas ka kõige tuntumad suured keelemudelid, nagu näiteks CoPilot ja ChatGPT. Konkreetse valdkonna jaoks loodud süsteemide puhul on kirjeldamiskohustus detailsem. Näiteks, kui tehistaip on peenhäälestatud spetsiaalselt tervisesektori jaoks, peab tehistaibu dokumentatsioon pakkuma selget ülevaadet, milliseid sisendandmeid täpselt kasutatud on - näiteks isikute röntgenpilte või teisi meditsiiniandmeid. Ka peab andma teavet selle kohta, kus kohast andmed pärinevad.

Erinevate treeningandmete kasutamise koondamine

Laialdast kõlapinda on leidnud Ameerika Ühendriikides esitatud hagid, millega nõutakse tehisintellekti loonud ettevõtetelt võimalike autoriõiguste rikkumiste eest hüvitist. Hagejate hulgas on autoreid, kunstnikke ja ka ajakirjandusväljaandeid, kes on väljendanud rahulolematust selle osas, et mudeleid treenitakse ilma loata nende loodud loomingu peal. Selliste olukordade vältimiseks on oluline, et ettevõtted tagaksid, et nende tehisintellekti mudelid, mis on käsitatavad üldotstarbelise tehistaibuna, toimiksid kooskõlas autoriõiguse seadustega. See aga hõlmab mudelite treenimiseks kasutavate andmekogude hoolikalt läbi vaatamist, tagamaks, et need ei sisaldaks selliseid autoriõigusega kaitstud materjale, mille jaoks oleks vaja autori luba. Näiteks, kui ettevõte arendab tehisintellektil töötavat sisu loomise tööriista, siis peab ta kontrollima, et kõik treenimiseks kasutatavad andmed, nagu tekstid, pildid või muusika ei oleks vastava autori loata kogutud.

Selleks saab kasutada kas avatud juurdepääsuga (open access) andmeid või peab hankima autoriõiguste omanikelt nõusolekud teoste kasutamiseks. Näiteks, kui mudelit treenitakse kirjandusteostega, siis peab ettevõte tagama, et teoseid koondav andmekogu koosneks kas üldkasutatavatest teostest või töödest, mille jaoks on ettevõttel vajalikud litsentsid hangitud.

Lisaks eeltoodule, peavad mudelite loojad kaardistama selle, missuguseid treeningandmeid on mudelis kasutatud. Seda millisel kujul mudelis kasutatavad treeningandmed peaks avaldama, selgub Euroopa Komisjonis loodud tehisintellekti ameti koostatavast näidisest. Küll aga üks on selge – päris kõiki mudeli treeningmaterjale, mida mudelites on kasutatud, mudelite loojad avaldama ei pea. See tähendab, et piisab üksnes mudelis kasutatavate andmete ülevaatest.

Ajaraamistikust ja praegustest võimalustest

Määrusega kehtestatavate nõuete kehtima hakkamine on suures osas seotud sellega, missugusesse kategooriasse tehistaip liigitub. Sellised tehisarud, mis on liigitatud vastuvõetamatu (lubamatu) riski kategooriasse, keelatakse kuue kuu jooksul pärast määruse jõustumist. Üldotstarbelisi tehisintellekti mudeleid arendavatel ja pakkuvatel ettevõtetel on aega 12 kuud, et uute nõuetega ennast vastavusse viia. Järk-järgult, hiljemalt 36 kuud pärast määruse jõustumist, peavad ka kõrge riskiga tehisarude arendamine ja kasutusele võtmine olema kooskõlas määrusega.

Juba praegu saavad aga ettevõtted teha samme selleks, et olla vastavuses tehisintellekti määrusega, järgides peamiselt olemasolevaid juhiseid, mis toimivad ajutiste suunistena ning mis pakuvad raamistiku eetiliseks ja vastutustundlikuks tehisintellekti arendamiseks. Nii ongi mitmed rahvusvahelised organisatsioonid avaldanud eetilisi soovitusi sisalduvaid juhiseid. Ehkki vabatahtlikuna mõeldud juhiste järgimine võib näida ebavajalikuna, võib selle tulemusena olla lihtsam valmistuda määruse tulekuks ja ka turul parema positsiooni saavutamiseks konkurentide ning klientide silmis.

Kuidas see lugu Sind end tundma pani?

Rõõmsana
Üllatunult
Targemana
Ükskõiksena
Kurvana
Vihasena