Lisensoitua koodia tekoälyllä – kopiointia vai oppimista?

10. marraskuuta 2022 kirjoittaja
Lisensoitua koodia tekoälyllä – kopiointia vai oppimista?
Teräs Olli

Tekijänoikeuksista ja niiden määräytymisestä voi olla montaa mieltä, mutta riski ohjelmistoyrityksissä ohjelmistokoodiin liittyvistä tekijänoikeusrikkomuksista on todellinen.

Ohjelmistotuotteiden laatua ja riskejä neljännesvuosisadan kokemuksella tarkastellen katsottavana on paljon muutakin kuin toimivuus käyttäjälle. Lakitekniset rajoitteet kiehtovat, ja sisältävät yritystoiminnan kannalta keskeisiä päätöksiä.

Tekijänoikeuksista ja niiden määräytymisestä voi olla montaa mieltä, mutta riski ohjelmistoyrityksissä ohjelmistokoodiin liittyvistä tekijänoikeusrikkomuksista on todellinen. Ohjelmistotuotteiden laatua ja riskejä neljännesvuosisadan kokemuksella tarkastellen katsottavana on paljon muutakin kuin toimivuus käyttäjälle. Lakitekniset rajoitteet kiehtovat, ja sisältävät yritystoiminnan kannalta keskeisiä päätöksiä.

Siinä missä avoimen lähdekoodin komponenttien käyttö varmistaen lisenssien noudattamisen haluaisi nähdä arkipäivän tekemisenä, maailman muutos tekoälyn myötä tekee työstä jälleen askelta haastavampaa.

Tietokoneavusteinen ohjelmien kirjoittaminen (computer aided software authorship) otti kesällä 2021 merkittävän harppauksen Microsoftin omistaman GitHub Copilot -ohjelmiston teknisen esikatseluohjelman myötä. Syksyllä 2022 GitHub tekninen esikatselu vaihtui kaupalliseksi kuukausilisenssiksi. Tuoreimpana käänteenä 3.11.2022 jo pidempään pinnan alla kuplinut huoli tekijänoikeusrikkomuksista nostettiin ryhmäkanteena Kalifornian osavaltion oikeusasteissa.

Avoimen lähdekoodin lisenssit eivät ole lupa vapaaseen kopiointiin, niiden käyttöön liittyy tyypillisesti vähintään lisenssitekstin ja alkuperäisen tekijän nimen säilyttäminen. Osaan lisensseistä ohjelmiston rakennustermein liittyy myös nk. copyleft-riski, eli lisenssin tarttuminen omaan koodipohjaan. Lisensoinnin ehtona voisi sanoa olevan rahan sijaan kunnia.

Mitä GitHub Copilot tekee?

Teknisen esikatseluohjelman ja kaupallisen tuotteen lisenssin kautta vuoden harrasteprojektikäytön osalta voi antaa yksinkertaisen esimerkin. GitHub copilot tulkitsee koodia kirjoitettaessa ohjelmoijan tahtotilaa arvaillen täydennyksiä. Arvailujen pohjalla on koneoppimisen tuottamat mallit GitHubissa saatavilla olevien monipuolisin lisenssein jaetuista avoimen lähdekoodin projekteista.

Esimerkiksi Python-ohjelmointikielellä kokeilemani TIVIAn REST-rajapinnan kautta saatavilla olevien koulutustietojen käsittelyyn laatimani muutama koodirivi pohjalla kommenttialustuksella # Tekijä: Copilot arvailee tekijäksi minun sijastani ensin TIVIAa, siirtyen nopeasti epäilemään, että tekijä olisi Petteri Pulkkinen, Mika Mäkinen, Sami Kallio, Tuomas Kärkkäinen, Antti Roponen tai Vesa Kallio. Toki muitakin asiavirheitä ehdotetaan käyttöjärjestelmästä, Python-versiosta, luonti- ja muokkauspäivämäärästä, lisenssistä ja jopa koodin sijainnista verkossa. Vastuu tuotetun sisällön hyväksymisestä osaksi omaa tuotantoa on toki käyttäjällä.

Käänteet alan seurantaan

Kesäkuussa 2022 Software Freedom Conservancy, avoimen lähdekoodin kentän keskeinen yhdistystoimija Amerikassa ja kansainvälisesti aloitti osaltaan toimenpiteet kutsuen ohjelmistoyhteisöä GitHubin boikotointiin.

Marraskuussa 2022 joukkokanteen keskeiset väitteet kerättynä 56-sivuiseen dokumenttiin sisältävät kootusti pohdintaa niin Microsoftin ja GitHubin vastuista lisenssiehtojen rikkomisessa kuin mahdollisten käyttäjien vastuusta käyttää lisenssiehtoja rikkovaa tuotantovälineistöä. Software Freedom Conservancyn suositus onkin ollut ohjelmistoyrityksille GitHub Copilotin käytön välttäminen. Suositusta itsekin seuranneena Copilot pääsee kokeilukäyttöön vain vapaa-ajan projekteissa.

Kun 1,2 miljoonaa ohjelmistokehittäjää teknisen esikatselun aikana julkaistujen käyttäjälukujen mukaan mahdollisesti rikkoo tekijänoikeuksia sitä tajuamatta, ollaan isojen teemojen äärellä. Ja mitä merkittävämpää tuotetta ohjelmistolla tehdään, sitä turhemmalta kyseisen riskin kantaminen ohjelmistoyrityksen näkökulmasta vielä tänä päivänä tuntuu.

Uuden oikeuskäsittelypyynnön myötä myös Suomi on hienosti mukana kyseisellä maailmankartalla, kun Linus Torvalds ja Linux mainitaan avoimen lähdekoodin lisenssien käytön vahvana esimerkkinä.


Teksti: Maaret Pyhäjärvi

Maaret Pyhäjärvi on TIVIAn hallituksen jäsen 2022–2023 ja ohjelmistotestausasiantuntija Vaisalassa. Hänen roolinsa Software Freedom Conservancyn Selenium -projektin johtoryhmässä kansainvälisesti linkkaa hänet avoimen lähdekoodin edistämisen teemoihin.


Tämä uutinen on alun perin julkaistu IT Insider -digimedissa.

Digitaalisen tilaustuotteen IT Insiderin kustantaja on TIVIA ry:n omistama TIVIA Infuture Oy. TIVIAn laaja jäsenverkosto tukee IT Insiderin toimitusta sisällön taustoittamisessa, ideoinnissa ja merkityksien löytämisessä.

itinsider.fi

 

Jaa tämä kirjoitus
Arkistoi