Det er ingen overordnede krav i lover og forskrifter om hvordan maskinlæring skal tas i bruk innenfor vårt fagområdet, men det er en sterk oppfordring om å ta denne teknologien i bruk. Av denne grunn er kun maskinlæring lagt inn med egne krav og anbefalinger for utviklere av intrastrukturen.
Kunstig intelligens (KI) og maskinlæring (ML) er områder under rask utvikling, hvor nye teknikker, modeller, produkter og anvendelsesområder dukker opp med høy frekvens. Mulighetene og potensialet er stort og for mange aktører er god kompetanse, produkter og tjenester innen maskinlæring en viktig konkurransefordel. Dette kan være medvirkende årsaker til at det så langt finnes få eller ingen etablerte åpne standarder for dokumentasjon av maskinlæring, til tross for at mye av den underliggende teknologien er åpen kildekode.
Likevel er det et stort behov for å utveksle kunnskap, data, modeller og teknikker for å videreutvikle og realisere verdien i maskinlæring. Derfor har det begynt å etablere seg noen beste praksiser som kan fungere godt som anbefalinger for hvordan maskinlæring bør gjennomføres og dokumenteres. Disse vil bidra til å sikre riktig bruk av modeller og modellresultater, gjenbruk og videreutvikling av modeller.
Som et resultat finnes det også et økende utvalg av verktøy og rammeverk som gjør det enklere å følge disse anbefalingene. Dette kapitlet har som mål å presentere hvordan disse beste praksisene kan fungere som anbefalinger for å sikre bedre samarbeid, deling og verdiskapning innen kunstig intelligens og maskinlæring, som en del av den nye nasjonale geografiske infrastrukturen.
En av de kostnadskrevende prosessene ved KI er etablering av treningsdata. Det er derfor viktig å legge til rette for deling av treningsdata på åpne formater som kan benyttes av flere systemer. I slike prosesser blir treningsdataenes dokumentasjon viktig, også kalt treningsdagenes CV. Dette omfatter både generelle og detaljerte krav til dokumentasjon, alt avhengig av brukerbehovet.
Man må ha kontroll på versjonering av modeller, versjonering av data, hvilke hyperparametre som er brukt under trening, i tillegg til kodemiljø og avhengigheter. I tillegg ønsker man ofte å kunne kjøre modellene i ulike miljøer – både lokalt og i skyen. Derfor har det blitt utviklet ulike verktøy, som kan kalles for livssyklusrammeverk, som gjør dette enklere. Som eksempler på livssyklusrammeverk nevnes «Mlflow» til modeller, og «DVC» til data.
Når resultatene fra en maskinlæringsmodell skal evalueres og dokumenteres, er det flere hensyn som må tas for at evalueringen skal gi et godt bilde på modellens faktiske prestasjon. Hvilke data som brukes og hvilket nøyaktighetsmål som velges, er avgjørende for å sikre en riktig og rettferdig evaluering av modellen.
Geonorge inneholder allerede en rekke data som kan være interessante å bruke som treningsdata i maskinlæringsprosjekter. For eksempel vil FKB-bygning være et godt utgangspunkt for å lage en modell for å identifisere bygninger i flyfoto. For å gjøre det lettere å bruke data fra Geonorge i maskinlæringsprosjekter bør ulike former for tilrettelegging vurderes.
Treningsdata bør kunne deles og gjenbrukes. Geonorge er en plattform for å dele geografiske data og dermed kan man tenke seg at den også kan være velegnet for å dele trenings-, evalueringsdata eller resultater fra maskinlæring. Det er imidlertid viktig å være klar over at det kan være store forskjeller på dataene som i dag er tilgjengelig i Geonorge og typiske treningsdata.
Treningsdata vil ofte ha helt andre egenskaper. Et eksempel kan være at man har gjort feltobservasjoner for å bruke som fasitdata til å trene en maskinlæringsmodell. Disse observasjonene vil ikke nødvendigvis være komplette, ha konsistent kvalitet/ nøyaktighet eller være representative for eller dekke hele landet.