Maskinlæring - krav og anbefalinger

For maskinlæring er treningsdata viktig og dokumentasjon av disse med tanke på deling er viktig.

På denne siden kan du lese mer om:

Generelle behov for dokumentasjon

Anbefaling (Rammeverk)

(155) For å gi et kortfattet, helhetlig bilde av modellen, hva modellen gjør, målgruppe, hvem som vedlikeholder, i tillegg til konstruksjon av modellen, som algoritme, arkitektur og treningsdata anbefales det å bruke Model Card.Nærmere informasjon og anbefalt dokumentasjon om Model Cards finnes i rapporten fra arbeidsgruppa som et vedlegg til rammeverksdokumentet.

(156) For å gi en oversikt over forhold som bør vurderes og informeres om ved oppretting og bruk av treningsdatasett for maskinlæring anbefales det å bruke Datasheets for Dataset. Denne inneholder metadata for denne type treningsdata, og avviker fra det som brukes for geografisk informasjon (ISO 19115-1). Nærmere informasjon og anbefalt dokumentasjon finnes i rapporten fra arbeidsgruppa som et vedlegg til rammeverksdokumentet.

Detaljerte krav til dokumentasjon

Anbefaling (Rammeverk)

(157) Forskjellige prosjekter vil ha ulike behov for videre bruk av modeller og resultater av modeller, slik som:

  • Prediksjonsresultater fra maskinlæringsmodellen skal overleveres. Ingen krav, anbefalinger dekkes opp av kapittel 16.2.1 Generlle behov for dokumentasjon.
  • Ferdig trent modell skal kunne kjøres av andre
  • Andre skal kunne finjustere modellen
  • Andre skal kunne videreutvikle modellen
  • Andre skal kunne finjustere modellen
  • Man skal kunne reprodusere modellen

Denne type dokumentasjon dekkes ikke nødvendigvis av Model Cards eller Datasheets for Dataset, og dokumentasjon gjøres tilgjengelig i Geonorge.

Krav (Rammeverk)

(158) Dersom man jobber med en ML-modell som skal overleveres og kunne kjøres/driftes av andre uten å endres (ref 157 andre kulepunkt B), må følgende dokumenteres:

  • Ferdig trent modell
  • Ferdig trent modell skal kunne kjøres av andre
  • Informasjon om dataformatet som modellen tar som input

(159) For å kunne finjustere en modell (ref 157 tredje kulepunkt) må følgende dokumenteres:

  • Ferdig trent modell
  • Format på treningsdataene
  • Arkitektur og kode for modellen
  • Type data og formato Om det er benyttet noen form for «data augmentation» under trening
  • F.eks. rotering av bilder

(160) For å kunne videreutvikle en modell (ref 157 fjerde kulepunkt) må følgende dokumenteres:

  • Ferdig trent modell
  • Format på treningsdataene
  • Arkitektur og kode for modellen

(161) For at andre skal kunne reprodusere modellen (ref 157 femte kulepunkt)må følgende dokumenteres:

  • Arkitekturen til modellen (med kode, kodemiljø og avhengigheter) - anbefales, et alternativ kan være tilstrekkelig med skriftlig dokumentasjon til å kunne implementere tilsvarende arkitektur.
  • Hyperparametre ved trening (som ikke fremkommer av eventuell kode)
  • Ved f.eks. deep learning ville dette kunne vært loss function, activation function, batch-size, optimizer, antall epoker trent osv
  • Treningsdatasett, enten et statisk datasett eller metadata til å kunne gjenskape tilsvarende datasett
  • Beskrivelse av hvordan treningsdataene ble behandlet
  • Data preparation, data augmentation/feature engineering

Deling og gjenbruk

Anbefaling (Rammeverk)

(162) For å gjøre eksisterende data lettere tilgjengelig for maskinlæring anbefales det å gjøre tilgjengelig (i Geonorge) årsversjoner av de mest anvendlige data, dette for å sikre best mulig tids-synkronisering mellom data og flyfoto.

(163) For å gjøre eksisterende data lettere tilgjengelig for maskinlæring anbefales også grensesnitt som er mer hensiktsmessige for utviklere og dataforskere, slik som REST API’er (OGC API’er) fremfor dagens WMS, WFS. Likeledes bruk av andre formater (som f.eks ulike versjoner av JSON) som et tillegg til GML.

(164) Treningsdata bør gjøres tilgjengelig gjennom Geonorge.