Maskinlæring - krav og anbefalinger

For maskinlæring er treningsdata viktig og dokumentasjon av disse med tanke på deling er viktig.

På denne siden kan du lese mer om:

Generelle behov for dokumentasjon
Detaljerte krav til dokumentasjon
Deling og gjenbruk

Generelle behov for dokumentasjon

Anbefaling (Rammeverk)

(155) For å gi et kortfattet, helhetlig bilde av modellen, hva modellen gjør, målgruppe, hvem som vedlikeholder, i tillegg til konstruksjon av modellen, som algoritme, arkitektur og treningsdata anbefales det å bruke Model Card.Nærmere informasjon og anbefalt dokumentasjon om Model Cards finnes i rapporten fra arbeidsgruppa som et vedlegg til rammeverksdokumentet.

(156) For å gi en oversikt over forhold som bør vurderes og informeres om ved oppretting og bruk av treningsdatasett for maskinlæring anbefales det å bruke Datasheets for Dataset. Denne inneholder metadata for denne type treningsdata, og avviker fra det som brukes for geografisk informasjon (ISO 19115-1). Nærmere informasjon og anbefalt dokumentasjon finnes i rapporten fra arbeidsgruppa som et vedlegg til rammeverksdokumentet.

(165) Det anbefales å bruke "training Data Markup Language for Artificial Intelligence (TrainingDML for AI)" for følgende områder:

Hvordan treningsdataene er forberedt, for eksempel opphav eller kvalitet;
Hvordan spesifisere forskjellige metadata som brukes til ulike ML-oppgaver, som scene/objekt/pikselnivåer;
Hvordan skille mellom høy-nivå treningsdata-informasjonsmodell og utvidede informasjonsmodeller spesifikke for ulike ML-applikasjoner; og
Hvordan introdusere eksterne klassifikasjonssystemer og fleksible metoder for å representere "ground truth"-merking.

Detaljerte krav til dokumentasjon

Anbefaling (Rammeverk)

(157) Forskjellige prosjekter vil ha ulike behov for videre bruk av modeller og resultater av modeller, slik som:

Prediksjonsresultater fra maskinlæringsmodellen skal overleveres. Ingen krav, anbefalinger dekkes opp av kapittel 16.2.1 Generlle behov for dokumentasjon.
Ferdig trent modell skal kunne kjøres av andre
Andre skal kunne finjustere modellen
Andre skal kunne videreutvikle modellen
Andre skal kunne finjustere modellen
Man skal kunne reprodusere modellen

Denne type dokumentasjon dekkes ikke nødvendigvis av Model Cards eller Datasheets for Dataset, og dokumentasjon gjøres tilgjengelig i Geonorge.

Krav (Rammeverk)

(158) Dersom man jobber med en ML-modell som skal overleveres og kunne kjøres/driftes av andre uten å endres (ref 157 andre kulepunkt B), må følgende dokumenteres:

Ferdig trent modell
Ferdig trent modell skal kunne kjøres av andre
Informasjon om dataformatet som modellen tar som input

(159) For å kunne finjustere en modell (ref 157 tredje kulepunkt) må følgende dokumenteres:

Ferdig trent modell
Format på treningsdataene
Arkitektur og kode for modellen
Type data og formato Om det er benyttet noen form for «data augmentation» under trening
F.eks. rotering av bilder

(160) For å kunne videreutvikle en modell (ref 157 fjerde kulepunkt) må følgende dokumenteres:

Ferdig trent modell
Format på treningsdataene
Arkitektur og kode for modellen

(161) For at andre skal kunne reprodusere modellen (ref 157 femte kulepunkt)må følgende dokumenteres:

Arkitekturen til modellen (med kode, kodemiljø og avhengigheter) - anbefales, et alternativ kan være tilstrekkelig med skriftlig dokumentasjon til å kunne implementere tilsvarende arkitektur.
Hyperparametre ved trening (som ikke fremkommer av eventuell kode)
Ved f.eks. deep learning ville dette kunne vært loss function, activation function, batch-size, optimizer, antall epoker trent osv
Treningsdatasett, enten et statisk datasett eller metadata til å kunne gjenskape tilsvarende datasett
Beskrivelse av hvordan treningsdataene ble behandlet
Data preparation, data augmentation/feature engineering

Deling og gjenbruk

Anbefaling (Rammeverk)

(162) For å gjøre eksisterende data lettere tilgjengelig for maskinlæring anbefales det å gjøre tilgjengelig (i Geonorge) årsversjoner av de mest anvendlige data, dette for å sikre best mulig tids-synkronisering mellom data og flyfoto.

(163) For å gjøre eksisterende data lettere tilgjengelig for maskinlæring anbefales også grensesnitt som er mer hensiktsmessige for utviklere og dataforskere, slik som REST API’er (OGC API’er) fremfor dagens WMS, WFS. Likeledes bruk av andre formater (som f.eks ulike versjoner av JSON) som et tillegg til GML.

(164) Treningsdata bør gjøres tilgjengelig gjennom Geonorge.