Vi opplever en stor satsing på digitalisering i matindustrien, og spesielt større bedrifter ønsker å dra bedre nytte av dataene sine. Mange har en forventning om at data kan lastes inn i et maskinlæringsprogram og så kommer det automatisk noe smart ut på andre siden. Så enkelt er det ikke.

Sist oppdatert

Ingrid Måge   Kira Svendsen (DTU) Line Clemmensen (DTU)

Innhold

Her kan du lese om

    Råd om dataanalyse

    Her er fem spørsmål matprodusenter bør stille seg før de begir seg ut på et større dataanalyse-, maskinlæring- eller AI-prosjekt.

    Rådene våre oppsummerer noen utfordringene vi har møtt på i flere forskningsprosjekter som omhandler analyse av industridata.

    1. Hva er målet ditt?

    Et tydelig spørsmål gir et tydelig svar, også når spørsmålet gjelder data. Vi har sett dataprosjekter med mål som: «Vi vil lære mer om hva som skjer» eller «Vi må lære å bruke kunstig intelligens (AI) / stordata på alle dataene våre». Det ville være fantastisk om en dataanalytiker eller algoritme kunne svare på dette, men det er nok svært usannsynlig. Algoritmer må ha klart definerte mål og kriterier, de er ikke så intelligente som mange tror.

    Før du bestemmer deg for at AI og stordata er løsningen, er det smart å tenke over hva du ønsker å oppnå. Hva vil tilføre firmaet mest verdi? Det er ikke sikkert at svaret er kule, komplekse algoritmer. Hvis en enkel visualisering av utvalgte data gir god nytteverdi, er det kanskje ikke AI du trenger.

    2. Har du tilgang til dataene?

    Det finnes mye data, med hvor tilgjengelige er disse dataene egentlig?

    • Data som oppbevares i papirmappe. Overraskende mye data lagres fortsatt på papir. Hvis disse skal kunne brukes i analysearbeid må de håndteres manuelt. Dette kan være arbeids- og tidskrevende, altså dyrt.
    • Data som er lagret i flere ulike databaser. Ofte finnes det ikke nøkler som gjør det mulig å koble sammen data, og drømmen om stordata blir til mange små datamareritt. Gjennom et felles detektivarbeid kan dataeieren og dataanalytikeren kanskje få det til, men det er svært tidkrevende. Selv om nøklene finnes, bør man være realistisk i planleggingen av denne delen av prosjektet. Analyser av hvordan dataanalytikere bruker tiden sin viser at mellom 51 % og 79 % av tiden blir brukt på å vaske og organisere data.
    • Data lagret i en database. Selv når det virker som dataene er lett tilgjengelige vil det være utfordringer. Ofte har variablene kryptiske navn og mangler beskrivelse. Vi har ennå til gode å oppleve et prosjekt der det ikke dukker opp uventede problemer.
    • Juridisk klarsignal. Samsvar med reglene for datadeling, EUs personvernforordning (GDPR) og andre interesser må avklares før prosjektet starter.

    3. Er dataene av god nok kvalitet?

    Gode digitale data kan være en gullgruve. Dårlige data har ingen verdi. Datakvaliteten varierer ofte, og for å finne ut om du har bra nok datakvalitet bør dette vurderes:

    • Data skal kunne belyse spørsmålene som stilles. Er du for eksempel interessert i å lære om kvalitetsvariasjoner eller feilforekomster i produksjonen, må du ha gode data på både kvalitet og alle mulige årsaker til avvik.
    • Mengder av data kan ikke gi deg det rette svaret dersom dataene er svært unøyaktige eller inneholder mye feil. Når det er sagt, kan enkelte type feil og artefakter (i noen grad) håndteres av forskjellige maskinlæringsmetoder.
    • Naturligvis bør det være en tilstrekkelig mengde data, men dersom kvaliteten er god vil behovet for mengde minke. Og vice versa – store mengder irrelevante data er ikke nyttige. Et annet problem kan være at grunnleggende endringer, som nytt utstyr, fører til at data ikke kan sammenlignes før og etter endringen og dermed begrenser mengden av relevante data.
    • I matproduksjon bruker vi som regel faste resepter og prosedyrer, og dette gir svært lite variasjon i data. Dette er bra for produksjonen, men hvis formålet med prosjektet er å lære hvordan produksjonen kan endres utover de fastsatte rammene er variasjon helt avgjørende.
    Organisering og rensing av data er en tidkrevende, og ofte glemt, oppgave i datavitenskapsprosjekter. Illustrasjon: Kira Svendsen

    4. Har du gode samarbeidspartnere?

    En dataanalytiker kan ikke komme opp med gode resultater alene. Suksess innen dataprosjekter krever samarbeid og engasjement fra flere parter, som bidrar med veldig forskjellig men like viktig kunnskap og kompetanse:

    • Datainnsamling. Dataingeniører og operatører har ekspertkunnskap om hvordan data er samlet inn og lagret, og eventuelle endringer i utstyr, prosedyrer eller sensorer over tid. Dette er svært viktig for å organisere og kvalitetssikre data, og for å forstå resultater.
    • Domenekunnskap. Hva er det vi ser? Hva kan vi forvente? Hva har vi allerede kunnskap om, som kan innlemmes i datamodellene? Finnes det viktige faktorer som ennå ikke er målt eller registrert (som det alltid er)?
    • Sluttbrukere. Hva er sluttbrukerens forventninger og krav? Hvis du setter resultatene inn i en kontekst, kan prosjektet bli en suksess både når det gjelder eierskap, tilpasning av resultater og utbytte.

    5. Hva er planen for framtiden?

    Langsiktige og bærekraftige løsninger basert på datavitenskap må være forankret i forretningsplanen. Prosjektet må fra begynnelsen, og underveis, vurdere hvordan resultatene skal implementeres, og ikke minst vedlikeholdes, med tanke på framtidig nytte for forretningsvirksomheten. Datadrevne løsninger krever regelmessig kontroll, oppdatering og vedlikehold, akkurat som annet produksjonsutstyr og rutiner.