23. september 2015

Danske forskere sidder på en guldgrube af digitale spor

BIG DATA

Med et samarbejde mellem både virksomheder, offentlige institutioner og forskere kan Danmark sikre sig en føreposition i big data-forskningen. Og her gemmer sig store gevinster, skriver KU-professor David Dreyer Lassen

Af David Dreyer-Lassen, professor ved Økonomisk Institut, Københavns Universitet. Artikel i Altinget den 23. september 2015

David Dreyer Lassen

Vi mennesker genererer data som aldrig før. Big data.

Enhver facebookpostering, Googlesøgning, kreditkorttransaktion, telefonopkald eller køretur over Storebæltsbroen efterlader digitale spor. Det samme gør computerstyret produktion, sensorer, vores medieforbrug, butikkernes kundekort, trafik på hjemmesider, trafik til lands, vands og i luften.

Vi får også big data fra GPS’er, tekstfiler fra internettet, digitale kameraer. Simpelthen fra alt det, mennesker foretager sig, hvor noget digitalt er involveret. Og da flere og flere menneskelige aktiviteter involverer brug af noget digitalt, stiger mængderne af forskellige typer data eksplosivt.

For forskere som os giver det helt nye muligheder for at samle, analysere, sammenligne og udnytte store mængder af data fra de mange forskellige datakilder. Nogle typer big data ejes af virksomheder og kan kun hentes og anvendes af virksomheden selv. Andre datasæt kan høstes eller scrapes, som det hedder i data-sprog, af enhver computerbruger med en smule programmeringssnilde og adgang til internettet. Fælles for disse datakilder er, at de er digitale, at der er umanerligt meget data i dem, at data kommer i mange forskellige former, og at det genereres langt hurtigere, end vi er vant til. Og så er det en guldgrube af viden, hvis man forstår at udnytte det rigtigt.

God grobund i Danmark

Det er først de senere år, at forskere og virksomheder er blevet i stand til at indsamle og bearbejde disse store datamængder, og for Danmark udgør big data en helt særlig mulighed.
Kombinationen af en befolkning, der befinder sig helt fremme i feltet, hvad angår brug af internet og sociale medier til både informationssøgning, handel, social kommunikation og kontakt med det offentlige, og de unikke danske dataregistre, der allerede findes, gør os i særlig grad klar til at høste fordelene i den nye data-drevne udvikling.
Mere information er i langt de fleste tilfælde et gode.

Men hvordan får vi massive mængder data omdannet til viden? Hvordan kan vi udnytte big data til vores fælles bedste og for eksempel skabe en mere effektiv offentlig sektor med bedre kvalitet i behandlingen af borgerne? Og kan det overhovedet lade sig gøre uden at trampe på borgernes og virksomhedernes basale rettigheder såsom retten til privatliv eller forretningshemmeligheder?

Diskussionen om de nye data handler langt fra kun om teknik og programmering, om end det også er vigtigt, men i lige så høj grad om, hvordan de nye dataformer ændrer relationer mellem mennesker, virksomheder og det offentlige.
Derfor er det afgørende, at de samfundsvidenskabelige forskere har mulighed for at fordybe sig i big data både i undervisningen og forskning.
Det kræver samspil mellem universiteterne, virksomhederne og ikke mindst den offentlige sektor som for eksempel kommuner og Danmarks Statistik, der allerede har en stærk tradition for at give forskere sikker adgang til store mængder data.

Et enestående forskningsprojekt

På Københavns Universitet har vi de seneste to år arbejdet sammen med DTU i forskningsprojektet Social Fabric, hvor vi anvender big data fra smartphones til at kortlægge 1000 unge studerendes sociale adfærd. Vi delte simpelthen telefoner ud til alle, der begyndte at læse på DTU i sommeren 2013, og fulgte deltagerne i mindst et år. En del af dem følger vi stadig.

De studerendes telefoner indsamler informationer fra routere, wi-fi-forbindeler og høster informationer om de unges kommunikationsaktiviteter i form af sms’er, facebook-beskeder og andre digitale dialogformer. Via telefonernes bluetooth kan vi også se, om de studerende er i samme rum, og endda hvor tæt de fysisk er på hinanden.
De data, som vi logger, er alene data, som viser, hvem de studerende kommunikerer med, hvor ofte og hvor længe, de gør det. Vi kan ikke se indholdet af beskederne.

Netop grænsen mellem, hvilke informationer vi som forskere kan anvende, og hvilke informationer vi ikke skal have indblik i, er et centralt omdrejningspunkt i arbejdet med Social Fabric. Faktisk deltager der også antropologer i projektet for hele tiden at kortlægge, hvordan vi økonomer, ingeniører og sociologer forholder os til beskyttelsen af deltagernes privatliv.

Høster helt nye frugter

Vi supplerede ved projektets start indsamlingen af telefonernes data med mere traditionelle former for dataindsamling i form af spørgeskemaundersøgelser om de studerendes personlighed, motionsvaner, deres generelle velbefindende, søvnmønster, ryge- og alkoholvaner med videre. Alt sammen noget, som ikke kan aflæses fra telefonernes data. Det gør det muligt for os at inddrage livsstils– og personligheds- faktorer i forskningen.

Vores forskning i Social Fabric er verdens største af sin art og vil fortsætte de kommende år, selvom en del af forsøgspersonerne er hoppet fra. Ikke fordi de blev trætte af at være med, men simpelthen fordi de har skiftet telefon.

Projektet har allerede nu givet os helt ny viden om, hvordan big data kan bruges til at måle ting, som ikke tidligere har ladet sig måle.
For eksempel: Hvor godt er studiemiljøet på et uddannelsessted som DTU? Hvor meget tid tilbringer de studerende fysisk på campus og i læsegrupper, og hvilken betydning har studiemiljøet for de studerendes indsats på studiet, deres karakterer og eventuelle frafald? Hvad betyder de studerendes venskaber og netværk for deres trivsel, sundhed og præstationer i skolen?
Vigtig viden, når man skal tilrettelægge et uddannelsesforløb eller designe et studiemiljø, men også informationer, som er svære at høste på traditionel videnskabelig vis.

Smartphones åbner døre for forskningen

Hvis man som forsker vil måle menneskers sociale liv, er man normalt nødt til at anvende et sociometer. Det er et måleinstrument designet til at registrere sociale interaktioner, typisk udformet som en lille sender i en badge, som folk kan bære på tøjet ved særlige lejligheder, hvor forskerne er interesserede i at kortlægge bevægelsesmønstre, samtalepartnere eller lignende.

Men et sociometer kan ikke anvendes til at give viden om menneskers dagligliv og interaktions-mønstre over lang tid, for ingen forsøgsperson kan forpligtes til at bære særlige instrumenter i måneder eller år. Til gengæld bærer de fleste af os jo i forvejen rundt på et kraftfuldt og meget nøjagtigt måleinstrument i form af vores smartphone, som hele tiden efterlader digitale fodspor om vores færden.
Som forskere så vi, at det var oplagt at udnytte det til forskningsformål.

Danmark er et af de lande i verden, hvor flest mennesker har en smartphone, og vi er også det land, der har det største dataforbrug. Vi har altså ikke bare en smartphone - vi bruger den også. Meget.

Metoden har den fordel, at deltagerne ikke skal gøre andet end at have deres telefon med sig og have strøm på den, hvilket i forvejen er helt naturligt for unge mennesker, der begynder på universitetet. Nå ja, og så skal de helst ikke tabe telefonen alt for tit.

Den offentlige sektor står for tur

Social Fabric er grundforskning i anvendelsen af big data, og i dag, to år inde i projektet har vi masser af ny viden, både om den tekniske side, omgangen med datasikkerhed og privatliv, og om hvordan vi fra samfundsvidenskab kan bruge big data til at designe ny forskning.

Næste trin i vores big data-forskning går ud på at designe en model for bæredygtig brug af big data i danske kommuner.
For netop i den offentlige sektor, som leverer alt fra børnepasning og ældrepleje over affaldshåndtering og energiforsyning til sundheds- og skoletilbud, er der store gevinster at hente ved at kombinere traditionelle registerdata med big data.

De omkostningstunge serviceområder lægger beslag på enorme offentlige budgetter, og her kan der være store besparelser at finde, hvis vi forstår at omsætte den viden, vi kan hente i big data, til en mere effektiv behandling af borgerne.

Faren er dataforskrækkelse

Og netop ordet bæredygtig er vigtigt. Metoderne skal nemlig være bæredygtige i den forstand, at vores brug af borgernes data ikke må overskride et niveau, der giver bagslag, fordi den skaber ulyst i befolkningen til at tillade brug af data.
Fra borger- og forbrugerperspektivet betyder den øgede anvendelse af data, at sikkerheds- og privacy-spørgsmål bliver vigtigere end nogensinde.
Den digitale tillid er fundamentet for at kunne udnytte mulighederne, og dataforskrækkelse må ikke hindre danske virksomheders og forskeres mulighed for at udnytte den unikke danske position.

Derfor er en af de ting, vi ser på, om det er muligt at udstyre folk med en form for personlige datapengeskabe, hvor den enkelte borger individuelt bestemmer, hvilke data der deles med kommune og/eller lokale private virksomheder.

For eksempel: ”Ja, jeg vil gerne dele oplysninger om, hvilke dele af byen jeg har været i, men ikke hvilke adresser.” og ”Ja, det er OK at indsamle data om mit brug af biblioteket og andre kulturtilbud i kommunen.” eller ”Nej, jeg ønsker ikke at dele information om, hvor jeg parkerer min bil.”

Den særlige data-tillid

En vigtig forudsætning for den danske big data-revolution er, at Danmark er et af de lande i verden, hvor borgerne har størst tillid til hinanden, til virksomheder og til det offentlige.
Tilliden til, at det offentlige passer godt på vores personlige data, er højere i Danmark end i de fleste andre lande, til trods for at vi alle sammen både som borgere og som virksomheder er registrerede i nogle af verdens mest detaljerede registre i kraft af den udbredte brug af CPR-og CVR-numre i den offentlige administration.

Registrene rummer oplysninger om borgernes sundhed, uddannelsesforløb, arbejdsliv, brug af sociale ydelser og familieforhold. Og om virksomhederes import, eksport, årsregnskaber og andre nøgletal. Det er informationer, der er enestående i international sammenhæng.

Data fra de offentlige registre opbevares trygt og godt hos Danmarks Statistik og har siden begyndelsen af 1980’erne været brugt til forskning. Med tilsvarende data fra danske virksomheder kan man iagttage borgernes indtjening, ansættelser, energiforbrug og forbrugsmønstre.

Alle disse registre kan køres sammen, og det gør Danmark til noget helt særligt.

Stærk kombination af registre og big data

Når forskere får adgang til registerdata, sker det altid i anonymiseret form, det vil sige, at ingen enkeltperson eller virksomhed kan identificeres. Det er en grundforudsætning for, at den digitale tillid opretholdes.

Registerdata er et samfundsmæssigt gode, og registerforskningen skaber viden til samfundets fælles bedste.

Forskere fra andre lande peger jævnligt på de mange muligheder, som findes i de danske forskningsregistre i Danmarks Statistik, og danske forskeres erfaringer med registerdata giver et perfekt afsæt for nye landvindinger, særligt med henblik på at koble de nye digitale big data med de eksisterende registerdata.
I nogle tilfælde vil det kræve ændringer i lovgivningen, i andre et særligt hensyn til kommercielle interesser hos de virksomheder, der har indsamlet data, og under alle omstændigheder en grundig diskussion af, hvilke udfordringer denne sammenkobling kan give for privatliv og datasikkerhed i det omfang, der er tale om data, der er individspecifikke.

Kan både afsløre og forebygge

Brugen af big data har både store perspektiver i det private erhvervsliv og inden for den offentlige sektor, som er ved at være rigtig godt med hvad angår digitalisering og dermed også kan indsamle digitale spor efter borgernes transaktioner med det offentlige.

Basal registersamkøring bruges allerede til at afsløre dobbelte udbetalinger af for eksempel pensioner, hvad enten de skyldes simple fejl eller socialt bedrageri.

Men man kunne også bruge data mere forebyggende, for eksempel til at foretage omfattende risikovurderinger af unge, som har problemer eller er på vej til at få det, eller til at forudsige, hvilke ældre der bliver særligt plejekrævende med mere.

Også her kan der være store udfordringer i forhold til borgernes eller forbrugernes frie valg og selvbestemmelse, og der vil meget snart blive brug for etiske råd med særligt fokus på persondata, som kan give kvalificeret vurdering af, hvor grænserne skal gå.

Mere end en mavefornemmelse

Diskussionen om erhvervslivets brug af big data fokuserer ofte på virksomhedernes mulighed for at få mere detaljerede informationer om egne og potentielle kunder. Men det handler i lige så høj grad også om at lære at udnytte de allerede eksisterende data.
For eksempel giver de store mænger hurtigt genererede, detaljerede data virksomhederne gode muligheder for at eksperimentere.

Google og Facebook gør det hele tiden. Med tryk på et par knapper bliver tusindvis af brugere udsat for forskellige links, sideopsætninger eller reklamer, så virksomhederne kan teste, hvilke opsætninger der fungerer bedst. Det er avancerede markedsføringsteknikker, som, hvis det bliver gjort rigtigt, med sikkerhed er langt mere effektivt end reklameindustriens mavefornemmelse for, hvad der virker på forbrugerne.

Grænsen er stadig sløret

Sker denne brug af big data til at optimere en virksomheds salg på brugernes bekostning? Nogle gange, men ikke altid. Det kan også være en fordel for forbrugerne.

Når internethandelssiden Amazon anbefaler varer, man måske kunne have interesse i, er det ofte en hjælp til at finde nålen i høstakken.

Men virksomhedernes brug af detaljerede, personlige data kan godt give problemer. Én vigtig diskussion er, om virksomheder må behandle kunder forskelligt baseret på for eksempel genetik eller adfærd?

I Schweiz har et forsikringsselskab netop gennemført et pilotprojekt, hvor kunderne bar fitnessarmbånd, som sendte information om deres fysiske aktivitetsniveau til selskabets server med henblik på at afkræve sofakartoflerne højere forsikringspræmier. Selskabet spørger, hvorfor de aktive skal betale for de dovne?
Sager som denne rejser en række interessante både økonomiske, juridiske og etiske spørgsmål, men skal ikke blokere for fornuftig anvendelse af big data andre steder i den private sektor.

Data-specialisterne bliver nøgleaktører

Behovet for medarbejdere med skarpe data-kompetencer i virksomheder og offentlige forvaltninger er massivt.

En nylig Rambøll-rapport, som har kortlagt danske virksomheders brug af IT og ny teknologi, konkluderede, at omkring to tredjedele af både de private og offentlige virksomheder ikke har adgang til de kompetencer inden for matematik, databehandling og visualisering, som skal til for at kunne analysere de ofte enorme datamængder.

Hvis vi som samfund skal kunne udnytte den viden, der er at hente i big data, er det nødvendigt, at vi får bygget bro mellem forskere og studerende fra universiteterne og de virksomheder og offentlige organisationer, som kan have glæde af big data-specialisternes kompetencer. Her er det nødvendigt med helt nye kurser og uddannelser, som kombinerer traditionel samfundsvidenskab, som for eksempel sociologi, økonomi eller statskundskab, med data science, som er viden om at indsamle, behandle og analysere big data.

Mere data-uddannelse på vej

I dag findes kun få uddannelser, der kombinerer samfundsvidenskab og data science. Men på Københavns Universitet har vi netop startet et social data science-kursus på Det Samfundsvidenskabelige Fakultet, hvor omkring 100 studerende får uddannelse i både at blive afklarede brugere af big data og i selv at kunne indsamle og behandle de store datamængder. Begge dele også med fokus på datasikkerhed og på de etiske overvejelser i forhold til privatliv og datasamkøring.

De studerende på social data science-kurset lærer at indsamle og visualisere store mængder interessante data. Datasættene kan derefter behandles i den studerendes egen hjemmedisciplin, for eksempel økonomi, psykologi eller sociologi. Eller man kan fortsætte med mere avancerede metoder inden for data science.

Vi overvejer også, om vi kan tilbyde efteruddannelse i data science for at give også de, der allerede er færdige som kandidater inden for samfundsvidenskaberne, mulighed for at kunne navigere en verden fuld af big data.

Nye metoder er nødvendige

I natur- og sundhedsvidenskaben har forskerne længe gjort brug af massevis af store datasæt fra genomer til galakser og udvikler løbende nye metoder til at håndtere og finde mønstre i data. Og i de mere tekniske discipliner arbejder statistikere og ingeniører også med big data og ofte med store gevinster.

Men samfundsvidenskab er noget andet end natur- og sundhedsvidenskab, og de massive data-sæt kan heller ikke bare behandles som andre statistiske udfordringer.
I samfundsvidenskaben kommer data fra individer og virksomheder, der hele tiden agerer med bestemte mål for øje og samtidig lader sig påvirke af alt fra love og normer til markedskræfter, politik og pludselige impulser.

Det kræver helt andre metoder til at vurdere data, for hvis vores forskningsdesign ikke er rigtigt, eller hvis vores spørgsmål er forkert formuleret, så vil nok så mange datapunkter ikke hjælpe. Man vil bare komme frem til en forkert konklusion med endnu større sikkerhed, end hvis datamængderne havde været mindre.

Det er blandt andet derfor, at forskere inden for økonomi, sociologi og andre samfundsvidenskabelige dicipliner ikke bare importerer metoder fra datalogi og statistik, men i stedet har tilpasset og udviklet egne måder at gøre tingene på, og det er blandt andet de metoder, vi underviser de nye social data science-studerende i.

Et endnu uudnyttet potentiale

Forskning i big data brager derudaf, og der er et enormt potentiale i at udnytte den viden, der ligger i de store mænger data.
Men det er stadig et mindretal af danske virksomheder, der bruger big data, og endnu færre offentlige institutioner og instanser, så potentialet for besparelser, effektiviseringer og serviceforbedringer er endnu ganske uudnyttet.

Det er derfor afgørende, at samarbejdet mellem forskning og erhvervsliv skal intensiveres, for det er det samarbejde, der er nøglen til at få koblet de enorme private datamængder til de store registerdatabaser, så vi alle for alvor kan få glæde af big data.

Kontakt til forsker

David Dreyer Lassen
Professor
Økonomisk Institut
Telefon: 35 32 44 12
Mobil: 51 33 97 13
Mail: david.dreyer.lassen@econ.ku.dk