15. juni 2023

Skab et offentligt alternativ til techgiganterne

Sprogmodellerne kan føre til større ulighed og mindre frihed. Omvendt kan de øge vores produktivitet, fremme den grønne omstilling og afhjælpe manglende arbejdskraft. Hvad kan vi gøre for at høste frugterne uden at falde på røven?

Kronik i Politiken den 15. juni 2023 af professor Anders Søgaard (KU), professor Sune Lehmann (DTU og KU), professor Rebecca Adler-Nissen (KU), professor Ole Winther (DTU og KU) og professor Michael Bang Petersen (AU).

HISTORIEN RUMMER mange korsveje. Nogle korsveje er ubetydelige for historiens videre gang. Andre er afgørende. Hvilken vej man vælger, er afgørende for, hvordan historien og dermed vores alle sammens liv former sig. Sidste gang vi stod ved en sådan korsvej i forhold til digital teknologi, var med de sociale medier.

Dengang gik vi ned ad en vej, som lod et lille antal virksomheder tage kontrol over de onlinenetværk, der forbinder os. Og lige siden har vi døjet med konsekvenserne: hadefulde diskussioner, hastig deling af misinformation og et konstant dræn af vores opmærksomhed.

I dag gør udviklingen i kunstig intelligens, at vi står ved en ny og endnu mere afgørende korsvej. Hvad vælger vi denne gang? Hvilken vej går vi?

OpenAI slog til på det rigtige tidspunkt, investerede en masse tid og penge, blandt andet med Microsoft i ryggen, og trænede en fremragende sprogmodel, GPT-4. En sprogmodel, der var markant bedre end tidligere iterationer.

En generel sprogmodel, der som en schweizerkniv tilsyneladende kan løse næsten alle vores problemer på én gang. Den kan skrive din skilsmissekontrakt, bestå en juridisk eksamen, fabrikere overbevisende misinformation, udføre et effektivt hackerangreb og opfinde et nyt logo til din virksomhed. Og en masse andet. Og Google har nu gjort dem kunsten efter med PaLM-2.

Der er sprogmodeller derude, der er bedre end GPT-4 og PaLM-2 til nogle ting, men der er sandsynligvis ingen sprogmodeller, der er så gode til så mange ting. Det kommer der måske snart. I løbet af et par uger. Måske et par måneder.

Selv om det er dyrt at træne en GPT-4 eller en PaLM-2, er gevinsten stor. Og dusinvis af amerikanske og kinesiske har allerede meldt sig på banen. Spørgsmålet er naturligvis, om de kan indhente dem, der tyvstartede. Især GPT-4 har fordelen af at være først blandt de største. Mere om det om lidt.

DE FØRSTE forskere inden for kunstig intelligens drømte også om teknologi, der som en schweizerkniv kunne alting på én gang. I 50'erne arbejdede forskerne på en slags kunstig intelligens, de kaldte General Problem Solver. Projektet fejlede, og forskerne gik hver til sit: Nogle arbejdede med maskinoversættelse; andre med skakcomputere.

Nu, 70 år senere, samles de - eller deres videnskabelige efterkommere - igen. Kunstig intelligens er igen blevet et samlet forskningsfelt. Og vi har fået et værktøj, der ligesom Googles søgemaskine er blevet det første, vi hiver frem, når der er noget, vi er i tvivl om. Et værktøj, vi ligesom med Googles søgemaskine lynhurtigt kan blive afhængige af. Et værktøj, der kan blive en del af vores kritiske infrastruktur. Men også: Et værktøj, som det er usikkert og muligvis ulovligt for mange at bruge.

En fuldmægtig i kommunen, som ønsker hjælp fra kunstig intelligens og sprogmodeller, er i dag fanget mellem to stole.

Som mange offentligt ansatte sandsynligvis under et vist tidspres og måske endda opfordret til at bruge kunstig intelligens og generelle sprogmodeller til at lette sine arbejdsgange. Men hvilken teknologi, hvilken sprogmodel, skal hun vælge? Det ser ud, som om der er ét valg mellem to muligheder: at benytte GPT-4 (eller PaLM-2), selv om den sandsynligvis er på kanten af lovgivningen; eller anden, langt dårligere teknologi.

Der findes i hundredvis af andre sprogmodeller, også for dansk. Nogle er bedre end GPT-4 og PaLM-2 til specifikke opgaver, men GPT-4 kan næsten alting ret godt - en slagkraftig teknologi med en meget naturlig brugergrænseflade.

I stedet for en værktøjskasse af sprogmodeller til forskellige formål er GPT-4 og PaLM-2 schweizerknive. Ét værktøj til alle dine opgaver.

Men vores fuldmægtige i kommunen kan ikke bruge GPT-4 eller PaLM-2 til særlig meget uden at komme på kant med loven. Som dataansvarlig skal du nemlig sikre dig et tilstrækkeligt sikkerhedsniveau for behandlingen af personoplysninger. Og det stiller OpenAI og Google endnu ingen garanti for, selv om man nu kan tilvælge, at ens data bliver slettet efter 30 dage.

Vi ved også, at sprogmodeller virker bedre for nogle mennesker end for andre. Politikerne rasler med sablen og overvejer, at virksomheder som minimum skal deklarere, hvis deres chatbots, talegenkendelsessoftware eller ansigtsgenkendere opnår mere brugbare resultater for nogle befolkningsgrupper end for andre.

Det kan også forhindre vores fuldmægtig i at bruge GPT-4 eller PaLM-2, da hun naturligvis ikke må forskelsbehandle borgerne. Endelig er der uløste problemstillinger omkring transparens og ansvarsfordeling.

Vores fuldmægtig er blot et eksempel. Tusindvis vil blive fristet af denne teknologi: hjemmeplejere, skolelærere, jurister, læger. Og tusindvis vil være forhindret i at bruge den. Og komme på kant med loven, hvis de alligevel gør det.

SPROGMODELLERNE sætter os alle sammen mellem to stole: Som beskrevet i vores første tre Kroniker kan sprogmodellerne blive et effektivt redskab i hænderne på autoritære regimer og kriminelle organisationer og i hænderne på techgiganterne lede til et mere intenst forbrug af tom underholdning og sociale medier.

Sprogmodellerne kan også også skubbe til globale og lokale magtbalancer og bidrage til større ulighed og mindre frihed for den enkelte. Omvendt kan de øge vores produktivitet, fremme den grønne omstilling, afhjælpe manglende arbejdskraft og kompensere for funktionsnedsættelser i bestemte befolkningsgrupper. Og en masse andet. Hvad kan vi gøre for at høste frugterne uden samtidig at falde på røven?

Flere og flere mener, at vi skal regulere techgiganternes kunstige intelligens baglæns ud ad døren. Insistere på, at deres produkter skal leve op til en lang række krav, som vi bestemmer i fællesskab - borgere i Danmark, Norden, Europa eller hele Jordens befolkning. Kina er det første land til at særlovgive på dette område, men både i Bruxelles og i Washington arbejder man med ny lovgivning. Der er momentum for regulering, et åbent vindue, og regulering er nødvendigt. Men det er ikke nok. Vi bør også udvikle et offentligt, sikrere alternativ.

Er det muligt at lave et konkurrencedygtigt offentligt alternativ til de kommercielle chatbots, GPT-4 og PaLM-2, vil mange nok spørge. Et offentligt alternativ til OpenAI og Google? Lad os først se lidt på, hvordan det i det hele taget går med at fremstille konkurrencedygtige alternativer til GPT-4 og PaLM-2.

Lige nu diskuterer mange, om OpenAI og Google vil blive ved med at være et skridt foran, eller om open source-alternativer vil erobre markedet. Open source giver alle adgang til computerkoden bag, mulighed for selv at lave en ny version og mulighed for at videregive programmet.

I løbet af de sidste måneder er den slags alternativer til GPT-4 blomstret frem. Mange af dem er skabt på små budgetter.

Modellerne er videreudviklinger af eksisterende open source-sprogmodeller, f.eks. Meta's Llama eller Pythia. Ved hjælp af nye teknikker til tilpasning af sprogmodeller og online-samlinger af gode dialoger med ChatGPT og GPT-4 kan man hurtigt lave sin egen chatbot. For kun et par tusinde kroner.

Open source-løsningerne åbner en masse døre - også for udviklingen af sikrere offentlige alternativer til GPT-4, men der er stadig langt fra Alpaca og Vicuna til GPT-4 og PaLM-2. Og der er mindst tre grunde til, at open source-løsninger sandsynligvis ikke af sig selv vil indhente GPT-4: For det første bliver det svært for open sourceløsninger at nå brugerne. OpenAI/Microsoft og Google har enorme marketingbudgetter og privilegeret adgang til brugerne gennem Microsofts software og Googles søgemaskine.

For det andet har OpenAI så mange brugere allerede, at de kan forbedre deres chatbots langt hurtigere end konkurrenterne. Her har de en kæmpe fordel, også i forhold til Google. For det tredje har OpenAI - gennem Microsoft - adgang til nærmest uendelig mange computere. Det samme har Google.

HVAD VIL DET kræve at fremstille et offentligt, konkurrencedygtigt alternativ? Et sprogmodellernes Cern, om man vil.

På et punkt er det offentlige godt med. Det offentlige har privilegeret adgang til borgerne - og til infrastrukturer, der gør det lettere at leve op til f.eks. aldersverificering, datasikkerhed og fairness. Et fælleseuropæisk alternativ vil hurtigt kunne nå et antal brugere, der svarer til OpenAIs.

To udfordringer står tilbage: medarbejdere og computere. OpenAI og Google har mange dygtige forskere og udviklere. Hvordan kan det offentlige tiltrække lige så dygtige medarbejdere?

Det korte svar er: fordi medarbejderne hos OpenAI og Google gerne vil arbejde for det offentlige (hvis vilkårene er gode).

Vi får på universiteterne flere og flere ansøgere derfra. Mange af dem har nemlig fået en dårlig smag i munden de seneste måneder og forlader virksomhederne i en lind strøm. Derudover bliver det lettere at træne store sprogmodeller, for hver dag der går.

Danmark har et af verdens bedre forsknings- og undervisningsmiljøer for den her slags kunstig intelligens. Og hvad med computere?

Uanset om en offentlig - dansk eller fælleseuropæisk - sprogmodel skal trænes fra scratch eller ej, er træningsudgifterne den mindste udfordring. Det er vedligehold og daglig drift, der er dyrest.

Driften af den her type teknologi er dyr. Ligesom driften af elnettet, vejnettet, offentlige transport, sygehusene, osv.

Spørgsmålet er, hvor vigtigt vi tænker, at det er? Hvor vigtigt vi tænker, at det er at have adgang til den her slags teknologi. Og hvor vigtigt vi tænker, det er at forhindre, at vores adgang til denne afgørende teknologi er i andres hænder. Og afhængig af deres mindste indskydelser. Og vi er, skal vi måske tilføje, ikke de eneste, der har fået denne idé: På openpetition.eu er en underskriftindsamling i gang for at etablere et Cern for udvikling af open source-sprogmodeller. Indtil videre har 3.500 skrevet under.

NÅR VI REGULERER brugen af kommercielle sprogmodeller og investerer i offentlige alternativer, er det - som anvist i de tre foregående Kroniker - afgørende, at a) sprogmodellerne ikke øger ulighed og underminerer menneskerettigheder, at b) sprogmodellerne ikke bidrager til børns og unges - ja, vores alle sammens - dræn af opmærksomhed, at c) sprogmodellerne ikke gør os mere sårbare over for kriminelle og geopolitiske trusler.

Der er mange måder at imødekomme disse udfordringer på. Flere af de lovgivningspakker, der diskuteres i USA, EU og Kina, har indeholdt forslag til deklarationskrav, der tydeliggør over for brugerne, hvis f.eks. teknologien virker bedre for nogle befolkningsgrupper end for andre.

I den amerikanske debat kaldes det 'nutrition labels'. Lige nu foreslår flere og flere begrænsning af skærmtiden, men man kan også overveje at forbyde engagementsoptimering, infinite scroll, streaks og andre teknologier, som er designet til at fastholde opmærksomhed.

Som OpenAI har påpeget, er det ikke et socialt medie og optimerer ikke for engagement, men det gør deres sprogmodeller i andres hænder, f.eks. Snapchats.

Hvis vi lægger os an på kommercielle sprogmodeller, er vi også nødt til at forlange leveringsstabilitet og adgang, så vi kan forstå og kontrollere, hvad der foregår i de modeller, som kommer til at påvirke vores liv, den offentlige samtale og vores nationale sikkerhed. Vi er nødt til at sikre os, at kriminel aktivitet kan spores, uden at personfølsomme oplysninger lækkes. Og vi er nødt til at bekæmpe markedsmonopoler.

En regulering af sprogmodeller vil naturligvis gælde både kommercielle og offentlige bud. Og kan altså gælde som en slags kravspecifikation til udviklingen af et offentligt alternativ.

EU er på vej med regulering, men reguleringen risikerer at lande alt for sent og være utilstrækkelig. AI-forordningen vedtages i løbet af det næste år, men lægger op til en forberedelsesperiode på 24 måneder, fra den træder i kraft, for at give virksomheder og alle andre mulighed for at tilpasse sig.

DET BETYDER ALTSÅ, at vi tidligst har lovgivning på det her område i slutningen af 2025 eller begyndelsen af 2026. Indtil da reguleres teknologien udelukkende af eksisterende lovgivning og kritiske forbrugere. Derfor er oplysning om disse teknologier uhyre vigtigt.

De forskere, som råber vagt i gevær for tiden, er ikke blot bekymrede for, hvad der sker om to eller tre år, men også for, hvad der sker i løbet af de næste måneder.

Vi foreslår, at der nedsættes et udvalg af repræsentanter for alle dem, der har allermest nytte af teknologien, og som er mest udfordret af teknologien: ordblinde, ingeniører, ældre, sosu-assistenter, folkeskolelærere osv. Og at udvalget ser på, hvorvidt EU's AI-forordning og eksisterende lovgivning herhjemme er tilstrækkelig til at sikre, at ingen kommer i klemme.

Vi foreslår også, at alle, der kan, bidrager til en fælles kritisk bevidsthed om udfordringer og muligheder ved kunstig intelligens.

Og at vi samtidig sender hatten rundt - blandt landets store fonde, private donorer og politikere.

Måske også uden for landets grænser. Og finder ud af, om vi kan skrabe penge sammen til som samfund at drifte et konkurrencedygtigt alternativ til en teknologi, der lige nu har lagt vores skæbne i hænderne på en virksomhed i San Francisco eller Seattle.

Og nej, Danmark skal naturligvis ikke gå enegang. I 1958 blev der holdt et offentligt møde om atomnedrustning i Westminster, der ledte til demonstrationer på Downing Street. Arrangørerne tog også initiativ til den første Aldermaston-march, en fire dage lang march.

Tusinder deltog. Marcherne fortsatte i næsten ti år. Politikerne begyndte snart at blande sig. I 1961 holdt USA's præsident John F. Kennedy en tale foran FN's Generalforsamling, hvor han bekendtgjorde USA's hensigt om at udfordre Sovjetunionen, ikke til et våbenkapløb, men til et fredskapløb.

Danmark skal ikke gå enegang. Men selv om Danmark ikke skal gå enegang, kan vi jo godt, som Storbritannien i 1958, gå forrest og tage initiativ til et kapløb om at udvikle sikker, offentlig kunstig intelligens.

Det Samfundsvidenskabelige Fakultet

Skab et offentligt alternativ til techgiganterne

Emner