Därför får språkmodeller läsa min text innan du gör det

Om hur jag använder språkmodeller som en pratande gummianka, för att få hjälp att förstå om jag förstått, och för att få återkoppling på texter en söndagsmorgon.

När det planlösa experimenterandet med ChatGPT la sig hösten 2022 blev rubriker det första riktiga användningsområdet för språkmodeller jag testade. Trots att jag på olika sätt försörjt mig på skrivande sedan jag lämnade journalisthögskolan i juni 2000 har just rubriker aldrig blivit min grej. De blir inte bra när jag försöker.

Men med språkmodellernas hjälp blir de åtminstone bättre.

Arbetsflödet är okomplicerat: När jag är klar med min text skickar jag in den i en språkmodell, tillsammans med en instruktion om ge mig några rubrikförslag tillbaka.

Det är sällan språkmodellen spottar ur sig något som jag använder rakt upp och ned. Men det som dyker upp på skärmen är ofta tillräckligt av en knuff i kreativ riktning för att jag med hjälp av modellen ska landa i en rubrik som jag känner mig nöjd med.

Med ett oregelbundet intervall skickar jag ett nyhetsbrev.

Att låta sig utmanas av språkmodellerna #

Här någonstans hittade jag också ett förhållningssätt i min personliga användning av språkmodellerna som jag fortfarande förfinar, men som jag inte riktigt lyckas formulera i ord. Men ett försök: Istället för att hamna i en situation där jag behöver ifrågasätta eller utmana språkmodellen tycker jag att jag har större glädje av dem när jag lyckas vända på rollerna och det är modellen som utmanar mig, i mitt tänkande.

Några exempel, som steg för steg går från researchfas till färdig text, gör det förhoppningsvis tydligare vad jag menar med det.

Vad svarar gummiankan? #

Rubber ducking är egentligen bara ett roligare namn för att prata högt för sig själv. Just ank-metaforen kommer från IT-världen, där programmerare använder (reservation för att det här kan vara en skröna) gummiankor som samtalspartner när de dyker på svårlösta buggar i sin kod. Genom att prata högt löser man upp den knuten.

Med Advanced Voice Mode i ChatGPT går det nu att ha en “samtalspartner” som inte bara passivt lyssnar, utan som faktiskt aktivt engagerar sig i en diskussion och som svarar med tillräckligt snabbt för att samtalet ska flyta på.

“Lämna tangentbordet och ta en promenad” är ett gammalt hederligt knep att ta till när skrivkrampen ger sig till känna. Det funkar ofta, men långt ifrån alltid. ChatGPTs röstläge erbjuder en extra skjuts i de situationerna. Jag startar samtalet med att beskriva vad det är som skapar friktion, vad syftet med texten är, eller annat som känns relevant och ger ChatGPT en instruktion att ställa frågor till mig som kan hjälpa mig att bena ut hur jag ska komma vidare. Fungerar bra, och tillbaka vid datorn har jag hela konversationen sparad och kan kopiera de delar som faktiskt går att använda i texten.

Har jag förstått? #

Men det är inte säkert att det är ChatGPT jag pratar med på promenaderna. Ibland är det gammalt hederligt “tänka högt” jag ägnar mig åt. Men inte rakt ut i luften, utan med inspelningsfunktionen igång i telefonen. Det här är när jag läst något jag nästan förstår, men inte riktigt. Då brukar jag göra en inspelning där jag på olika sätt beskriver hur jag förstått texten, vänder och vrider på den lite utifrån det jag kan.

Och sen, tillbaka vid datorn, skickar jag upp både källan och min inspelning till en språkmodell – för det här använder jag just nu oftast Googles NotebookLM – och ber språkmodellen ta sig an både min inspelning och ursprungskällan. “Jämför innehållet i den här vetenskapliga artikeln med inspelningen där jag försöker sammanfatta den. Finns det något som jag har missförstått?”

Har jag fått med allt? #

När texten börjar bli klar, särskilt om den bygger på ett lite mer omfattande researchmaterial, som både artiklar och intervjuer, gör jag en variant på prompten ovan. Men nu med nästan färdig text i jämförelse med researchmaterialet. I ett par olika steg tar jag språkmodellen till hjälp för att återigen hitta eventuella missförstånd jag gjort, men också för att få hjälp att identifiera vissa bärande resonemang som jag inte fått med i min text eller andra saker som finns i bakgrundsmaterialen men inte i min text.

Även här är NotebookLM min go to-lösning. Möjligheten att skapa avgränsade projekt där man laddar upp referensmaterial i form av dokument, ljudfiler, webblänkar, YouTube-filmer och så vidare gör att verktyget är det bästa jag hittat för de här två stegen.

Är texten begriplig? #

Och som sista steg, när jag tycker att jag har en färdig text som innehåller det jag vill ha med, har jag ett par olika varianter på “läsar-prompter” som hjälper mig att hitta resonemang som behöver förtydligas, svåra ord som behöver förklaras, eller andra ändringar som kommer göra texten mer lättläst och lättillgänglig för den tänkta målgruppen. Här har jag formulerat olika prompter för olika personas (teknikkunnig, tekniknyfiken och så vidare) och som hjälper mig göra texten bättre.

Att hantera språkmodellernas “hallucinationer” #

Genomgående i alla de här stegen är att jag inte ber språkmodellen göra jobbet åt mig, utan bara ge förslag och komma med synpunkter på det jag har gjort. Sen är det upp till mig att ta till mig av den feedback jag får, vad håller jag med om och vad kan jag bortse från? För precis som med rubrikerna är det långt i från alltid som jag håller med om språkmodellernas slutsatser.

Det är också värt att poängtera att språkmodellernas “hallucinationer” (att de utan att blinka kan påstå egentligen vad som helst) inte är ett problem för de här användningsområdena. Till största delen saknas tydliga rätt och fel i en sån här skrivprocess. Snarare är det “ja, man kan skriva så, men man skulle också kunna skriva så här”. Och i den processen blir språkmodellernas “självförtroende” ett mindre problem. Om svaret väldigt tydligt uttrycker att jag borde ändra texten på ett visst sätt så är det inte annorlunda mot när en redaktör sagt samma sak. Ibland håller jag med och ändrar. Ibland tycker jag att feedbacken är helt felaktig och tar ingen hänsyn till den alls. Ofta hamnar jag någonstans mittemellan.

Undantaget är när jag använder språkmodellerna för att lära mig nytt. Men här tror jag att sättet som jag gör det på är mindre riskfyllt än att bara ställa en rak fråga till en språkmodell och utgå från att svaret jag får tillbaka är hundraprocentigt korrekt. Jag försöker vara medveten om att jag inte kan lita på modellens svar, itererar flera gånger och kollar med andra källor.

För vissa av de här stegen är till och med hallucinationerna, eller i det här fallet kanske snarare den “kreativa förmågan”, precis det jag behöver. Långa listor med rubrikförslag, anpassade efter mina instruktioner om i vilket sammanhang texten ska publiceras, med önskemål om att anspela på vissa delar i texten lite extra mycket, och så vidare, är ett resultat av just de egenskaperna hos språkmodellerna.

Vad blir bättre? #

Ett vanligt resonemang kring språkmodeller är att de kan spara tid. Kanske gör jag jobbet snabbare tack vare den hjälp jag får från tekniken, men det tycker jag är svårt att avgöra. Det jag däremot är övertygad om är att jag får god hjälp på vägen mot bättre texter.

Den första texten jag skrev som praktikant på Ny Teknik hösten 1999 behövde jag skriva om många gånger innan min handledare var nöjd. Varje omtag gjorde den lite bättre, och till slut var den klar för publicering.

Processen med språkmodellerna skiljer sig egentligen inte från den, i sak. Skillnaden är hur lättillgänglig feedbacken blir. Medan jag skrivit det här texten har jag bett om återkoppling av både delar och helhet ett par gånger, betydligt fler än vad jag skulle kunnat be en redaktör om. Och dessutom återkoppling på minuten, även en söndagsmorgon.

Så för mig handlar det här inte om att jobba snabbare. För mig handlar det om att få till bättre texter.

(Hoppas att det lyckades den här gången också!)