Små, öppna språkmodeller ger lokalproducerade svar

Har du provat några av de små språkmodellerna än? Om inte, gör det. Jag tror att chansen är stor att du kommer att upptäcka att lokala modeller, där du behåller all data hos dig själv eller i organisationen, många gånger kan vara ett realistiskt komplement till molnbaserade tjänster och API:er.

Tio rubrikförslag från fyra miljarder stora Qwen3.

Det här är tio lokalproducerade rubrikförslag från fyra miljarder stora Qwen3. Inte tillräckligt bra att användas rakt upp och ner. Men tillräckligt bra för att fungera som en knuff på vägen om man som jag tycker rubriker är svårt.

Det är sedan åtminstone i våras spännande att experimentera med små, öppna språkmodeller. Självklart går det att få dem att svara skrattretande dumt. Men för några av de användningsområden där jag upplever att jag har störst glädje av språkmodeller – som stöd i tankearbete och kreativa processer – gör de minsta alternativen allt bättre ifrån sig.

Och för vissa användningsfall är den avgörande skillnaden inte det exakta resultatet, utan att allt händer lokalt, på en fyra år gammal MacBook Pro.

För några veckor sedan beskrev jag hur OpenWebUI gör det möjligt att hoppa mellan olika språkmodeller, men utan att för den sakens skull behöva flytta med sig sin chatthistorik och sina referensdokument mellan olika tjänsteleverantörer.

Just nu innebär det att jag har tillgång till OpenAIs gpt-5, Anthropics Opus 4.1 och Sonnet 4, och Googles Gemini 2.5 Pro i ett och samma gränssnitt och väljer modell utifrån uppgift.

Men i listan med modeller som jag valt att lägga till i OpenWebUI finns inte bara de stora flaggskeppen, utan också ett gäng modeller som inte får lika stor uppmärksamhet: OpenAIs öppna gpt-oss, Microsoft Phi4 Mini Reasoning, Alibabas Qwen 3 och Nvidias alldeles nylanserade Nemotron Nano.

De här modellerna har två saker gemensamt:

För de första är de mindre. Storleken på språkmodeller anges i antalet så kallade parametrar, vilket för de allra mest avancerade modellerna innebär många hundratals miljarder. Av modellerna på den “anonyma listan” är gpt-oss störst, den finns i en variant med 120 miljarder parametrar och en med 20. Phi4 Mini Reasoning är minst, med knappt 4 miljarder.
För det andra är de öppna modeller. Det innebär att de går att ladda ner och köra på en egen server, de allra minsta till och med på en vanlig konsumentdator. Qwen 3 och Phi4 Mini Reasoning kör jag på en MacBook Pro från 2021, med en M1 Pro-processor och 16 gigabyte internminne.

Kombinationen av mindre och öppna modeller är en stark trend just nu, som förstärker möjligheterna med verktyg som OpenWebUI ytterligare eftersom det innebär att modellerna kan köras lokalt.

Så hur bra är de små modellerna? #

Det beror på hur komplexa uppgifter du behöver hjälp med, hur stort problem dåliga svar är, och på hur stor del av jobbet du vill eller är beredd att göra själv.

Ett sätt att få dem att se dumma ut är att ge dem förhållandevis enkla gåtor att lösa.

You are the bus driver. At the 1st stop of the day, 8 people get on board. At the 2nd stop, 4 people get off and 11 people get on. At the 3rd stop, 2 people get off and 6 people get on. At the 4th stop 13 people get off and 1 person gets on. At the 5th stop 5 people get off and 3 people get on. At the 6th stop 3 people get off and 2 people get on.

What color are the bus driver’s eyes?

Den minsta varianten av Qwen3 som jag testat har bara en halv miljard parametrar, en pytteliten modell i sammanhanget. Och den misslyckas på ett väldigt underhållande sätt. Efter att ha tänkt för sig själv i 13000 tecken (i runda slängar dubbelt så långt som det här blogginlägget) och gjort flera försök att hitta samband mellan passagerare och ögonfärg kommer den fram till ett svar:

The bus driver's eye color is red. The numbers in the riddle are distractions, and the color red is a common association with the driver's eyes.

Men redan när man kliver upp några steg, till fyra miljarders-varianten av Qwen3, blir det bättre. Svaret innehåller gåtans lösning, men modellen lyckas ändå lägga krokben för sig själv:

Since the riddle explicitly states "You are the bus driver," the question "What color are the bus driver’s eyes?" is asking about the answerer’s own eye color. However, in the context of this riddle and its classic structure, the expected answer is: Blue.

This is a well-known trick in riddles where the answer is not derived from the numbers given, but from the identity of the person answering the riddle. The color "blue" is a common default answer in such riddles to maintain the trick's effectiveness.

När de är tillräckligt bra: Som bollplank... #

Att svaret blir bättre ju större modellen är överraskar så klart inte (och kan dessutom på att den specifika gåtan finns med i träningsmaterialet).

Men hjälp att lösa gåtor är inte det största behovet jag har. Det jag använder språkmodeller till allra mest är som en sparringpartner i tankeprocesser. Att förbereda intervjufrågor, sätta rubriker, och att identifiera brister i resonemang som jag tänkt bygga presentationer på.

Här märker jag att de små modellerna över tid blir allt bättre på att hjälpa mig. Det beror till stor del på att de är utvecklade att ha generell förmåga att resonera. Däremot saknar de mindre modellerna det mesta av “kunskapsinnehåll” som ryms i de betydligt större.

Men för de gånger när jag vill ha hjälp att tänka spelar det mindre roll, eftersom jag då förser modellerna med den bakgrundsinformation som är relevant för sammanhanget. En beskrivning av vad intervjun ska handla om och några exempel på frågor som jag tänkt ställa, den färdiga texten, mitt resonemang för presentationen, anteckningar från en bok jag läst och så vidare. Här använder jag inte språkmodellerna för att få hjälp att komma fram till ett korrekt svar, utan att de ska peta på mig från lite olika håll för att jag ska tänka själv.

...och som motorer i agentiska flöden #

Vad jag inte kommit igång på allvar med är byggen av “agentiska flöden”. I våras skrev jag om hur jag använder automationsverktyget n8n och GPT-4o för min omvärldsbevakning. För just den tillämpningen, då det handlar om att analysera material som finns på internet, finns inga hinder att använda OpenAIs API och låta GPT-4o göra jobbet. Och det är också ett exempel där “fel” output inte är ett problem. I det här fallet resulterar det antingen att något jag är intresserad av inte dyker upp i sammanfattningen, eller att något jag inte vill läsa är med. Ju träffsäkrare modellen väljer ut sånt som är relevant för mig, desto bättre. Men det här är en tillämpning där det inte går att göra kritiska fel. Tillräckligt bra räcker.

Och med tillräckligt bra små och lokala språkmodeller öppnar sig möjligheterna för många andra tillämpningar. Flera av agent-idéer jag har funderat på bygger på data som jag inte vill dela med molntjänster. Som att gå igenom mailen eller hålla ett öga på min kalender. Med n8n på en egen server i kombination med lokala modeller försvinner de flesta integritetsutmaningarna kring hur data kan delas.

Nvidia publicerade i somras en (än så länge ogranskad) artikel om små modeller och agentiska flöden. Den innehåller många resonemang som visar att det här är en utveckling värd att hålla ögonen på framöver:

The above-mentioned “Lego-like” composition of agentic intelligence—scaling out by adding small, specialized experts instead of scaling up monolithic models—yields systems that are cheaper, faster to debug, easier to deploy, and better aligned with the operational diversity of real-world agents. When combined with tool calling, caching, and fine-grained routing, SLM-first architectures appear to offer the best path forward for cost-effective, modular, and sustainable agentic AI.

Tre alternativ för att testa själv #

Nyfiken på hur små språkmodeller kan hjälpa dig? Ett enkelt sätt att testa är att installera Ollama, AnythingLLM eller LM Studio och installera någon eller några av de små modellerna.

Testa sen gärna några gåtor, för att få ett gott skratt.

Men gå sen vidare och ge modellerna en chans att hjälpa dig i dina egen tankeprocesser, utifrån material som du själv förser dem med.

Jag tror att chansen är stor att du kommer att upptäcka att lokala modeller, där du behåller all data hos dig själv eller i organisationen, många gånger kan vara ett realistiskt komplement till molnbaserade tjänster och API:er.

Små, öppna språkmodeller ger lokalproducerade svar

Så hur bra är de små modellerna? #

När de är tillräckligt bra: Som bollplank... #

...och som motorer i agentiska flöden #

Tre alternativ för att testa själv #

Med ett oregelbundet intervall skickar jag ett nyhetsbrev.