Direct naar inhoud
← Terug naar overzicht

Gepubliceerd op

Lokale AI met Ollama — wanneer het echt zin heeft

Een korte praktijknotitie over waar lokale modellen wel en niet thuishoren in een product- of opdrachtsetting.

“Draai het lokaal” klinkt aantrekkelijk: geen API-kosten, geen data die je servers verlaat, geen rate limits. Maar lokaal draaien is geen vrijbrief — je ruilt één set zorgen in voor een andere.

In dit korte stuk: drie scenario’s waarin Ollama (of een vergelijkbare lokale runtime) écht waarde toevoegt, en drie waarin het je vooral pijn doet.

Wanneer lokaal goed werkt

  1. Gevoelige data die het pand niet uit mag. Bijvoorbeeld een klantenservice- bot voor interne documentatie. De latency van een 8B-model op een M-serie Mac is doorgaans prima voor één gebruiker per keer.
  2. Snelle iteratie tijdens development. Een lokaal model voor prompt-tweaking en chain-testing scheelt enorm veel cloud-roundtrips en geld. Schakel pas naar een sterker model voor de regressietests die je echt serieus neemt.
  3. Edge-scenario’s. Een agent die op de laptop van een fieldworker draait, los van connectiviteit. Hier verlies je weinig met een kleiner model en win je veel met de offline-mogelijkheid.

Wanneer lokaal je pijn doet

  1. Wanneer je echt het redeneervermogen van een topmodel nodig hebt. Geen lokaal 7B-model haalt op dit moment het niveau van een groot frontier-model. Voor complexe extractie, lange context of meerstapsredeneringen blijft de cloud meestal de juiste keus.
  2. Wanneer je throughput moet schalen. Eén gebruiker tegelijk is haalbaar; tien parallelle gebruikers vragen al snel een GPU-bak die je liever niet beheert.
  3. Wanneer de operationele last verschuift naar jou. Modellen updaten, RAM monitoren, drivers in de gaten houden — als je organisatie dit niet wil of kan, is een hosted model goedkoper dan het lijkt.

Een pragmatisch patroon

Wat All Open vaak doet in opdrachten: hybride. Lokaal voor classificatie, routering, retrieval en korte samenvattingen. Cloud voor de eindverantwoordelijke stap. Dat scheelt aanzienlijk in kosten en latency, zonder dat je het redeneervermogen inlevert waar het er écht toe doet.

Geen revolutie — gewoon goed ingerichte engineering.