Hvad kostede det så for dig når du nu er løbet tør for tokens?
Teknologi
For debat og nyheder omkring teknologi af alle former.
90 EUR om måneden. Men er ikke løbet tør for hele måneden. Du har flere "vinduer" - et, der nulstilles hver femte time, og et andet ugentligt.
Mit token vindue nulstiller igen her til middag.
Så jeg kan ikke sige, hvad denne session har kostet. Men altså hvis jeg nu brugte alle tokens hver femte time (maksimalt udnyttede mit abonnement - uden pauser og søvn), så har jeg vel skullet betale €90 / (730 timer i en måned/5 timers vindue) ≈ €0.62, hvis man kan stille det op sådan forsimplet.
Med 4.7 kunne jeg typisk jonglere 3 agenter, der arbejdede på hver deres del af kodebasen, og lige netop holde mig inden for mit loft hver femte time.
Men den her ultracode mode i 4.8 er en anden liga. Som jeg ser det, skal den ikke bruges hele tiden som standard.
Har du prøvet andre end Claude? Jeg ville faktisk gerne til at prøve noget AI kodning men har det lidt skidt med at skulle betale for sådan et abonnement til et amerikansk tech-firma. Men min opfattelse (mavefornemmelse) er at lokale modeller ikke er gode nok og at der ikke findes europæiske alternativer der faktisk kan konkurrere på kvalitet.
For europæisk kan du evt prøve Mistral, ellers ville kinesisk deepseek v4 nok være en god billig en for bare at prøve det. Har selv codex/openai privat og GitHub copilot på arbejdet
Lokale modeller er faktisk blevet gode, men vi snakker stadig at man skal have dedikeret highend gear for rigtig at bruge det (noget der let kan koste 100k kroner). Hvis du har en enkel god gpu (4090, 5090 eller Mac med meget integrated ram) kan du rimlig hurtigt prøve en af de mindre open source modeller som qwen 3.6 (27b eller 35b 3b expert) og se om den er god nok for dig, ollama (for at køre modellen) + pi.dev (som din "claude code") er nok hurtigst i opsætning
Kan du huske, om Claude Code har åbnet op for, at man kan bruge andre modeller end deres egne?
Brugte cline i VS code, før jeg skiftede til Claude Code (også en Vs code extension).
Korrekt antaget. Se https://artificialanalysis.ai/leaderboards/models for benchmark sammenligning. Husk at tage benchmarks med et gran salt.
Ja, jeg har prøvet andre end Claude. Har prøvet Gemini 3.x i VS Code, og brugte GPT 5.x i en tidlig version af Codex. Mistral er kommet langt med deres "Vibe" platform. Diverse kinesiske modeller er ikke langt bagefter, som Baizey skriver.
Lang historie kort: Efter min opfattelse, giver Claude Code de bedste resultater.
Hvis du vil opleve, hvor langt LLM-assisteret programmering er kommet, så skal du prøve en flagskibsmodel (med thinking level på max). Hvis du kan nøjes med noget, som er halvt så godt (cirka 1 år bagud), så prøv én af de open source +100B parametre modeller over API - f.eks. Mistral Medium 3.5 (tror jeg, den nyeste hedder?).
Hvis du vil prøve local LLM kodning (så er vi vel ca. 2 år bagud ift flagskibene), så prøv én af de nyeste Mixture of Experts modeller med færre aktive parametre, der kan køre på ~16 GB VRAM. Men du bliver nok skuffet, hvis du forventer større, sammenhængende kode.
Nå, nu bed jeg i det sure æble og fik mig en pro subscription hos Anthropic.
Du virker til at have brugt det i længere tid - hvor finder du tips og råd til at bruge Claude effektivt? Lige nu tænker jeg mest på hvordan jeg gør det nemmere at lave code review på det Claude har skrevet og så måske ideer til hvordan jeg udnytter tokens når jeg ikke sidder ved computeren - altså man betaler jo for dem og de nulstiller hver 5. time eller hvordan det er, så man kan da lige så godt bruge dem til noget?
spoiler
Spøg til side.
hvor finder du tips og råd til at bruge Claude effektivt?
Søger ikke rigtigt efter det. Jeg prøver mig mest bare frem. Holder dog øje med deres blog(s). Der er af og til nogle guldkorn.
Skills er vidst smart at kunne bruge - men jeg har ikke selv arbejdet med det endnu.
Lige nu tænker jeg mest på hvordan jeg gør det nemmere at lave code review på det Claude har skrevet
Den nemmeste måde at lave code review på en plan eller en implementation, som Claude har lavet er: ultracode. Bump thinking level helt op, og se dine tokens forsvinde x5 gange hurtigere. Efter min erfaring, har det kunnet betale sig - slutresultaterne er bedre, og jeg slipper for at skulle dele min prompt op i flere sessioner og markdown planer og ekstra revisioner osv.
og så måske ideer til hvordan jeg udnytter tokens når jeg ikke sidder ved computeren - altså man betaler jo for dem og de nulstiller hver 5. time
Ah. Ja. Så må du prøve at eksperimentere med deres nye Dispatch. Det er sådan en slags OpenClaw/Hermes lite efterligning. Ved ikke, om det stadig kræver Claude Cowork (og ikke Claude Code). Ellers kan du bare have noget fjernskrivebord kørende fra telefonen, og nogle prompts klar til at sætte den i gang, hvis du har forberedt noget, den skal arbejde på i en 15-20 minutters tid i ultracode.
Note 1: Jeg bruger selv Claude VS Code extension, men burde egentligt bare få skiftet IDE'et ud med dedikeret Claude Code.
Note 2: Jeg ved for resten ikke, om nogle af de funktioner, jeg har nævnt, er gated bag en Max subscription (90 EUR/md).

Jeg tænkte mere code review udført af mig selv, på det Claude har skrevet. Jeg gad godt have sådan et setup ligesom med en GitHub PR hvor jeg kan markere noget kode og skrive en kommentar til det. Helst samle alle kommentarer i et review på den måde, præcis som en GitHub PR, bare lokalt og med mig som reviewer på Claudes kode. Men måske findes det ikke endnu eller der er måske en simplere løsning. Jeg ved ikke hvad din erfaring er men jeg har ikke tænkt mig bare at lade Claude kode uden at jeg gennemgår hver en linje.
Jeg bruger også VS code udvidelsen. Synes bare VS Codes diff viewer er god til at læse ændringer.
Jeg gad faktisk godt at de lavede en billig og dum model med god tool-use. Det er fint at jeg kan sige at den skal bruge "low-effort" men det er jo sjovt nok kun den første runde der så faktisk er low-effort. Den skifter til en dyr model når den skal til at gøre ting med tool-use.
Gemma 4 (apache 2.0 licens) understøtter nogen function calling - altså tools: https://ai.google.dev/gemma/docs/capabilities/text/function-calling-gemma4
Jeg bruger den til mit hobbyprojekt (når man spiller uden login, eller har opbrugt sine tokens, så overtager Gemma som LLM). Gemma 4 er en relativt lettere dum, men dog anvendelig model: Dens såkaldte structured outputs er f.eks. ikke json_schema, men det løsere json_object.
Modellen, der hedder "26B (A4B)", kan køres lokalt på et RTX 40xx grafikkort via f.eks. Jan.ai eller LM Studio, eller online API - Google AI Studio eller openrouter.ai: https://openrouter.ai/models?arch=Gemma
Mht. Anthropic's Claude, så har de rigtigt nok ingen billig og dum model - kun Haiku-modellen, som stadig er for tung og dyr ift. de alternative open-source løsninger, der findes i dag.
Jeg har virkelig prøvet at få lokale modeller til at fungere. Hvis jeg installere Gemma4 eller Qwen med Ollama opfører de sig som om de var modeller fra 2020. Er der noget jeg gør forkert? Jeg kunne ikke få Gemma eller Qwen til at forstå "List the contents of the current working directory".
Hvilken variant bruger du? Noget, som er quantizised for hårdt? Selv med nogenlunde-OK-modeller som Gemma 4 eller Qwen 3.6 kan du få ringe resultater selv på simple forespørgsler, hvis du har for få VRAM (under ~16 GB) eller kører en for hårdt kvantiseret LLM variant. Bruger du standardindstillinger, eller har du pillet ved temperatur og alt det dér? (i 99% tilfælde kører jeg selv bare standard og rører ikke ved avancerede indstillinger, men måske det kan gøre noget for dig)
En god sweetspot model til et middelmådet grafikkort er vel en Q4/IQ4/Q3 GGUF-variant af https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF eller https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF fra Unsloth, der offloader til din CPU.
Jeg har ikke rørt indstillinger. Jeg brugte ollama pull qwen3:14b men jeg ved ikke hvor den hiver modeller fra eller hvordan de er quantized. Eller om de overhovedet er quantized, går det nu op for mig, og faktisk bare er en 14b model...
Jeg har 16G VRAM og 48G RAM men lad os sige ~30G brugbart RAM Hvad vil du sige jeg skal bruge? Jeg har det fint med at lortet bliver offloaded og er langsomt. Hvad software stack bruger du?
går det nu op for mig, og faktisk bare er en 14b model…
Yatzi. Gå efter deres nyere MoE (Mixture of Experts) model - altså f.eks. "Qwen3.6-35B-A3B-GGUF", som er på 35B paramentere, hvoraf kun 3B aktiveres.
Jeg kunne ikke få Gemma eller Qwen til at forstå “List the contents of the current working directory”.
Hmm... ja, du skal sikre dig, at de har den nødvendige adgang til dit drev. Kan ikke huske, hvad det hedder, men det er et tool, som man kan give visse modeller i visser miljøer, som jeg forstår det.
Jeg har det fint med at lortet bliver offloaded og er langsomt.
Tjah, hvis jeg var dig, ville jeg nok stadig prøve at få en GGUF model til at fungere, som ikke er meget større, end at dit grafikkort kan trække hovedparten af arbejdet.
Hvad software stack bruger du?
Jeg har 16GB VRAM og 32GB gammel-langsom-RAM (DDRv4 tror jeg endda). Rodder for lidt med lokal LLM. Bruger mest VS Code med Claude Code. Men når jeg endelig prøver at få en lokal model til at arte sig, så er det med super-lette løsninger, som f.eks. Jan.ai, hvor det bare er til ren instruktionstekst. En overgang brugte vi lokal billedgenerering til på arbejde vha. ComfyUI, men nu bruger vi bare replicate som platform til proprietære online-modeller - ingen stats- eller virksomhedshemmeligheder dér.
~~Er 'Vision' noget jeg kan spare væk? Jeg skal kun bruge text input.~~
Ja, åbenbart.