this post was submitted on 29 May 2026
1 points (100.0% liked)

Teknologi

473 readers
11 users here now

For debat og nyheder omkring teknologi af alle former.

founded 2 years ago
MODERATORS
 

I Anthropic's nylancerede Claude Opus 4.8 model, kan man sætte dens thinking level til Hyper Ultra Kodyl Max (eller noget i den stil). Så kører den agenter i et workflow og vender tilbage med et mærkbart bedre resultat, end 4.7 kunne levere. Prøvede den i mit kodeprojekt (aikemi.eu) - jeg er både imponeret og brændt tør for tokens. 😶 Hvad er jeres erfaringer med 4.7 vs 4.8?

you are viewing a single comment's thread
view the rest of the comments
[–] farsinuce@feddit.dk 0 points 1 week ago* (last edited 1 week ago) (1 children)

Gemma 4 (apache 2.0 licens) understøtter nogen function calling - altså tools: https://ai.google.dev/gemma/docs/capabilities/text/function-calling-gemma4

Jeg bruger den til mit hobbyprojekt (når man spiller uden login, eller har opbrugt sine tokens, så overtager Gemma som LLM). Gemma 4 er en relativt lettere dum, men dog anvendelig model: Dens såkaldte structured outputs er f.eks. ikke json_schema, men det løsere json_object.

Modellen, der hedder "26B (A4B)", kan køres lokalt på et RTX 40xx grafikkort via f.eks. Jan.ai eller LM Studio, eller online API - Google AI Studio eller openrouter.ai: https://openrouter.ai/models?arch=Gemma

Mht. Anthropic's Claude, så har de rigtigt nok ingen billig og dum model - kun Haiku-modellen, som stadig er for tung og dyr ift. de alternative open-source løsninger, der findes i dag.

[–] drkt@scribe.disroot.org 0 points 1 week ago (1 children)

Jeg har virkelig prøvet at få lokale modeller til at fungere. Hvis jeg installere Gemma4 eller Qwen med Ollama opfører de sig som om de var modeller fra 2020. Er der noget jeg gør forkert? Jeg kunne ikke få Gemma eller Qwen til at forstå "List the contents of the current working directory".

[–] farsinuce@feddit.dk 0 points 1 week ago* (last edited 1 week ago) (1 children)

Hvilken variant bruger du? Noget, som er quantizised for hårdt? Selv med nogenlunde-OK-modeller som Gemma 4 eller Qwen 3.6 kan du få ringe resultater selv på simple forespørgsler, hvis du har for få VRAM (under ~16 GB) eller kører en for hårdt kvantiseret LLM variant. Bruger du standardindstillinger, eller har du pillet ved temperatur og alt det dér? (i 99% tilfælde kører jeg selv bare standard og rører ikke ved avancerede indstillinger, men måske det kan gøre noget for dig)

En god sweetspot model til et middelmådet grafikkort er vel en Q4/IQ4/Q3 GGUF-variant af https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF eller https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF fra Unsloth, der offloader til din CPU.

[–] drkt@scribe.disroot.org 0 points 1 week ago (1 children)

Jeg har ikke rørt indstillinger. Jeg brugte ollama pull qwen3:14b men jeg ved ikke hvor den hiver modeller fra eller hvordan de er quantized. Eller om de overhovedet er quantized, går det nu op for mig, og faktisk bare er en 14b model...

Jeg har 16G VRAM og 48G RAM men lad os sige ~30G brugbart RAM Hvad vil du sige jeg skal bruge? Jeg har det fint med at lortet bliver offloaded og er langsomt. Hvad software stack bruger du?

[–] farsinuce@feddit.dk 0 points 1 week ago* (last edited 1 week ago) (1 children)

går det nu op for mig, og faktisk bare er en 14b model…

Yatzi. Gå efter deres nyere MoE (Mixture of Experts) model - altså f.eks. "Qwen3.6-35B-A3B-GGUF", som er på 35B paramentere, hvoraf kun 3B aktiveres.

Jeg kunne ikke få Gemma eller Qwen til at forstå “List the contents of the current working directory”.

Hmm... ja, du skal sikre dig, at de har den nødvendige adgang til dit drev. Kan ikke huske, hvad det hedder, men det er et tool, som man kan give visse modeller i visser miljøer, som jeg forstår det.

Jeg har det fint med at lortet bliver offloaded og er langsomt.

Tjah, hvis jeg var dig, ville jeg nok stadig prøve at få en GGUF model til at fungere, som ikke er meget større, end at dit grafikkort kan trække hovedparten af arbejdet.

Hvad software stack bruger du?

Jeg har 16GB VRAM og 32GB gammel-langsom-RAM (DDRv4 tror jeg endda). Rodder for lidt med lokal LLM. Bruger mest VS Code med Claude Code. Men når jeg endelig prøver at få en lokal model til at arte sig, så er det med super-lette løsninger, som f.eks. Jan.ai, hvor det bare er til ren instruktionstekst. En overgang brugte vi lokal billedgenerering til på arbejde vha. ComfyUI, men nu bruger vi bare replicate som platform til proprietære online-modeller - ingen stats- eller virksomhedshemmeligheder dér.

[–] drkt@scribe.disroot.org 0 points 1 week ago* (last edited 1 week ago)

~~Er 'Vision' noget jeg kan spare væk? Jeg skal kun bruge text input.~~

Ja, åbenbart.