#ai (4)

Uspešno završeno #testiranje 7 #ai LLM modela na svom računaru. Napisan je članak na tu temu a ovde ostavljam sumirane rezultate:

| Model                | Veličina    | ECO GPU | ECO CPU | PERF GPU | PERF CPU |
| -------------------- | ----------- | ------- | ------- | -------- | -------- |
| TinyLlama 1.1B Q4    | 636.18 MiB  | 15.02   | 3.68    | 15.23    | 7.59     |
| SmolLM2 1.7B Q4      | 1005.01 MiB | 9.19    | 2.31    | 9.48     | 4.76     |
| Qwen Coder 3B Q4     | 1.95 GiB    | 5.86    | 1.32    | 5.87     | 2.67     |
| SmolLM3 3B Q5        | 2.06 GiB    | 5.44    | 1.27    | 5.59     | 2.51     |
| Phi-3 Mini 3.8B Q4   | 2.23 GiB    | 5.03    | 1.10    | 5.02     | 2.19     |
| Qwen Coder 3B Q6     | 2.60 GiB    | 4.51    | 1.25    | 4.51     | 2.64     |
| BioMistral 7B Q3     | 3.56 GiB    | 2.12    | 0.51    | 2.17     | 1.08     |

Ja koristim termine "ECO" i "PERFORMANCE" ali logika je prosta: ako sistemu zatreba brzina, Intel Speed Shift omogućava da CPU brzo pređe iz stanja mirovanja sa 1200MHz na 3300MHz u jednoj sekundi. Naravno, OS igra ulogu u ovome ali je kod mene to konzervativno podešeno da radi na što nižoj frekvenciji:

sudo sysctl dev.hwpstate_intel.0.epp=100 \
            dev.hwpstate_intel.1.epp=100 \
            dev.hwpstate_intel.2.epp=100 \
            dev.hwpstate_intel.3.epp=100

Ja računar koristim za malo stvari stoga meni to odgovara a pored toga, u malom je kućištu pa **želim** da troši manje struje da bi bio stabilniji rad a ne da gledam kako zimi se kuva kućište na 60°C.

dfbcc1634dd73181

Vreme je da se poigramo malo, sve je spremno za #ai testiranje na mojoj kofi:

tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
BioMistral-7B-Q3_K_L.gguf
Phi-3-mini-4k-instruct-q4.gguf
SmolLM2-1.7B-Instruct-Q4_K_M.gguf
SmolLM3-3B-128K-UD-Q5_K_XL.gguf
qwen2.5-coder-3b-instruct-q4_k_m.gguf
qwen2.5-coder-3b-instruct-q6_k.gguf

Ali posle S08 "Drive to Survive", hvala lepo.

9f57ea5cae43bfb8

Mislim, nije najgori #ai reyultat na mom računaru ali je daleko od dobrog

$ llama-bench -m qwen2.5-coder-3b-instruct-q6_k.gguf -t 3 --cpu-strict 1
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = Intel(R) HD Graphics 630 (KBL GT2) (Intel open-source Mesa driver) | uma: 1 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 0 | matrix cores: none
| model                          |       size |     params | backend    | ngl | threads | cpu_strict |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ---------: | --------------: | -------------------: |
| qwen2 3B Q6_K                  |   2.60 GiB |     3.40 B | Vulkan     |  99 |       3 |          1 |           pp512 |         25.32 ± 0.01 |
| qwen2 3B Q6_K                  |   2.60 GiB |     3.40 B | Vulkan     |  99 |       3 |          1 |           tg128 |          4.51 ± 0.00 |

build: unknown (7709)

e7a3885db3afa38f

E pa nije ovo tragično sporo nakon /set parameter num_thread 3 :)

$ ollama run --verbose qwen2.5:0.5b
>>> /set parameter num_thread 3
Set parameter 'num_thread' to '3'
>>> hello, how are you today?
Hello! I'm Qwen, the AI language model created by Alibaba Cloud. How can I assist you today?

total duration:       3.504683535s
load duration:        2.030979805s
prompt eval count:    36 token(s)
prompt eval duration: 537.777283ms
prompt eval rate:     66.94 tokens/s
eval count:           24 token(s)
eval duration:        846.582586ms
eval rate:            28.35 tokens/s

#ai #zanimljivo

2a742d18d5caaa52