Локално AI - homelab

coolice

Owner
@coolice даже става и с по "дървени" карти :) аз подкарах на един сървър с 272GB RAM и 3 броя Tesla P40 и съм доволен от скороста с която работят моделите.
Избрах тези карти защото всяка е с 24GB VRAM и бяха на добра цена за тестване на идеята :) и всички модели се събират във VRAM-a на картите.

Ако не е тайна — колко ти излезе този сетъп, защото и на втора ръка в момента цените нон-стоп играят? И какви модели рънваш?

Аз доста по-скромно го раздавам, но се оказа, че старото ми гейминг лаптопче става за лек кодинг — Nvidia 4060 8GB и 32 GB RAM. Чудех се дали да не ги ъпгрейдна до 64, но като видях как са надули цените и на RAM-а за лаптоп (x5), си викам: ще почакам....

Като модели съм пробвал qwen2.5-coder 7b, qwen3-coder 30b MoE (този тръгна добре, защото въпреки че е голям, заради начина, по който се зареждат параметрите) и deepseek-coder 2.5 16b lite q4 компресия...

Леките ми впечатления: ако зададеш точно какво искаш да промени, и трите се справиха добре. Ако само опиша какво искам на bash... qwen2.5-coder 7b сътвори същото като deepseek-coder 2.5 16b, а qwen3-coder 30b отиде малко above and beyond — добави опционален logging в скрипта и крон командата, без да съм го питал :)

Нямах време да си играя с повече модели и езици, практически ползвам bash... Използвах ги да ми пренапишат малко bash скриптове и останах доста доволен....

Иначе ако ми се инвестираше в АИ машинка за големи модели без да харчи и грее кат духалка 1 кв, отиваме на тиим ред...

Ей това съм си харесал:


въпроса е за колкото кодя трябва ли да дам толкова пари а не се сещам за какво да го ползвам ефективно...

Малко по слабо е от твоя сетъп с три стари карти но пак може да рънва големи модели 70Б и пти 24/7 ще е само 150-200 вата (30-40 лв на месец за ток вместо около 200+ на сетъп като твоя)
 
@coolice разказал съм ти на лично :)
а публичната препоръка за теб:
qwen2.5-coder:32b
Това е 32B модела с Q4_K_M квантизация --> ще използва (ако имаш) около 20-22 GB VRAM и ще се разпредели между картите ако са няколко.

Ако нямаш сървърни карти подкарай дектоп машина с няколко карти и опитай:
Qwen3-Coder (~30B MoE, ~3.3B активни) --> трениран с reinforcement learning на SWE-Bench, проектиран за многостъпкови агентни задачи: четене на файлове, пускане на тестове, редактиране на код в цели репозиторита

DeepSeek-R1:32B --> reasoning модел, който "мисли" преди да отговори, по-бавен е (2-3×), но качеството на аналитични задачи го оправдава. Силен за дебъгване на сложна логика.

Qwen3-Coder-Next --> 80B MoE с само 3B активни параметъра. Най-новият специализиран coding модел от Alibaba.

p.s
можеш да добавиш и Web интерфейс с акаунтинг и т.н.
 
Последно редактирано:
Понеже днеска е майсторски ден :) се излигавих и подкарах едно майнерско дъно с недъгав процесор и смешно малко рам; подкарах Qwen3-Coder и веб интерфейса и за лиготията работи,
НОоооо отговаря с 2-3 символа в секунда 🤣

#! прецаках се да ъпгрейдна до последна версия и отказа да използва двата GTX и използва само 2060-тките


root@grub:/# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 165
model name : Intel(R) Celeron(R) G5905 CPU @ 3.50GHz
stepping : 3
microcode : 0x100
cpu MHz : 3499.999
cache size : 4096 KB
physical id : 0
siblings : 2
core id : 0
cpu cores : 2
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 22
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 sdbg cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust smep erms invpcid mpx rdseed smap clflushopt intel_pt xsaveopt xsavec xgetbv1 xsaves dtherm arat pln pts hwp hwp_notify hwp_act_window hwp_epp md_clear flush_l1d arch_capabilities ibpb_exit_to_user
vmx flags : vnmi preemption_timer posted_intr invvpid ept_x_only ept_ad ept_1gb flexpriority apicv tsc_offset vtpr mtf vapic ept vpid unrestricted_guest vapic_reg vid ple pml ept_mode_based_exec
bugs : spectre_v1 spectre_v2 spec_store_bypass swapgs itlb_multihit srbds mmio_stale_data retbleed eibrs_pbrsb bhi its vmscape
bogomips : 6999.82
clflush size : 64
cache_alignment : 64
address sizes : 39 bits physical, 48 bits virtual
power management:

processor : 1
... същото ...

root@grub:/#
root@grub:/# free -h
total used free shared buff/cache available
Mem: 3.7Gi 3.4Gi 117Mi 36Mi 187Mi 71Mi
Swap: 8.0Gi 3.9Gi 4.1Gi
root@grub:/#
root@grub:/# nvidia-smi
Thu Apr 9 12:36:38 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.20 Driver Version: 580.126.20 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce GTX 1080 Ti On | 00000000:01:00.0 On | N/A |
| 0% 32C P8 12W / 280W | 9MiB / 11264MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 2060 On | 00000000:02:00.0 Off | N/A |
| 41% 49C P2 46W / 172W | 5120MiB / 6144MiB | 1% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA GeForce RTX 2060 On | 00000000:03:00.0 Off | N/A |
| 39% 48C P2 36W / 172W | 5260MiB / 6144MiB | 1% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA GeForce RTX 2060 On | 00000000:04:00.0 Off | N/A |
| 33% 42C P2 37W / 172W | 5166MiB / 6144MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA GeForce GTX 1080 On | 00000000:05:00.0 Off | N/A |
| 0% 27C P8 6W / 200W | 3MiB / 8192MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 1 N/A N/A 89677 C /usr/local/bin/ollama 5116MiB |
| 2 N/A N/A 89677 C /usr/local/bin/ollama 5256MiB |
| 3 N/A N/A 89677 C /usr/local/bin/ollama 5162MiB |
+-----------------------------------------------------------------------------------------+
root@grub:/#

public
 
Последно редактирано:
Забравих да уточня, че тази конфигурация е абсолютно НЕПОДХОДЯЩА за целта по една основна причина:
всичките слотове на дъното са 16x,
НО само първия е напълно опроводен а останалите 5 слота работят като 1x
и съответно мемори трансфера е в пъти по-бавен и спъва всичко!
 
@LightSpeed Speed Браво за ентусиазма да навържеш много карти от различни модели :)

С цените в момента на към това отиваме при homelabs...

От към софтуер аз ползвам LMStudio https://lmstudio.ai разпозна всичко върви добре...

В самото начало пробвах Ollamma https://ollama.com/ ден 1 всичко вървеше... ден две прати всичко в цпуто не разпозна картата... четох в нета добавих Environment variable тръгна всичко... ден три не разпозна картата махнах Environment variable ръчках и взе че тръгна но реших че като имам малко време за моя АИ ентусиазъм не трябва и да почвам дебъг ... и минах на LMStudio ...

ПП. чудя се Ollama cloud опцията това май ще е най изгодно спрямо да се купува хардуер - някой ако го е пробвал може да сподели...

Сърбят ме ръчичките да видя колко умен е един 480б модел :)
 
Да обобщя препоръките:
1. Видеокарти с много VRAM
2. Използвайте дъно на което всеки слот е реален 16x а не само физически; за тази цел сървърните са най подходящи
3. Препоръчително е да имате RAM повече общия VRAM и повече от сумата на паметта на инсталираните модели, особено ако има няколко потребителя
4. Процесора също трябва да е напомпан защото и той отнася изчисления
5. SSD - аз винаги слагам поне 1TB SSD или zfs3 със 5/6 диска (sas 10/15K обороти) плюс 1 ssd за кеш.
 
Не си пуснал какъв перформънс имаш?

С новия M5 ми държи 130-150tps с повечето 35b модели и 15-25tps със 70b. Не съм сигурен какво повече мога да искам от лаптоп. :)
 
Не си пуснал какъв перформънс имаш?

С новия M5 ми държи 130-150tps с повечето 35b модели и 15-25tps със 70b. Не съм сигурен какво повече мога да искам от лаптоп. :)
Нямам намерение да споделям, ти си по самохвалството и надуването.
 
Нямам намерение да споделям, ти си по самохвалството и надуването.

Не става въпрос за хвалене. Бихме искали да знаем какъв перформънс си извадил за да видим има ли смисъл в подобен сетъп?

За играчка да разгледаш кое как работи съм съгласен, че е ок.

Без да споделяш можем да анализираме хардуера, който си пуснал и да направим естимейт.


HardwareBandwidthMax Memory
3× RTX 2060 (PCIe x1)~1 GB/s effective inter-GPU18GB VRAM
M5 Pro307 GB/s64GB
M5 Max614 GB/s128GB

Formula: TPS ≈ bandwidth / model_size_in_bytes

ModelRTX rigM5 ProM5 Max
7B Q4 (~4GB)~2-3 t/s~60-70 t/s~120-140 t/s
32B Q4 (~18GB)bottleneck~13-15 t/s~26-30 t/s
70B Q4 (~39GB)unusable~6-8 t/s~13-16 t/s
MoE 30B-A3B Q4~2-3 t/s~130-160 t/s~260+ t/s

Като с квантизиран модел винаги ще е по-добър перф.
 
Не си пуснал какъв перформънс имаш?

С новия M5 ми държи 130-150tps с повечето 35b модели и 15-25tps със 70b. Не съм сигурен какво повече мога да искам от лаптоп. :)
Колко RAM?
 
Не става въпрос за хвалене. Бихме искали да знаем какъв перформънс си извадил за да видим има ли смисъл в подобен сетъп?

За играчка да разгледаш кое как работи съм съгласен, че е ок.

Без да споделяш можем да анализираме хардуера, който си пуснал и да направим естимейт.


HardwareBandwidthMax Memory
3× RTX 2060 (PCIe x1)~1 GB/s effective inter-GPU18GB VRAM
M5 Pro307 GB/s64GB
M5 Max614 GB/s128GB

Formula: TPS ≈ bandwidth / model_size_in_bytes

ModelRTX rigM5 ProM5 Max
7B Q4 (~4GB)~2-3 t/s~60-70 t/s~120-140 t/s
32B Q4 (~18GB)bottleneck~13-15 t/s~26-30 t/s
70B Q4 (~39GB)unusable~6-8 t/s~13-16 t/s
MoE 30B-A3B Q4~2-3 t/s~130-160 t/s~260+ t/s

Като с квантизиран модел винаги ще е по-добър перф.
не да се заяждам , но ДРУГАРЯ ЛЕНИН много добре го е казал преди 110 години още... ТЕХНИКАТА В РЪЦЕТЕ НА НЕВЕЖАТА Е КУП СТАРО ЖЕЛЯЗО!
 
Не си пуснал какъв перформънс имаш?

С новия M5 ми държи 130-150tps с повечето 35b модели и 15-25tps със 70b. Не съм сигурен какво повече мога да искам от лаптоп. :)

Моят скромен любитлски сетъп лаптоп от черен петък 24 година с 4060 8GB VRAM 32GB RAM прави малко над 50tps ако е изцяло във VRAM (до 7-8б) модели и пада до 10-15 като е една част в рама 24Б - 30Б като съм го купил за 950 евро тогава (инвестицията в АИ 0 евро) взех си го тогава да си геймя от време на време ... както споменах мислех си да си ъпгрейдна рама но цената ме отказа ай не ми стига 64 ще рънна 70б но аз искам да рънвам един 120Б модел затова споменах мини пц то от първия пост със 128ГБ за 2к евро


Човек ти също е хубаво освен рама да споделиш кой м5 защото има

Apple 8 Core GPU
Apple 10 Core GPU
Apple 16 Core GPU
Apple 20 Core GPU
Apple 32 Core GPU
Apple 40 Core GPU


ПП да не каже някой че хейтвам маковете... на мен деили драйвъра също ми е мак но не заради АИ ами заради разход на енергия и цялостна интеграция между устройства бекъпи и Advanced Data Protection...

ППП Ако някой сега иска нов лаптоп и за приятен лек АИ и не иска ботълнека в рам през pcie вероятно "стартов" еър с 32 ГБ рам Apple 10 Core GPU за 1700 евро ще му дойде по добре от аналогичния pc hardware... Обаче както споменах апетита идва с яденето ще му се сторят малко 30б както на мен сега са ми малко ... а цената става дебела при маковете...
 
@metaverse този смешния сетъп ви го показах само за да разберете че става и с дървен хардур! Спрях майнера, смених ssd-to и толкова!
Аз използвам основно системата с 3-те тесли и една друга с rtx3080;
 
Колко RAM?

128. Mаx серията е с двоен bandwidth спрямо M5 Pro.

Не забравяй, че рамта при Apple Silicone е унифицирана. Те затова избиват рибата за локален инференс и в САЩ всичко е изкупено.
 
  • Like
Реакции: Sky
@metaverse този смешния сетъп ви го показах само за да разберете че става и с дървен хардур! Спрях майнера, смених ssd-to и толкова!
Аз използвам основно системата с 3-те тесли и една друга с rtx3080;

Кое точно става?

Този сетъп е да си играеш да разгледаш кое как. Работа няма как да се върши с него. Че и за ток ще плащаш. :)
 
Кое точно става?

Този сетъп е да си играеш да разгледаш кое как. Работа няма как да се върши с него. Че и за ток ще плащаш. :)
Пак ли запали турбото? Човека точно и ясно е казал каква е целта - демонстрация че става и с “обикновени” карти. Защо не коментираш сетъпа с 272 рам и 3-те tesla T40?
Много точно е написано че си заядлив самохвалко и съм напълно съгласен с това.
 
@metaverse че си келеш го знаят всички и няма нужда да го доказвашвъв всяка тема!
Дървения сетъп беше лирично отклонение от темата!
А това е работния:
сървър: 4U ProLiant ML350p Gen8

CPU: 2x Intel(R) Xeon(R) CPU E5-2697 v2 @ 2.70GHz, общо 48 ядра

GPU: 3x Tesla P40 24GB VRAM

RAM: 272 GB

Цена: 1К
 
Пак ли запали турбото? Човека точно и ясно е казал каква е целта - демонстрация че става и с “обикновени” карти.

Написал е, че става. Става за какво?

Защо не коментираш сетъпа с 272 рам и 3-те tesla T40?

P40 колко ще струват годишно в ток? Ако приема 100% утилизация на всеки 2г. даваш колкото за нов лаптоп. Без да броя разход за самата машина, рамта и видео картите. 🤷‍♂️

Супер е за заигравка и да разцъкаш. За 3-ти път да се повторя. Особено за малки модели, които могат да използват 3-те карти. Обаче всичко над 70гб ще е :hankey:. Т.е. по-интересните модели няма как да тестваш дори.

На M5 Max спокойно вървят много по-приятни и интелигентни варианти. Без цялата разправия с бръмчащи сървъри и видео карти.
 
Написал е, че става. Става за какво?



P40 колко ще струват годишно в ток? Ако приема 100% утилизация на всеки 2г. даваш колкото за нов лаптоп. Без да броя разход за самата машина, рамта и видео картите. 🤷‍♂️

Супер е за заигравка и да разцъкаш. За 3-ти път да се повторя. Особено за малки модели, които могат да използват 3-те карти. Обаче всичко над 70гб ще е :hankey:. Т.е. по-интересните модели няма как да тестваш дори.

На M5 Max спокойно вървят много по-приятни и интелигентни варианти. Без цялата разправия с бръмчащи сървъри и видео карти.
ние тока си го крадем , не ни мисли .... тока тръгнал да ми прави сметка...
 

Горе