Local AI 2026
Panorama generale: Local AI 2026
Nel triennio 2026 si vede una migrazione parziale dal “tutto cloud” a setup ibridi con una quota crescente di workload LLM serviti da macchine locali o colocation controllata dall’azienda. Le motivazioni principali sono: conformità e sovranità dei dati (log e prompt che non possono uscire da certi confini), riduzione della latenza per applicazioni interattive e controllo più prevedibile dei costi rispetto a API fatturate a token o GPU‑ora “a consumo”. aihardwareindex
La privacy non riguarda solo i dati in input ma anche i log dei modelli e i vettori di embedding, che in settori come legale, sanitario o manifatturiero contengono know‑how critico. Per questi contesti i modelli open source (Llama, Qwen, DeepSeek, Gemma, GLM, ecc.) eseguiti su hardware interno sono spesso preferiti rispetto a modelli closed su API, anche se questi ultimi restano insostituibili per alcuni casi di reasoning avanzato. aihardwareindex
Sul fronte prestazioni, la generazione locale riduce la latenza “round‑trip”, specialmente quando l’applicazione fa molte chiamate brevi (tooling, agenti, completamento codice). Una singola RTX 4090 o 5090 può servire decine di richieste concorrenti di modelli 7B–14B con latenze sub‑secondo per la prima risposta, cosa difficile da ottenere con API Internet in ambienti con connettività non ottimale. techreviewer
Inference locale vs fine‑tuning vs pre‑training
- Inference locale: eseguire un modello pre‑addestrato (tipicamente open source) in sola lettura, spesso in versione quantizzata (4‑bit, 8‑bit) per rientrare nella VRAM disponibile e massimizzare token/s. È ciò che fanno tool come Ollama, LM Studio, text‑generation‑webui o stack su llama.cpp/vLLM. runpod
- Fine‑tuning leggero / LoRA / QLoRA: si congelano i pesi del modello base e si addestrano solo layer “adapter” a bassa dimensione, aggiornando una frazione piccola dei parametri (0,1–10%). Questo riduce drasticamente memoria richiesta, tempo e costo rispetto al full fine‑tuning. stratagem-systems
- Pre‑training completo: aggiornare tutti i pesi da zero o quasi (modeli 7B–70B) richiede cluster di GPU data center (es. 8× H100 per 70B) con costi di singola run di fine‑tuning completo che possono superare centinaia di migliaia di dollari; è fuori scala per PMI e viene menzionato solo come riferimento teorico. aihardwareindex
Linee guida recenti mostrano che il full fine‑tuning di un Llama 70B può richiedere 8× H100 con memoria effettiva oltre 1 TB contando pesi, gradienti e stati dell’ottimizzatore, mentre strategie LoRA riducono la richiesta a 2–4× A100 e QLoRA può scendere a una singola GPU 48GB. Questo chiarisce perché nella pratica la maggior parte degli utenti “seri ma non enterprise” punta a modelli 7B–13B con LoRA/QLoRA. aihardwareindex
Ruolo delle librerie per LLM locali
L’ecosistema di librerie e runtime ha abbassato drasticamente la soglia di ingresso:
- llama.cpp ha dimostrato che è possibile eseguire LLM 7B–13B quantizzati 4‑bit anche su CPU e GPU consumer modeste, grazie a formati come GGUF e ottimizzazioni aggressive. runpod
- vLLM fornisce un runtime ad alte prestazioni con scheduling e paged attention efficiente, pensato per serving multi‑tenant e throughput alto su GPU moderne. aihardwareindex
- Ollama e LM Studio offrono interfacce “point‑and‑click” per scaricare, quantizzare e servire modelli (Llama, Qwen, Gemma, DeepSeek, ecc.) con backend llama.cpp/vLLM integrati e API locali compatibili con OpenAI, facilitando l’integrazione nelle applicazioni. techreviewer
Questi tool permettono di sfruttare al massimo GPU con 8–32 GB di VRAM, caricando modelli in quantizzazione 4‑bit o 5‑bit e offloading parziale sulla RAM di sistema quando la VRAM non basta. Un articolo RunPod, ad esempio, mostra come QLoRA consenta di ospitare un modello 7B quantizzato 4‑bit in circa 8–10 GB VRAM effettivi, lasciando spazio per batch e contesto. runpod
Evoluzione hardware: RTX 40→50‑series
Le GPU consumer hanno fatto un salto notevole:
- RTX 4090: 24 GB GDDR6X, ampiamente usata per inferenza LLM 7B–34B e fine‑tuning LoRA su 7B–13B; su marketplace come Vast.ai e RunPod i prezzi on‑demand nel 2025–2026 si aggirano intorno a 0,35–0,40 USD/ora (o ~0,20 EUR/ora su provider aggressivi europei). runpod
- RTX 5090: 32 GB GDDR7, banda memoria ~1.792 GB/s, 512‑bit di bus e 680 Tensor core di quinta generazione, pensata esplicitamente anche per workload AI e LLM. Guide orientate agli LLM indicano la 5090 come “eccellente” per modelli 30B–50B quantizzati e adatta anche a fine‑tuning parametrico‑efficiente. vast
Articoli tecnici e discussioni community mostrano che con 32 GB VRAM si possono gestire comodamente modelli 30B–40B a precisioni 4‑bit/5‑bit, e con quantizzazioni più spinte (Q2/Q3) si può arrivare a far girare modelli da 70B con parte dei pesi offloadati in RAM, accettando un calo di velocità. In parallelo, ottimizzazioni lato driver e librerie (CUDA, cuDNN, TensorRT‑LLM) sfruttano meglio la banda GDDR7 e la cache L2 molto più ampia, avvicinando la possibilità realistica di “70B ben quantizzato su una sola GPU da 32 GB”. reddit
Livelli hardware per AI locale
Questa sezione definisce 5 livelli hardware orientati a chi valuta setup per LLM locali. I numeri su token/s sono indicativi, basati su test pubblici su RTX 5090 (es. Qwen 3 8B Q4 a 261–323 token/s) e su scaling osservato tra generazioni di GPU. techreviewer
Livello Base – Laptop / Desktop 8–12 GB VRAM
Tipica configurazione:
- GPU: RTX 3060 (8–12 GB), 4060 (8 GB).
- RAM: 16–32 GB.
- Storage: SSD NVMe 1–2 TB per modelli + dataset.
Cosa ci si può aspettare:
- Modelli 7B–8B quantizzati 4‑bit (Llama 3.x 8B, Qwen 2.5/3 7B, Gemma 7B) caricati interamente in VRAM con throughput spesso nell’ordine di 10–40 token/s in chat single‑user. runpod
- Contesti lunghi (8k–32k token) con un impatto moderato sulla velocità, utile per chat personali, IDE assistant e piccoli agenti locali.
Limiti:
- Modelli >14B richiedono offload pesante su RAM con cali drastici di velocità.
- Condivisione multi‑utente reale è difficile: una o due sessioni concorrenti al massimo.
Livello Intermedio – GPU 16–24 GB VRAM
Configurazione tipo:
- GPU: RTX 4070 Ti (16 GB), 4080/4080 Super (16 GB), 4090 (24 GB).
- RAM: 32–64 GB.
Capacità:
- Modelli 14B–32B (Qwen, DeepSeek, Llama 3.x 22B/34B, Gemma 27B) in quantizzazione 4‑bit girano con token/s confortevoli per più utenti concorrenti.
- Fine‑tuning LoRA/QLoRA su modelli 7B–13B con batch moderati in 6–10 ore è perfettamente fattibile su una singola 24 GB. youtube
Use case tipici:
- API interne per un piccolo team (es. 5–20 utenti) con un singolo modello centrale.
- Strumenti locali per document search, RAG e generazione report.
Livello Enthusiast – Singola RTX 5090 (32 GB)
Configurazione:
- GPU: RTX 5090 32 GB GDDR7.
- RAM: 64–128 GB.
- PSU robusta (850–1200 W) e cooling adeguato (TGP 575 W).
Capacità realistiche:
- Modelli fino a 30B–50B quantizzati 4‑bit/5‑bit con ottime velocità; indicativamente Qwen 3 8B Q4 su 5090 raggiunge 261–323 token/s, quindi un 30B Q4 resta su decine di token/s. techreviewer
- Modelli da 70B in quantizzazioni aggressive (Q2/Q3) con parte dei pesi offloadati su RAM, accettando latenza più alta ma comunque usabili per task di reasoning offline. reddit
Use case:
- Laboratori AI, agenzie digitali che costruiscono molti workflow interni, sviluppatori che vogliono sperimentare costantemente con modelli grandi senza ricorrere sempre al cloud.
Livello HEDT / Dual‑GPU – 2× 5090 o server 2–4 GPU
Configurazione:
- GPU: 2× RTX 5090 (64 GB totali) o mix di 4090/5090 o GPU pro tipo RTX 6000 Ada.
- RAM: 128–256 GB.
- CPU HEDT (Threadripper, Xeon W) con molte linee PCIe.
Capacità:
- Possibilità di:
- Eseguire più istanze di modelli grandi (es. 2× 34B + 1× 8B) in parallelo.
- Fare sharding di modelli 70B tra due GPU, mantenendoli quasi interamente in VRAM con pochissimo offload. introl
- Throughput sufficiente per servire decine di utenti concorrenti o orchestrare pipeline multi‑modello (es. routing + tool‑use + generazione finale).
Use case:
- Piattaforme SaaS interne, agenzie con molti clienti su modelli customizzati, team di ricerca che iterano spesso su fine‑tuning e valutazioni.
Livello Enterprise / Data center (solo riferimento)
Qui parliamo di GPU come A100, H100/H200, RTX 6000/Blackwell SXM, normalmente non acquistate da PMI ma noleggiate:
- VRAM: 40–80 GB per scheda (A100/H100), spesso in cluster 4–8 GPU.
- Pricing tipico on‑demand: H100 a 3–4,7 USD/ora per GPU su provider come RunPod e Vast.ai.
Questa classe è rilevante per:
- Fine‑tuning seri su modelli 34B–70B.
- Servizi ad alta affidabilità con SLA stringenti e multi‑region.
Tabella livelli hardware
| Livello | GPU tipica | VRAM | RAM consigliata | Modello max realistico | Use case principali |
|---|---|---|---|---|---|
| Base | RTX 3060 / 4060 | 8–12 GB | 16–32 GB | 7B–8B quantizzato | Chat, coding assistant, agenti personali |
| Intermedio | RTX 4070Ti / 4080 / 4090 | 16–24 GB | 32–64 GB | 14B–32B quantizzato | API interne, piccoli team, RAG aziendale |
| Enthusiast | RTX 5090 | 32 GB | 64–128 GB | 30B–50B (fino a 70B “spinto”) | Laboratorio AI, agenzie, workflow complessi |
| Dual‑GPU / HEDT | 2× 5090 / 2–4× 4090/5090 | 2×32 GB+ | 128–256 GB | Più modelli grandi in parallelo | Multi‑tenant, serving pesante, orchestrazione |
| Enterprise (cloud) | A100/H100/H200, RTX 6000 SXM | 40–80 GB | 256 GB+ | 70B+ full o quasi | Training/fine‑tuning massivo, SLA enterprise |
GPU renting: 20k–40k GPU‑ore “on tap”
Negli ultimi anni sono maturati marketplace GPU (Vast.ai, RunPod, Hivenet, ecc.) e provider specializzati che permettono di noleggiare GPU di fascia alta con billing orario o al secondo, spesso con opzioni community più economiche e secure cloud più care. Questo rende realistico per una PMI “prendere in prestito” centinaia di GPU per qualche ora, invece di possedere un data center. oreateai
Range di prezzo realistici (2025–2026)
- RTX 4090 (24 GB):
- Vast.ai: articoli e guide indicano un “starting price” intorno a 0,39–0,40 USD/ora on‑demand. runpod
- Provider europei (Hivenet) dichiarano tariffe aggressive, es. ~0,20 EUR/ora (~0,22 USD) per 4090 full VRAM. compute.hivenet
- RTX 5090 (32 GB):
- Alcuni articoli sulle tariffe Vast.ai parlano di circa 0,62 USD/ora per 5090 on‑demand. oreateai
- Hivenet dichiara 0,40 EUR/ora per 5090, posizionandosi nella banda bassa rispetto a RunPod/Vast. compute.hivenet
- GPU data center (A100/H100/H200, RTX 6000 / Blackwell):
- Confronti di pricing riportano H100 SXM/PCIe tra ~3,2 e 4,7 USD/ora su RunPod e Vast.ai, a seconda della configurazione. poolcompute
- A100 80 GB di solito costa qualcosa meno (circa 1,2–3 USD/ora), a parità di provider.
Questi numeri danno un ordine di grandezza: la fascia consumer top (4090/5090) sta intorno a 0,3–0,6 USD/ora, la fascia data center 3–5 USD/ora per GPU.
Cosa significa “20k–40k GPU‑ore”
“20k GPU‑ore” non implica possedere 20.000 GPU, ma consumare 20.000 ore di GPU complessive, ad esempio:
- 64× A100 80 GB per 10 ore:
- 64 × 10 = 640 GPU‑ore.
- A 3–4,5 USD/ora, il costo va da ~1.900 a ~2.900 USD per il job. poolcompute
- 256× RTX 4090 per 24 ore:
- 256 × 24 = 6.144 GPU‑ore.
- A 0,35–0,40 USD/ora il costo è nell’ordine di 2.100–2.500 USD.
Un’azienda può quindi concentrare training/fine‑tuning intensivi in finestre di 8–24 ore, usando cluster a centinaia di GPU, spendendo qualche migliaio di dollari invece di impegnare capex in hardware.
Tabella esempi di costo
| Configurazione | GPU | Costo stimato/ora (on‑demand) | Esempio uso |
|---|---|---|---|
| 1× RTX 4090 | 24 GB | ~0,35–0,40 USD | Fine‑tuning piccolo, inference veloce |
| 1× RTX 5090 | 32 GB | ~0,45–0,65 USD | Modelli più grandi, esperimenti 30B–70B |
| 4× RTX 4090 | 96 GB totali | ~1,3–1,6 USD | Batch fine‑tuning, esperimenti paralleli |
| 1× A100 80 GB | 80 GB | ~1,2–3,0 USD | Fine‑tuning 13B–34B, training RAG complessi |
| 1× H100 80 GB | 80 GB | ~3,2–4,7 USD | Fine‑tuning 34B–70B, serving mission‑critical |
Per molte PMI, un modello operativo ragionevole è noleggiare 1–4 GPU 4090/5090 qualche ora alla settimana per fine‑tuning ed esperimenti intensivi, mantenendo l’inferenza quotidiana su una workstation interna o su poche istanze cloud più economiche.
Piccolo fine‑tuning di modelli compatti
Domanda chiave: “Quanto costa adattare un modello 7B–8B al mio dominio?”
Dataset e tecniche
- Dimensione dataset:
- In molti casi bastano 1.000–3.000 coppie Q&A o istruzioni ben curate per ottenere un miglioramento percepibile su un dominio stretto (es. knowledge base aziendale, FAQ legali interne).
- Tutorial pratici QLoRA mostrano buoni risultati anche con 500–1.000 prompt per scenari specifici.
- Tecniche consigliate:
- LoRA: addestra “adapter” a bassa rank su layer selezionati; di solito 0,1–1% dei parametri totali. stratagem-systems
- QLoRA: combina quantizzazione 4‑bit del modello base con LoRA, riducendo ulteriormente il fabbisogno di VRAM (un 7B QLoRA può stare comodamente su una GPU 24 GB, spesso anche meno).
Una guida RunPod suggerisce che modelli 7B–13B con QLoRA possono essere fine‑tuned su una singola GPU con 24 GB VRAM (3090, 4090, A5000) a costi orari nell’ordine di 0,5–1,0 USD/ora su community cloud. runpod
Ordini di grandezza di tempo e costo
Esempio ragionevole:
- Modello 7B (Llama 2/3, Qwen 7B, Gemma 7B) con:
- 1.000–3.000 coppie Q&A (1–3 milioni di token di training effettivi, a seconda della lunghezza media).
- 2–3 epoche, batch moderato.
- Hardware:
- 1× RTX 4090 (24 GB) o A4000 equivalente in cloud.
- Tempo:
- 6–10 ore di training effettivo, coerente con stime di QLoRA su 10.000 prompt in circa 10 ore e proporzionalità approssimativa per dataset più piccoli.
- Costo:
- A 0,35–0,40 USD/ora su marketplace economici, 6–10 ore costano circa 2–4 USD di sola GPU; su provider più cari e regioni enterprise (0,8–1,3 USD/ora) si arriva a 5–13 USD.
- Analisi di mercato LoRA su 2026 riportano tipicamente 50–300 USD per run su infrastrutture gestite (AWS/Lambda, con margine e servizi inclusi), ma la sola componente di GPU per run piccoli resta nell’ordine di decine di dollari.
In pratica, per un power user che usa provider “bare” come Vast.ai o Hivenet, un fine‑tuning QLoRA 7B può costare pochi dollari di GPU, più il tempo di preparazione dati e valutazione. Per una PMI che sceglie un pacchetto managed, lo stesso lavoro si situa facilmente nella fascia 1.000–5.000 USD, ma il collo di bottiglia non è più il costo di compute puro.
Tabella scenari di fine‑tuning
| Scenario | Modello base | Dati (Q&A) | GPU tipica | Ore stimate | Costo GPU stimato* |
|---|---|---|---|---|---|
| Fine‑tuning leggero | 7B | 1k–3k | 1× RTX 4090 (24 GB) | 6–10 h | ~5–15 USD (cloud comuni) |
| Fine‑tuning più corposo | 13B | 5k–10k | 1× A100 / 2× 4090 | 8–16 h | ~30–100 USD |
| Fine‑tuning esteso | 34B | 10k–50k | 2–4× A100/H100 | 12–36 h | ~200–800 USD |
*Solo costo GPU on‑demand; non include preparazione dati, valutazione, sviluppo pipeline.
Video tutorial documentano casi in cui un Llama 2 7B viene fine‑tuned con QLoRA su un’istanza AWS g5.xlarge (1× A10G) in circa 10 ore su 10.000 prompt, con costi totali di compute nell’ordine di pochi dollari usando spot. Questo conferma che, a scala “PMI”, il nodo critico è più la qualità del dataset che il costo di GPU. youtube
Comprare hardware vs noleggiare GPU
Scarichiamo può impostare una sezione di confronto “decisionale” fra:
- Workstation locale (es. 4090/5090 con 64–128 GB RAM).
- Cloud GPU on‑demand (4090/5090/A100/H100 a ore).
Dimensioni di confronto chiave
-
Capex vs Opex
- Workstation: investimento iniziale 2.000–5.000 EUR (o più per dual‑GPU), ammortizzato in 3–4 anni.
- Cloud: nessun capex, si paga a GPU‑ora (0,3–0,6 USD/h consumer, 3–5 USD/h data center). oreateai
-
Profilo di utilizzo
- Carico costante (molte ore al giorno) favorisce l’hardware posseduto.
- Carico bursty (esperimenti intensivi 1–2 volte a settimana) favorisce il cloud.
-
Privacy e compliance
- Workstation interna: controllo completo dei dati, log e reti; spesso necessario per dati altamente sensibili.
- Cloud: dipende da provider e region; è possibile conformità, ma richiede audit, DPA, VPC dedicati.
-
Scalabilità
- Workstation: limitata al numero di GPU fisiche, scalare significa acquistare altro hardware.
- Cloud: possibile passare da 1 a 64+ GPU in minuti, pagando proporzionalmente.
-
Operatività e manutenzione
- Workstation: gestione driver, aggiornamenti CUDA, failures hardware (PSU, ventole, dischi).
- Cloud: il provider astrarrà guasti hardware, ma resta la complessità software (container, immagini).
-
Costo per 1M token
- Local: costo principalmente energia + ammortamento GPU; su workstation 5090 con 261–323 token/s per un 8B Q4, generare 1M token richiede ~1–1,5 ore di GPU, quindi l’equivalente di poche decine di centesimi di energia. techreviewer
- Cloud GPU: con 0,40 USD/h, 1M token generati in 1 ora su 4090 costa ~0,40 USD; su H100 a 4 USD/h stessa operazione costa ~4 USD. compute.hivenet
- API: come si vede da liste tipo Maraiki, modelli premium come Claude 4.6 Opus o GPT‑5.2 arrivano a 14–25 USD per 1M token di output, mentre modelli mid‑range (Qwen3.5 Plus, DeepSeek V3.2, GPT‑4o Mini) costano tra 0,6 e 6 USD per 1M token di output.
Tabella comparativa workstation vs cloud
| Dimensione | Workstation locale (4090/5090) | Cloud GPU on‑demand |
|---|---|---|
| Costo iniziale | Alto (2k–5k+ EUR) | Quasi nullo |
| Costo variabile | Basso (energia, manutenzione) | Diretto a GPU‑ora (0,3–5 USD/h) |
| Scalabilità | Limitata, richiede nuovo hardware | Elevata, cluster 10–100+ GPU in minuti |
| Privacy | Massima, dati non escono | Dipende da provider e configurazione |
| Latenza | Molto bassa in LAN | Dipende da rete e latenza Internet |
| Setup/Manutenzione | A carico del team IT | Hardware gestito, software comunque da gestire |
| Adatto a | Carichi stabili, uso quotidiano intenso | Esperimenti burst, training/fine‑tuning massivi |
Per Scarichiamo ha senso proporre calcolatrici semplici: es. “se usi più di N ore di GPU al mese è più conveniente comprare una workstation”, con N diverso a seconda del tipo di GPU e del provider cloud.
Mini‑benchmark e modello di tabella Scarichiamo
Per un articolo di riferimento sui setup locali, Scarichiamo può definire una matrice di benchmark standardizzata. Obiettivo: rendere confrontabili combinazioni hardware+modello e confrontarle anche con alternative via API (Maraiki, OpenAI, Anthropic, Qwen cloud).
Metriche chiave da misurare
- Token/s medi:
- Per modelli 7B, 14B, 32B, 70B.
- Su GPU rappresentative: 3060, 4070Ti, 4090, 5090, dual 5090.
- Esempio: su RTX 5090, Qwen 3 8B Q4 misura 261–323 token/s, che può fungere da baseline per modelli simili. techreviewer
- Latenza first‑token:
- Tempo dal prompt al primo token, importante per UX di chat e coding assistant.
- Consumo VRAM:
- A diverse quantizzazioni: 4‑bit (Q4), 5‑bit, 8‑bit e full‑precision (bfloat16/FP16).
- Guida RunPod su QLoRA fornisce stime pratiche: 7B 4‑bit ~3,5 GB di pesi + overhead 8–10 GB, 13B 4‑bit ~6,5 GB + overhead 15 GB. runpod
- Max contesto supportato:
- 8k, 32k, 128k, con impatto sul throughput.
- Costo stimato / 1M token:
- Locale: energia + ammortamento hardware su X anni, o costo GPU‑ora se eseguito su cloud.
- Cloud API: costi per 1M input/output token dai listini (es. GPT‑5.2, Claude 4.6, Qwen3 Max, DeepSeek V3.2).
Struttura di tabella riutilizzabile (Decision Matrix)
Scarichiamo può adottare una tabella standard del tipo:
| Setup | Modello | Parametri | Quantizzazione | Token/s medi | Latenza 1° token | Max contesto | Costo stimato / 1M token |
|---|---|---|---|---|---|---|---|
| RTX 3060 12 GB | Qwen 2.5 7B | 7B | Q4 | … | … | … | … |
| RTX 4090 24 GB | Llama 3.1 8B | 8B | Q4 | … | … | … | … |
| RTX 5090 32 GB | DeepSeek R1 32B | 32B | Q4_0 | … | … | … | … |
| Dual RTX 5090 | Llama 3.1 70B | 70B | Q3_K_M | … | … | … | … |
In parallelo, per integrare il layer “modelli as‑a‑service” stile Maraiki, Scarichiamo può proporre una tabella gemella:
| Servizio API | Modello | Max contesto | Prezzo input / 1M tok | Prezzo output / 1M tok | Note (thinking, multimodal, ecc.) |
|---|---|---|---|---|---|
| OpenAI | GPT‑5.2 | 400k | 1,75 USD | 14 USD | Logica, generalist |
| Anthropic | Claude 4.6 Opus | 200k | 5 USD | 25 USD | Premium, reasoning |
| Qwen | Qwen3.5 Plus | 1M | 0,40 USD | 2,40 USD | Vision input |
| DeepSeek | DeepSeek V3.2 | 163k | 0,25 USD | 0,38 USD | Budget |
I dati API nelle tabelle possono essere sincronizzati con una sorgente come Maraiki (che già elenca modelli, contesto massimo, prezzi per milione di token e benchmark LiveBench), così che l’utente Scarichiamo possa confrontare immediatamente “costo per 1M token locale” vs “costo per 1M token via API”.
Raccomandazioni sintetiche per persona‑tipo
Sviluppatore solo‑founder con budget limitato
- Hardware consigliato: PC con GPU 12–16 GB (es. RTX 3060 12 GB o 4060/4070 base), 32 GB di RAM, SSD capiente. Questo consente di eseguire in locale modelli 7B–8B quantizzati, usare Ollama/LM Studio e avere un assistant codice/chat sempre disponibile.
- Per esperimenti di fine‑tuning o test con modelli 14B–32B, conviene noleggiare una RTX 4090/5090 in cloud qualche ora al mese, seguendo guide LoRA/QLoRA con costi GPU nell’ordine di poche decine di dollari per run.
Agenzia / Studio che vuole usare AI in house
- Hardware consigliato: workstation con RTX 4090 o 5090 e 128 GB RAM, eventualmente con slot per una seconda GPU in futuro. Questo permette di servire modelli 14B–32B multi‑utente, gestire pipeline RAG locali e sperimentare modelli 30B–50B quantizzati. reddit
- Strategia: usare la workstation per inferenza quotidiana e prototipazione, mantenendo un account presso provider GPU cloud (RunPod, Vast, Hivenet) per batch di fine‑tuning e test intensivi su 2–4 GPU quando servono performance extra. oreateai
PMI che vuole un modello custom ma non un team MLOps
- Strategia consigliata: mantenere quasi tutto in cloud per inizio – API di modelli gestiti (GPT‑5.2, Claude, Qwen3 Max, DeepSeek) per prototipi rapidi e, successivamente, job di fine‑tuning LoRA/QLoRA gestiti da provider specializzati o pacchetti “custom AI” di agenzie.
- Servizi managed (API) se la priorità è time‑to‑market e SLA.
- Una sola istanza GPU in cloud (4090/5090) come “serving node” dedicata se la priorità è ridurre il costo per token, lasciando comunque al provider la gestione hardware.
Hobbyist privacy‑first
- Hardware minimo: PC con GPU 8–12 GB VRAM, 16–32 GB RAM, preferibilmente Linux. Con questo si possono eseguire modelli 7B quantizzati (Llama, Qwen, Gemma) e orchestrare agenti personali completamente offline. runpod
- Stack software tipico: Ollama o LM Studio per gestione modelli, più un client tipo Maraiki‑style a livello di browser solo per confrontare costi/benchmark dei modelli cloud senza inviare dati sensibili. Nessun dato proprietario deve uscire dalla macchina: si può ricorrere al cloud solo per lavori sintetici o dataset pubblici.