Local AI 2026

Panorama generale: Local AI 2026

Nel triennio 2026 si vede una migrazione parziale dal “tutto cloud” a setup ibridi con una quota crescente di workload LLM serviti da macchine locali o colocation controllata dall’azienda. Le motivazioni principali sono: conformità e sovranità dei dati (log e prompt che non possono uscire da certi confini), riduzione della latenza per applicazioni interattive e controllo più prevedibile dei costi rispetto a API fatturate a token o GPU‑ora “a consumo”. aihardwareindex

La privacy non riguarda solo i dati in input ma anche i log dei modelli e i vettori di embedding, che in settori come legale, sanitario o manifatturiero contengono know‑how critico. Per questi contesti i modelli open source (Llama, Qwen, DeepSeek, Gemma, GLM, ecc.) eseguiti su hardware interno sono spesso preferiti rispetto a modelli closed su API, anche se questi ultimi restano insostituibili per alcuni casi di reasoning avanzato. aihardwareindex

Sul fronte prestazioni, la generazione locale riduce la latenza “round‑trip”, specialmente quando l’applicazione fa molte chiamate brevi (tooling, agenti, completamento codice). Una singola RTX 4090 o 5090 può servire decine di richieste concorrenti di modelli 7B–14B con latenze sub‑secondo per la prima risposta, cosa difficile da ottenere con API Internet in ambienti con connettività non ottimale. techreviewer

Inference locale vs fine‑tuning vs pre‑training

Inference locale: eseguire un modello pre‑addestrato (tipicamente open source) in sola lettura, spesso in versione quantizzata (4‑bit, 8‑bit) per rientrare nella VRAM disponibile e massimizzare token/s. È ciò che fanno tool come Ollama, LM Studio, text‑generation‑webui o stack su llama.cpp/vLLM. runpod
Fine‑tuning leggero / LoRA / QLoRA: si congelano i pesi del modello base e si addestrano solo layer “adapter” a bassa dimensione, aggiornando una frazione piccola dei parametri (0,1–10%). Questo riduce drasticamente memoria richiesta, tempo e costo rispetto al full fine‑tuning. stratagem-systems
Pre‑training completo: aggiornare tutti i pesi da zero o quasi (modeli 7B–70B) richiede cluster di GPU data center (es. 8× H100 per 70B) con costi di singola run di fine‑tuning completo che possono superare centinaia di migliaia di dollari; è fuori scala per PMI e viene menzionato solo come riferimento teorico. aihardwareindex

Linee guida recenti mostrano che il full fine‑tuning di un Llama 70B può richiedere 8× H100 con memoria effettiva oltre 1 TB contando pesi, gradienti e stati dell’ottimizzatore, mentre strategie LoRA riducono la richiesta a 2–4× A100 e QLoRA può scendere a una singola GPU 48GB. Questo chiarisce perché nella pratica la maggior parte degli utenti “seri ma non enterprise” punta a modelli 7B–13B con LoRA/QLoRA. aihardwareindex

Ruolo delle librerie per LLM locali

L’ecosistema di librerie e runtime ha abbassato drasticamente la soglia di ingresso:

llama.cpp ha dimostrato che è possibile eseguire LLM 7B–13B quantizzati 4‑bit anche su CPU e GPU consumer modeste, grazie a formati come GGUF e ottimizzazioni aggressive. runpod
vLLM fornisce un runtime ad alte prestazioni con scheduling e paged attention efficiente, pensato per serving multi‑tenant e throughput alto su GPU moderne. aihardwareindex
Ollama e LM Studio offrono interfacce “point‑and‑click” per scaricare, quantizzare e servire modelli (Llama, Qwen, Gemma, DeepSeek, ecc.) con backend llama.cpp/vLLM integrati e API locali compatibili con OpenAI, facilitando l’integrazione nelle applicazioni. techreviewer

Questi tool permettono di sfruttare al massimo GPU con 8–32 GB di VRAM, caricando modelli in quantizzazione 4‑bit o 5‑bit e offloading parziale sulla RAM di sistema quando la VRAM non basta. Un articolo RunPod, ad esempio, mostra come QLoRA consenta di ospitare un modello 7B quantizzato 4‑bit in circa 8–10 GB VRAM effettivi, lasciando spazio per batch e contesto. runpod

Evoluzione hardware: RTX 40→50‑series

Le GPU consumer hanno fatto un salto notevole:

RTX 4090: 24 GB GDDR6X, ampiamente usata per inferenza LLM 7B–34B e fine‑tuning LoRA su 7B–13B; su marketplace come Vast.ai e RunPod i prezzi on‑demand nel 2025–2026 si aggirano intorno a 0,35–0,40 USD/ora (o ~0,20 EUR/ora su provider aggressivi europei). runpod
RTX 5090: 32 GB GDDR7, banda memoria ~1.792 GB/s, 512‑bit di bus e 680 Tensor core di quinta generazione, pensata esplicitamente anche per workload AI e LLM. Guide orientate agli LLM indicano la 5090 come “eccellente” per modelli 30B–50B quantizzati e adatta anche a fine‑tuning parametrico‑efficiente. vast

Articoli tecnici e discussioni community mostrano che con 32 GB VRAM si possono gestire comodamente modelli 30B–40B a precisioni 4‑bit/5‑bit, e con quantizzazioni più spinte (Q2/Q3) si può arrivare a far girare modelli da 70B con parte dei pesi offloadati in RAM, accettando un calo di velocità. In parallelo, ottimizzazioni lato driver e librerie (CUDA, cuDNN, TensorRT‑LLM) sfruttano meglio la banda GDDR7 e la cache L2 molto più ampia, avvicinando la possibilità realistica di “70B ben quantizzato su una sola GPU da 32 GB”. reddit

Livelli hardware per AI locale

Questa sezione definisce 5 livelli hardware orientati a chi valuta setup per LLM locali. I numeri su token/s sono indicativi, basati su test pubblici su RTX 5090 (es. Qwen 3 8B Q4 a 261–323 token/s) e su scaling osservato tra generazioni di GPU. techreviewer

Livello Base – Laptop / Desktop 8–12 GB VRAM

Tipica configurazione:

GPU: RTX 3060 (8–12 GB), 4060 (8 GB).
RAM: 16–32 GB.
Storage: SSD NVMe 1–2 TB per modelli + dataset.

Cosa ci si può aspettare:

Modelli 7B–8B quantizzati 4‑bit (Llama 3.x 8B, Qwen 2.5/3 7B, Gemma 7B) caricati interamente in VRAM con throughput spesso nell’ordine di 10–40 token/s in chat single‑user. runpod
Contesti lunghi (8k–32k token) con un impatto moderato sulla velocità, utile per chat personali, IDE assistant e piccoli agenti locali.

Limiti:

Modelli >14B richiedono offload pesante su RAM con cali drastici di velocità.
Condivisione multi‑utente reale è difficile: una o due sessioni concorrenti al massimo.

Livello Intermedio – GPU 16–24 GB VRAM

Configurazione tipo:

GPU: RTX 4070 Ti (16 GB), 4080/4080 Super (16 GB), 4090 (24 GB).
RAM: 32–64 GB.

Capacità:

Modelli 14B–32B (Qwen, DeepSeek, Llama 3.x 22B/34B, Gemma 27B) in quantizzazione 4‑bit girano con token/s confortevoli per più utenti concorrenti.
Fine‑tuning LoRA/QLoRA su modelli 7B–13B con batch moderati in 6–10 ore è perfettamente fattibile su una singola 24 GB. youtube

Use case tipici:

API interne per un piccolo team (es. 5–20 utenti) con un singolo modello centrale.
Strumenti locali per document search, RAG e generazione report.

Livello Enthusiast – Singola RTX 5090 (32 GB)

Configurazione:

GPU: RTX 5090 32 GB GDDR7.
RAM: 64–128 GB.
PSU robusta (850–1200 W) e cooling adeguato (TGP 575 W).

Capacità realistiche:

Modelli fino a 30B–50B quantizzati 4‑bit/5‑bit con ottime velocità; indicativamente Qwen 3 8B Q4 su 5090 raggiunge 261–323 token/s, quindi un 30B Q4 resta su decine di token/s. techreviewer
Modelli da 70B in quantizzazioni aggressive (Q2/Q3) con parte dei pesi offloadati su RAM, accettando latenza più alta ma comunque usabili per task di reasoning offline. reddit

Use case:

Laboratori AI, agenzie digitali che costruiscono molti workflow interni, sviluppatori che vogliono sperimentare costantemente con modelli grandi senza ricorrere sempre al cloud.

Livello HEDT / Dual‑GPU – 2× 5090 o server 2–4 GPU

Configurazione:

GPU: 2× RTX 5090 (64 GB totali) o mix di 4090/5090 o GPU pro tipo RTX 6000 Ada.
RAM: 128–256 GB.
CPU HEDT (Threadripper, Xeon W) con molte linee PCIe.

Capacità:

Possibilità di:
- Eseguire più istanze di modelli grandi (es. 2× 34B + 1× 8B) in parallelo.
- Fare sharding di modelli 70B tra due GPU, mantenendoli quasi interamente in VRAM con pochissimo offload. introl
Throughput sufficiente per servire decine di utenti concorrenti o orchestrare pipeline multi‑modello (es. routing + tool‑use + generazione finale).

Use case:

Piattaforme SaaS interne, agenzie con molti clienti su modelli customizzati, team di ricerca che iterano spesso su fine‑tuning e valutazioni.

Livello Enterprise / Data center (solo riferimento)

Qui parliamo di GPU come A100, H100/H200, RTX 6000/Blackwell SXM, normalmente non acquistate da PMI ma noleggiate:

VRAM: 40–80 GB per scheda (A100/H100), spesso in cluster 4–8 GPU.
Pricing tipico on‑demand: H100 a 3–4,7 USD/ora per GPU su provider come RunPod e Vast.ai.

Questa classe è rilevante per:

Fine‑tuning seri su modelli 34B–70B.
Servizi ad alta affidabilità con SLA stringenti e multi‑region.

Tabella livelli hardware

Livello	GPU tipica	VRAM	RAM consigliata	Modello max realistico	Use case principali
Base	RTX 3060 / 4060	8–12 GB	16–32 GB	7B–8B quantizzato	Chat, coding assistant, agenti personali
Intermedio	RTX 4070Ti / 4080 / 4090	16–24 GB	32–64 GB	14B–32B quantizzato	API interne, piccoli team, RAG aziendale
Enthusiast	RTX 5090	32 GB	64–128 GB	30B–50B (fino a 70B “spinto”)	Laboratorio AI, agenzie, workflow complessi
Dual‑GPU / HEDT	2× 5090 / 2–4× 4090/5090	2×32 GB+	128–256 GB	Più modelli grandi in parallelo	Multi‑tenant, serving pesante, orchestrazione
Enterprise (cloud)	A100/H100/H200, RTX 6000 SXM	40–80 GB	256 GB+	70B+ full o quasi	Training/fine‑tuning massivo, SLA enterprise

GPU renting: 20k–40k GPU‑ore “on tap”

Negli ultimi anni sono maturati marketplace GPU (Vast.ai, RunPod, Hivenet, ecc.) e provider specializzati che permettono di noleggiare GPU di fascia alta con billing orario o al secondo, spesso con opzioni community più economiche e secure cloud più care. Questo rende realistico per una PMI “prendere in prestito” centinaia di GPU per qualche ora, invece di possedere un data center. oreateai

Range di prezzo realistici (2025–2026)

RTX 4090 (24 GB):
- Vast.ai: articoli e guide indicano un “starting price” intorno a 0,39–0,40 USD/ora on‑demand. runpod
- Provider europei (Hivenet) dichiarano tariffe aggressive, es. ~0,20 EUR/ora (~0,22 USD) per 4090 full VRAM. compute.hivenet
RTX 5090 (32 GB):
- Alcuni articoli sulle tariffe Vast.ai parlano di circa 0,62 USD/ora per 5090 on‑demand. oreateai
- Hivenet dichiara 0,40 EUR/ora per 5090, posizionandosi nella banda bassa rispetto a RunPod/Vast. compute.hivenet
GPU data center (A100/H100/H200, RTX 6000 / Blackwell):
- Confronti di pricing riportano H100 SXM/PCIe tra ~3,2 e 4,7 USD/ora su RunPod e Vast.ai, a seconda della configurazione. poolcompute
- A100 80 GB di solito costa qualcosa meno (circa 1,2–3 USD/ora), a parità di provider.

Questi numeri danno un ordine di grandezza: la fascia consumer top (4090/5090) sta intorno a 0,3–0,6 USD/ora, la fascia data center 3–5 USD/ora per GPU.

Cosa significa “20k–40k GPU‑ore”

“20k GPU‑ore” non implica possedere 20.000 GPU, ma consumare 20.000 ore di GPU complessive, ad esempio:

64× A100 80 GB per 10 ore:
- 64 × 10 = 640 GPU‑ore.
- A 3–4,5 USD/ora, il costo va da ~1.900 a ~2.900 USD per il job. poolcompute
256× RTX 4090 per 24 ore:
- 256 × 24 = 6.144 GPU‑ore.
- A 0,35–0,40 USD/ora il costo è nell’ordine di 2.100–2.500 USD.

Un’azienda può quindi concentrare training/fine‑tuning intensivi in finestre di 8–24 ore, usando cluster a centinaia di GPU, spendendo qualche migliaio di dollari invece di impegnare capex in hardware.

Tabella esempi di costo

Configurazione	GPU	Costo stimato/ora (on‑demand)	Esempio uso
1× RTX 4090	24 GB	~0,35–0,40 USD	Fine‑tuning piccolo, inference veloce
1× RTX 5090	32 GB	~0,45–0,65 USD	Modelli più grandi, esperimenti 30B–70B
4× RTX 4090	96 GB totali	~1,3–1,6 USD	Batch fine‑tuning, esperimenti paralleli
1× A100 80 GB	80 GB	~1,2–3,0 USD	Fine‑tuning 13B–34B, training RAG complessi
1× H100 80 GB	80 GB	~3,2–4,7 USD	Fine‑tuning 34B–70B, serving mission‑critical

Per molte PMI, un modello operativo ragionevole è noleggiare 1–4 GPU 4090/5090 qualche ora alla settimana per fine‑tuning ed esperimenti intensivi, mantenendo l’inferenza quotidiana su una workstation interna o su poche istanze cloud più economiche.

Piccolo fine‑tuning di modelli compatti

Domanda chiave: “Quanto costa adattare un modello 7B–8B al mio dominio?”

Dataset e tecniche

Dimensione dataset:
- In molti casi bastano 1.000–3.000 coppie Q&A o istruzioni ben curate per ottenere un miglioramento percepibile su un dominio stretto (es. knowledge base aziendale, FAQ legali interne).
- Tutorial pratici QLoRA mostrano buoni risultati anche con 500–1.000 prompt per scenari specifici.
Tecniche consigliate:
- LoRA: addestra “adapter” a bassa rank su layer selezionati; di solito 0,1–1% dei parametri totali. stratagem-systems
- QLoRA: combina quantizzazione 4‑bit del modello base con LoRA, riducendo ulteriormente il fabbisogno di VRAM (un 7B QLoRA può stare comodamente su una GPU 24 GB, spesso anche meno).

Una guida RunPod suggerisce che modelli 7B–13B con QLoRA possono essere fine‑tuned su una singola GPU con 24 GB VRAM (3090, 4090, A5000) a costi orari nell’ordine di 0,5–1,0 USD/ora su community cloud. runpod

Ordini di grandezza di tempo e costo

Esempio ragionevole:

Modello 7B (Llama 2/3, Qwen 7B, Gemma 7B) con:
- 1.000–3.000 coppie Q&A (1–3 milioni di token di training effettivi, a seconda della lunghezza media).
- 2–3 epoche, batch moderato.
Hardware:
- 1× RTX 4090 (24 GB) o A4000 equivalente in cloud.
Tempo:
- 6–10 ore di training effettivo, coerente con stime di QLoRA su 10.000 prompt in circa 10 ore e proporzionalità approssimativa per dataset più piccoli.
Costo:
- A 0,35–0,40 USD/ora su marketplace economici, 6–10 ore costano circa 2–4 USD di sola GPU; su provider più cari e regioni enterprise (0,8–1,3 USD/ora) si arriva a 5–13 USD.
- Analisi di mercato LoRA su 2026 riportano tipicamente 50–300 USD per run su infrastrutture gestite (AWS/Lambda, con margine e servizi inclusi), ma la sola componente di GPU per run piccoli resta nell’ordine di decine di dollari.

In pratica, per un power user che usa provider “bare” come Vast.ai o Hivenet, un fine‑tuning QLoRA 7B può costare pochi dollari di GPU, più il tempo di preparazione dati e valutazione. Per una PMI che sceglie un pacchetto managed, lo stesso lavoro si situa facilmente nella fascia 1.000–5.000 USD, ma il collo di bottiglia non è più il costo di compute puro.

Tabella scenari di fine‑tuning

Scenario	Modello base	Dati (Q&A)	GPU tipica	Ore stimate	Costo GPU stimato*
Fine‑tuning leggero	7B	1k–3k	1× RTX 4090 (24 GB)	6–10 h	~5–15 USD (cloud comuni)
Fine‑tuning più corposo	13B	5k–10k	1× A100 / 2× 4090	8–16 h	~30–100 USD
Fine‑tuning esteso	34B	10k–50k	2–4× A100/H100	12–36 h	~200–800 USD

*Solo costo GPU on‑demand; non include preparazione dati, valutazione, sviluppo pipeline.

Video tutorial documentano casi in cui un Llama 2 7B viene fine‑tuned con QLoRA su un’istanza AWS g5.xlarge (1× A10G) in circa 10 ore su 10.000 prompt, con costi totali di compute nell’ordine di pochi dollari usando spot. Questo conferma che, a scala “PMI”, il nodo critico è più la qualità del dataset che il costo di GPU. youtube

Comprare hardware vs noleggiare GPU

Scarichiamo può impostare una sezione di confronto “decisionale” fra:

Workstation locale (es. 4090/5090 con 64–128 GB RAM).
Cloud GPU on‑demand (4090/5090/A100/H100 a ore).

Dimensioni di confronto chiave

Capex vs Opex
- Workstation: investimento iniziale 2.000–5.000 EUR (o più per dual‑GPU), ammortizzato in 3–4 anni.
- Cloud: nessun capex, si paga a GPU‑ora (0,3–0,6 USD/h consumer, 3–5 USD/h data center). oreateai
Profilo di utilizzo
- Carico costante (molte ore al giorno) favorisce l’hardware posseduto.
- Carico bursty (esperimenti intensivi 1–2 volte a settimana) favorisce il cloud.
Privacy e compliance
- Workstation interna: controllo completo dei dati, log e reti; spesso necessario per dati altamente sensibili.
- Cloud: dipende da provider e region; è possibile conformità, ma richiede audit, DPA, VPC dedicati.
Scalabilità
- Workstation: limitata al numero di GPU fisiche, scalare significa acquistare altro hardware.
- Cloud: possibile passare da 1 a 64+ GPU in minuti, pagando proporzionalmente.
Operatività e manutenzione
- Workstation: gestione driver, aggiornamenti CUDA, failures hardware (PSU, ventole, dischi).
- Cloud: il provider astrarrà guasti hardware, ma resta la complessità software (container, immagini).
Costo per 1M token
- Local: costo principalmente energia + ammortamento GPU; su workstation 5090 con 261–323 token/s per un 8B Q4, generare 1M token richiede ~1–1,5 ore di GPU, quindi l’equivalente di poche decine di centesimi di energia. techreviewer
- Cloud GPU: con 0,40 USD/h, 1M token generati in 1 ora su 4090 costa ~0,40 USD; su H100 a 4 USD/h stessa operazione costa ~4 USD. compute.hivenet
- API: come si vede da liste tipo Maraiki, modelli premium come Claude 4.6 Opus o GPT‑5.2 arrivano a 14–25 USD per 1M token di output, mentre modelli mid‑range (Qwen3.5 Plus, DeepSeek V3.2, GPT‑4o Mini) costano tra 0,6 e 6 USD per 1M token di output.

Tabella comparativa workstation vs cloud

Dimensione	Workstation locale (4090/5090)	Cloud GPU on‑demand
Costo iniziale	Alto (2k–5k+ EUR)	Quasi nullo
Costo variabile	Basso (energia, manutenzione)	Diretto a GPU‑ora (0,3–5 USD/h)
Scalabilità	Limitata, richiede nuovo hardware	Elevata, cluster 10–100+ GPU in minuti
Privacy	Massima, dati non escono	Dipende da provider e configurazione
Latenza	Molto bassa in LAN	Dipende da rete e latenza Internet
Setup/Manutenzione	A carico del team IT	Hardware gestito, software comunque da gestire
Adatto a	Carichi stabili, uso quotidiano intenso	Esperimenti burst, training/fine‑tuning massivi

Per Scarichiamo ha senso proporre calcolatrici semplici: es. “se usi più di N ore di GPU al mese è più conveniente comprare una workstation”, con N diverso a seconda del tipo di GPU e del provider cloud.

Mini‑benchmark e modello di tabella Scarichiamo

Per un articolo di riferimento sui setup locali, Scarichiamo può definire una matrice di benchmark standardizzata. Obiettivo: rendere confrontabili combinazioni hardware+modello e confrontarle anche con alternative via API (Maraiki, OpenAI, Anthropic, Qwen cloud).

Metriche chiave da misurare

Token/s medi:
- Per modelli 7B, 14B, 32B, 70B.
- Su GPU rappresentative: 3060, 4070Ti, 4090, 5090, dual 5090.
- Esempio: su RTX 5090, Qwen 3 8B Q4 misura 261–323 token/s, che può fungere da baseline per modelli simili. techreviewer
Latenza first‑token:
- Tempo dal prompt al primo token, importante per UX di chat e coding assistant.
Consumo VRAM:
- A diverse quantizzazioni: 4‑bit (Q4), 5‑bit, 8‑bit e full‑precision (bfloat16/FP16).
- Guida RunPod su QLoRA fornisce stime pratiche: 7B 4‑bit ~3,5 GB di pesi + overhead 8–10 GB, 13B 4‑bit ~6,5 GB + overhead 15 GB. runpod
Max contesto supportato:
- 8k, 32k, 128k, con impatto sul throughput.
Costo stimato / 1M token:
- Locale: energia + ammortamento hardware su X anni, o costo GPU‑ora se eseguito su cloud.
- Cloud API: costi per 1M input/output token dai listini (es. GPT‑5.2, Claude 4.6, Qwen3 Max, DeepSeek V3.2).

Struttura di tabella riutilizzabile (Decision Matrix)

Scarichiamo può adottare una tabella standard del tipo:

Setup	Modello	Parametri	Quantizzazione	Token/s medi	Latenza 1° token	Max contesto	Costo stimato / 1M token
RTX 3060 12 GB	Qwen 2.5 7B	7B	Q4	…	…	…	…
RTX 4090 24 GB	Llama 3.1 8B	8B	Q4	…	…	…	…
RTX 5090 32 GB	DeepSeek R1 32B	32B	Q4_0	…	…	…	…
Dual RTX 5090	Llama 3.1 70B	70B	Q3_K_M	…	…	…	…

In parallelo, per integrare il layer “modelli as‑a‑service” stile Maraiki, Scarichiamo può proporre una tabella gemella:

Servizio API	Modello	Max contesto	Prezzo input / 1M tok	Prezzo output / 1M tok	Note (thinking, multimodal, ecc.)
OpenAI	GPT‑5.2	400k	1,75 USD	14 USD	Logica, generalist
Anthropic	Claude 4.6 Opus	200k	5 USD	25 USD	Premium, reasoning
Qwen	Qwen3.5 Plus	1M	0,40 USD	2,40 USD	Vision input
DeepSeek	DeepSeek V3.2	163k	0,25 USD	0,38 USD	Budget

I dati API nelle tabelle possono essere sincronizzati con una sorgente come Maraiki (che già elenca modelli, contesto massimo, prezzi per milione di token e benchmark LiveBench), così che l’utente Scarichiamo possa confrontare immediatamente “costo per 1M token locale” vs “costo per 1M token via API”.

Raccomandazioni sintetiche per persona‑tipo

Sviluppatore solo‑founder con budget limitato

Hardware consigliato: PC con GPU 12–16 GB (es. RTX 3060 12 GB o 4060/4070 base), 32 GB di RAM, SSD capiente. Questo consente di eseguire in locale modelli 7B–8B quantizzati, usare Ollama/LM Studio e avere un assistant codice/chat sempre disponibile.
Per esperimenti di fine‑tuning o test con modelli 14B–32B, conviene noleggiare una RTX 4090/5090 in cloud qualche ora al mese, seguendo guide LoRA/QLoRA con costi GPU nell’ordine di poche decine di dollari per run.

Agenzia / Studio che vuole usare AI in house

Hardware consigliato: workstation con RTX 4090 o 5090 e 128 GB RAM, eventualmente con slot per una seconda GPU in futuro. Questo permette di servire modelli 14B–32B multi‑utente, gestire pipeline RAG locali e sperimentare modelli 30B–50B quantizzati. reddit
Strategia: usare la workstation per inferenza quotidiana e prototipazione, mantenendo un account presso provider GPU cloud (RunPod, Vast, Hivenet) per batch di fine‑tuning e test intensivi su 2–4 GPU quando servono performance extra. oreateai

PMI che vuole un modello custom ma non un team MLOps

Strategia consigliata: mantenere quasi tutto in cloud per inizio – API di modelli gestiti (GPT‑5.2, Claude, Qwen3 Max, DeepSeek) per prototipi rapidi e, successivamente, job di fine‑tuning LoRA/QLoRA gestiti da provider specializzati o pacchetti “custom AI” di agenzie.
- Servizi managed (API) se la priorità è time‑to‑market e SLA.
- Una sola istanza GPU in cloud (4090/5090) come “serving node” dedicata se la priorità è ridurre il costo per token, lasciando comunque al provider la gestione hardware.

Hobbyist privacy‑first

Hardware minimo: PC con GPU 8–12 GB VRAM, 16–32 GB RAM, preferibilmente Linux. Con questo si possono eseguire modelli 7B quantizzati (Llama, Qwen, Gemma) e orchestrare agenti personali completamente offline. runpod
Stack software tipico: Ollama o LM Studio per gestione modelli, più un client tipo Maraiki‑style a livello di browser solo per confrontare costi/benchmark dei modelli cloud senza inviare dati sensibili. Nessun dato proprietario deve uscire dalla macchina: si può ricorrere al cloud solo per lavori sintetici o dataset pubblici.