May 19, 2025

55. Intelligenza artificiale con Apple Silicon - parte 2

50 minutes

In questa puntata ti parlo di come fare intelligenza artificiale su Apple Silicon; dopo la puntata introduttiva in questa ti parlo della mia configurazione e dei possibili differenti set-up per utilizzare gli Apple Silicon al meglio.

Note dell’episodio

Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.

Link

Ollama

Open Web UI

OpenRouter

SearXNG

Modelli LLM utilizzati maggiormente (al 7 aprile 2025):

QWQ di Alibaba (32B parametri)

Mistral-Small (24B parametri)

Mistral (8B parametri)

Mixtral (8x7B parametri)

Llama 3.2

Comfy UI

msty

- Anything LLM

MLX libraries

LM Studio (soluzione all-in-one con interfaccia grafica):

Discussa nella Puntata 48

Scarica modelli GGML e MLX

Possibilità di creare un server API (compatibili con OpenAI)

n8n

Sinossi

Comunicazioni e Aggiornamenti

Prima di entrare nel vivo, l'episodio include alcune comunicazioni di servizio.

Viene menzionato un "office hour" programmato, la cui data è stata spostata, presumibilmente al 17 aprile. Questo office hour dovrebbe includere slide per mostrare il funzionamento. La sua preparazione è più impegnativa rispetto a una registrazione podcast. È possibile che l'office hour diventi una puntata extra del podcast.

L'obiettivo è mantenere una cadenza bisettimanale del podcast, aggiungendo puntate extra nelle settimane in cui non esce l'episodio ufficiale. È possibile una pausa estiva dovuta a ferie, caldo e condizioni di registrazione nello studiolo senza aria condizionata.

Sono annunciati aggiornamenti interessanti a Notebook LM, introdotti a inizio aprile.

Nelle note salvate di Notebook LM, è ora possibile accedere ai link che rimandano alle fonti originali da cui la nota è stata generata, funzionalità prima assente e considerata la più interessante. Questa funzionalità è disponibile per le chat recenti.

È stata introdotta una nuova funzione di mappa mentale, anche se l'autore non la trova particolarmente interessante.

Ora è possibile effettuare ricerche online direttamente da Notebook LM, utilizzando Google. Questo permette di cercare su un argomento, vedere i link delle fonti, e se pertinenti, caricarle nel taccuino per usarle per dialogare. Questa funzione è considerata utile perché centralizza l'attività in un unico posto.

Intelligenza Artificiale su Apple Silicon (Parte 2)

Questa puntata è la seconda parte di una serie dedicata a come fare intelligenza artificiale su Apple Silicon, proseguendo il discorso iniziato nella puntata 46. L'argomento della puntata 46 ha avuto un buon riscontro statistico.

Viene fatta una distinzione: la puntata non parla di Apple Intelligence (trattata nella puntata 52), ma di cosa è possibile fare con i computer Apple e l'AI, ritenuto "molto di più" rispetto all'attuale, ridotta, Apple Intelligence.

La discussione si articola in due parti: il setup personale dell'autore e altre soluzioni disponibili, notando che il setup personale è di livello medio-alto.

Il Setup Personale

L'hardware principale utilizzato per l'AI è un Mac Studio M1 Max con 32GB di RAM, acquistato di seconda mano appositamente per questo scopo. È gestito in modalità "headless" (senza monitor/tastiera), con accesso da remoto.

Un Mac Mini M1 con 8GB di RAM, usato inizialmente, è stato trovato insufficiente per lavori AI significativi. Il Mac Studio è dedicato esclusivamente all'AI (e backup foto) per separare gli ambiti di lavoro.

L'accesso avviene tramite un'interfaccia web, collegandosi dal computer di lavoro (basato su chip Intel).

Il provider principale di LLM è Ollama, descritto come un "Docker per le intelligenze artificiali". Permette l'accesso a vari LLM e si installa su Apple Silicon.

Inizialmente usato a riga di comando (trovato scomodo), l'autore è passato a utilizzare Open Web UI, un'interfaccia grafica web per Ollama. Open Web UI si è evoluta oltre la semplice interfaccia.

Funzionalità di Open Web UI:

RAG (Retrieval Augmented Generation): Permette di caricare documenti ("aree di lavoro") con cui gli LLM possono interagire e ragionare. Esempi: codice civile e procedura civile. L'interfaccia aiuta a indicizzare e dividere i documenti ("chunk").

Interfaccia di chat standard.

Connettività: Può collegarsi a LLM locali via Ollama, a servizi a pagamento (es. ChatGPT) o a provider multipli come Open Router.

Ricerca Online: Integra la ricerca online per ampliare le conoscenze degli LLM. Può usare motori open source aggregatori come SearXNG (menzionato come "s e n gx") per ricercare su più fonti, gestite dall'LLM stesso.

Personalizzazione parametri chat: Permette di modificare parametri specifici per diverse chat. Il prompt di sistema guida l'LLM in una direzione specifica (utile per contesti legali). La temperatura controlla la creatività/randomicità (solitamente abbassata per lavori di diritto o fattuali). La finestra di contesto (token) è fondamentale; i modelli Ollama di default sono limitati (2048 token), ma i modelli usati dall'autore gestiscono 10-15mila token con 32GB di RAM.

Modelli LLM Principali Utilizzati (Al 7 Aprile 2025)

L'autore elenca i modelli che utilizza maggiormente, in ordine di preferenza:

QWQ (32 miliardi parametri) di Alibaba: Considerato il migliore. Modello di ragionamento, lento, molto grosso (utilizza quasi tutta la RAM disponibile), quantizzato a 4 bit. Funziona bene con RAG e contenuti online in italiano. Necessita di almeno 32GB di RAM. Richiede 3-4+ minuti per risposte di medie dimensioni, specialmente con contesti ampi, ma i risultati sono buoni e i dati restano locali.

Mistral-Small (24 miliardi parametri): Secondo modello preferito. Scrive molto bene in italiano. Buon compromesso tra risultati e tempi di risposta (sebbene non ottimi). Gestisce intorno ai 15mila token di contesto. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili a Qwen con contesti ampi.

Mistral 7B (8 miliardi parametri): Modello veloce con buon italiano. Buon compromesso, ma con limiti. Scaricabile da Hugging Face.

Mixtral (8x7 miliardi parametri): Miscela di esperti ("Mixtral" è un gioco di parole tra Mistral e Mixture). Quantizzato a 3 bit per poter girare sull'hardware. Buon livello di italiano nelle risposte. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili agli altri modelli grandi con contesti ampi.

Questi modelli (eccetto Mistral 7B) richiedono idealmente almeno 32GB di RAM; altrimenti, parte del modello deve essere caricata in CPU, degradando le performance.

Altre Soluzioni AI su Apple Silicon

Vengono presentate diverse soluzioni, dalla più semplice alla più complessa:

Misty: Soluzione "all-in-one" con interfaccia grafica. Installa Ollama in background. Funzioni di chat, RAG, storia chat biforcata. Considerata meno personalizzabile di altre soluzioni. Non completamente open source.

AnythingLLM: Interfaccia grafica con varie integrazioni (incluso Ollama). Interfaccia non gradita all'autore. Funzionalità particolare: aiuta a creare sessioni di chat per generare coppie domanda-risposta utili per il fine-tuning dei modelli. Ciò è rilevante perché il fine-tuning è ora possibile su Apple Silicon con le librerie MLX. Non completamente open source.

LM Studio: Programma scaricabile con interfaccia grafica per interagire con gli LLM. Permette di scaricare modelli con interfaccia grafica e guida sulla compatibilità hardware. Offre configurazioni avanzate per l'uso della GPU. Supporta modelli GGUF e MLX e può collegarsi a Hugging Face. Le performance MLX con LM Studio non hanno convinto l'autore quanto Ollama. Richiede notevole spazio su disco per i modelli. Può funzionare come server API compatibile con OpenAI.

Ollama (Standalone/API): Visto anche come soluzione a sé stante. Gestisce modelli GGUF, ottimizzati per l'inferenza su Mac. I Mac sono ottimi per l'inferenza, meno per il fine-tuning (dove MLX o schede Nvidia sono meglio). Permette di scaricare modelli da sviluppatori Ollama o da Hugging Face, anche tramite riga di comando facilitata. È possibile ottimizzare Ollama (dettagli in una newsletter passata).

Utilizzi Avanzati e Integrazioni

Le API (Application Programming Interfaces) permettono l'interazione remota e programmatica con gli LLM, offrendo maggiore flessibilità e potenza. Le API di Ollama sono quelle usate dall'autore. Vengono utilizzate da interfacce come Open Web UI.

Viene descritta l'integrazione tra Comandi Rapidi (Shortcuts) su dispositivi Apple (iPhone, iPad, Mac) e Ollama tramite API. Un articolo sul sito Avvocati e Mac spiega come realizzare questo collegamento.

Un esempio pratico recente è l'uso di LLM tramite Comandi Rapidi per interpretare linguaggio naturale per le date e gestire l'app Promemoria. Promemoria non gestisce date naturali come "30 giorni dopo la data X". Usando l'LLM per analizzare la frase e Comandi Rapidi per calcolare la data, si può creare un sistema personalizzato per impostare scadenze complesse.

Viene accennato a n8n, uno strumento di automazione workflow web-based. Simile a Comandi Rapidi ma funziona via web, interfacciandosi con API (incluse quelle degli LLM) e altri servizi. Permette di creare workflow con nodi. Utile per automazioni indipendenti dal dispositivo.

...more

View all episodes

By Filippo Strozzi