Avvocati e Mac: Compendium

55. Intelligenza artificiale con Apple Silicon - parte 2


Listen Later


In questa puntata ti parlo di come fare intelligenza artificiale su Apple Silicon; dopo la puntata introduttiva in questa ti parlo della mia configurazione e dei possibili differenti set-up per utilizzare gli Apple Silicon al meglio.

Note dell’episodio

Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.

Link
  • Ollama
  • Open Web UI
    • OpenRouter
    • SearXNG
    • Modelli LLM utilizzati maggiormente (al 7 aprile 2025):
      • QWQ di Alibaba (32B parametri)
      • Mistral-Small (24B parametri)
      • Mistral (8B parametri)
      • Mixtral (8x7B parametri)
      • Llama 3.2
      • Comfy UI
      • msty
      • - Anything LLM
      • MLX libraries
      • LM Studio (soluzione all-in-one con interfaccia grafica):
        • Discussa nella Puntata 48
        • Scarica modelli GGML e MLX
        • Possibilità di creare un server API (compatibili con OpenAI)
        • n8n
        • Sinossi
          Comunicazioni e Aggiornamenti
          • Prima di entrare nel vivo, l'episodio include alcune comunicazioni di servizio.
          • Viene menzionato un "office hour" programmato, la cui data è stata spostata, presumibilmente al 17 aprile. Questo office hour dovrebbe includere slide per mostrare il funzionamento. La sua preparazione è più impegnativa rispetto a una registrazione podcast. È possibile che l'office hour diventi una puntata extra del podcast.
          • L'obiettivo è mantenere una cadenza bisettimanale del podcast, aggiungendo puntate extra nelle settimane in cui non esce l'episodio ufficiale. È possibile una pausa estiva dovuta a ferie, caldo e condizioni di registrazione nello studiolo senza aria condizionata.
          • Sono annunciati aggiornamenti interessanti a Notebook LM, introdotti a inizio aprile.
          • Nelle note salvate di Notebook LM, è ora possibile accedere ai link che rimandano alle fonti originali da cui la nota è stata generata, funzionalità prima assente e considerata la più interessante. Questa funzionalità è disponibile per le chat recenti.
          • È stata introdotta una nuova funzione di mappa mentale, anche se l'autore non la trova particolarmente interessante.
          • Ora è possibile effettuare ricerche online direttamente da Notebook LM, utilizzando Google. Questo permette di cercare su un argomento, vedere i link delle fonti, e se pertinenti, caricarle nel taccuino per usarle per dialogare. Questa funzione è considerata utile perché centralizza l'attività in un unico posto.
          • Intelligenza Artificiale su Apple Silicon (Parte 2)
            • Questa puntata è la seconda parte di una serie dedicata a come fare intelligenza artificiale su Apple Silicon, proseguendo il discorso iniziato nella puntata 46. L'argomento della puntata 46 ha avuto un buon riscontro statistico.
            • Viene fatta una distinzione: la puntata non parla di Apple Intelligence (trattata nella puntata 52), ma di cosa è possibile fare con i computer Apple e l'AI, ritenuto "molto di più" rispetto all'attuale, ridotta, Apple Intelligence.
            • La discussione si articola in due parti: il setup personale dell'autore e altre soluzioni disponibili, notando che il setup personale è di livello medio-alto.
            • Il Setup Personale
              • L'hardware principale utilizzato per l'AI è un Mac Studio M1 Max con 32GB di RAM, acquistato di seconda mano appositamente per questo scopo. È gestito in modalità "headless" (senza monitor/tastiera), con accesso da remoto.
              • Un Mac Mini M1 con 8GB di RAM, usato inizialmente, è stato trovato insufficiente per lavori AI significativi. Il Mac Studio è dedicato esclusivamente all'AI (e backup foto) per separare gli ambiti di lavoro.
              • L'accesso avviene tramite un'interfaccia web, collegandosi dal computer di lavoro (basato su chip Intel).
              • Il provider principale di LLM è Ollama, descritto come un "Docker per le intelligenze artificiali". Permette l'accesso a vari LLM e si installa su Apple Silicon.
              • Inizialmente usato a riga di comando (trovato scomodo), l'autore è passato a utilizzare Open Web UI, un'interfaccia grafica web per Ollama. Open Web UI si è evoluta oltre la semplice interfaccia.
              • Funzionalità di Open Web UI:
                • RAG (Retrieval Augmented Generation): Permette di caricare documenti ("aree di lavoro") con cui gli LLM possono interagire e ragionare. Esempi: codice civile e procedura civile. L'interfaccia aiuta a indicizzare e dividere i documenti ("chunk").
                • Interfaccia di chat standard.
                • Connettività: Può collegarsi a LLM locali via Ollama, a servizi a pagamento (es. ChatGPT) o a provider multipli come Open Router.
                • Ricerca Online: Integra la ricerca online per ampliare le conoscenze degli LLM. Può usare motori open source aggregatori come SearXNG (menzionato come "s e n gx") per ricercare su più fonti, gestite dall'LLM stesso.
                • Personalizzazione parametri chat: Permette di modificare parametri specifici per diverse chat. Il prompt di sistema guida l'LLM in una direzione specifica (utile per contesti legali). La temperatura controlla la creatività/randomicità (solitamente abbassata per lavori di diritto o fattuali). La finestra di contesto (token) è fondamentale; i modelli Ollama di default sono limitati (2048 token), ma i modelli usati dall'autore gestiscono 10-15mila token con 32GB di RAM.
                • Modelli LLM Principali Utilizzati (Al 7 Aprile 2025)
                  • L'autore elenca i modelli che utilizza maggiormente, in ordine di preferenza:
                    • QWQ (32 miliardi parametri) di Alibaba: Considerato il migliore. Modello di ragionamento, lento, molto grosso (utilizza quasi tutta la RAM disponibile), quantizzato a 4 bit. Funziona bene con RAG e contenuti online in italiano. Necessita di almeno 32GB di RAM. Richiede 3-4+ minuti per risposte di medie dimensioni, specialmente con contesti ampi, ma i risultati sono buoni e i dati restano locali.
                    • Mistral-Small (24 miliardi parametri): Secondo modello preferito. Scrive molto bene in italiano. Buon compromesso tra risultati e tempi di risposta (sebbene non ottimi). Gestisce intorno ai 15mila token di contesto. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili a Qwen con contesti ampi.
                    • Mistral 7B (8 miliardi parametri): Modello veloce con buon italiano. Buon compromesso, ma con limiti. Scaricabile da Hugging Face.
                    • Mixtral (8x7 miliardi parametri): Miscela di esperti ("Mixtral" è un gioco di parole tra Mistral e Mixture). Quantizzato a 3 bit per poter girare sull'hardware. Buon livello di italiano nelle risposte. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili agli altri modelli grandi con contesti ampi.
                    • Questi modelli (eccetto Mistral 7B) richiedono idealmente almeno 32GB di RAM; altrimenti, parte del modello deve essere caricata in CPU, degradando le performance.
                    • Altre Soluzioni AI su Apple Silicon
                      • Vengono presentate diverse soluzioni, dalla più semplice alla più complessa:
                        • Misty: Soluzione "all-in-one" con interfaccia grafica. Installa Ollama in background. Funzioni di chat, RAG, storia chat biforcata. Considerata meno personalizzabile di altre soluzioni. Non completamente open source.
                        • AnythingLLM: Interfaccia grafica con varie integrazioni (incluso Ollama). Interfaccia non gradita all'autore. Funzionalità particolare: aiuta a creare sessioni di chat per generare coppie domanda-risposta utili per il fine-tuning dei modelli. Ciò è rilevante perché il fine-tuning è ora possibile su Apple Silicon con le librerie MLX. Non completamente open source.
                        • LM Studio: Programma scaricabile con interfaccia grafica per interagire con gli LLM. Permette di scaricare modelli con interfaccia grafica e guida sulla compatibilità hardware. Offre configurazioni avanzate per l'uso della GPU. Supporta modelli GGUF e MLX e può collegarsi a Hugging Face. Le performance MLX con LM Studio non hanno convinto l'autore quanto Ollama. Richiede notevole spazio su disco per i modelli. Può funzionare come server API compatibile con OpenAI.
                        • Ollama (Standalone/API): Visto anche come soluzione a sé stante. Gestisce modelli GGUF, ottimizzati per l'inferenza su Mac. I Mac sono ottimi per l'inferenza, meno per il fine-tuning (dove MLX o schede Nvidia sono meglio). Permette di scaricare modelli da sviluppatori Ollama o da Hugging Face, anche tramite riga di comando facilitata. È possibile ottimizzare Ollama (dettagli in una newsletter passata).
                        • Utilizzi Avanzati e Integrazioni
                          • Le API (Application Programming Interfaces) permettono l'interazione remota e programmatica con gli LLM, offrendo maggiore flessibilità e potenza. Le API di Ollama sono quelle usate dall'autore. Vengono utilizzate da interfacce come Open Web UI.
                          • Viene descritta l'integrazione tra Comandi Rapidi (Shortcuts) su dispositivi Apple (iPhone, iPad, Mac) e Ollama tramite API. Un articolo sul sito Avvocati e Mac spiega come realizzare questo collegamento.
                          • Un esempio pratico recente è l'uso di LLM tramite Comandi Rapidi per interpretare linguaggio naturale per le date e gestire l'app Promemoria. Promemoria non gestisce date naturali come "30 giorni dopo la data X". Usando l'LLM per analizzare la frase e Comandi Rapidi per calcolare la data, si può creare un sistema personalizzato per impostare scadenze complesse.
                          • Viene accennato a n8n, uno strumento di automazione workflow web-based. Simile a Comandi Rapidi ma funziona via web, interfacciandosi con API (incluse quelle degli LLM) e altri servizi. Permette di creare workflow con nodi. Utile per automazioni indipendenti dal dispositivo.
                          • ...more
                            View all episodesView all episodes
                            Download on the App Store

                            Avvocati e Mac: CompendiumBy Filippo Strozzi


                            More shows like Avvocati e Mac: Compendium

                            View all
                            Il Disinformatico by RSI - Radiotelevisione svizzera

                            Il Disinformatico

                            4 Listeners

                            Digitalia by Franco Solerio

                            Digitalia

                            1 Listeners

                            EasyApple by EasyPodcast

                            EasyApple

                            3 Listeners

                            Pillole di Bit by Francesco Tucci

                            Pillole di Bit

                            1 Listeners

                            DataKnightmare: L'algoritmico è politico by Walter Vannini

                            DataKnightmare: L'algoritmico è politico

                            1 Listeners

                            Marco Montemagno - Il Podcast by Marco Montemagno

                            Marco Montemagno - Il Podcast

                            22 Listeners

                            SNAP - Architettura Imperfetta by Roberto Marin

                            SNAP - Architettura Imperfetta

                            0 Listeners

                            Il podcast di Alessandro Barbero: Lezioni e Conferenze di Storia by A cura di: Fabrizio Mele

                            Il podcast di Alessandro Barbero: Lezioni e Conferenze di Storia

                            194 Listeners

                            Actually by Will Media

                            Actually

                            6 Listeners

                            Negati - Freelance allo sbaraglio by Andrea Ciraolo, Valentina De Poli & Matteo Scandolin

                            Negati - Freelance allo sbaraglio

                            0 Listeners

                            Il TiraLinee by Daniele Borghi

                            Il TiraLinee

                            0 Listeners

                            9:41 by Luca Ansevini, Pietro Mamei & Matteo Pau

                            9:41

                            1 Listeners

                            Non hanno un amico by Luca Bizzarri – Chora Media

                            Non hanno un amico

                            39 Listeners

                            CRASH – La chiave per il digitale by Andrea Daniele Signorelli & VOIS

                            CRASH – La chiave per il digitale

                            0 Listeners

                            Il Mondo by Internazionale

                            Il Mondo

                            33 Listeners