Avvocati e Mac: Compendium

64. Da audio a testo e scrittura con gli LLM


Listen Later


In questa puntata ti parlo dei modelli di conversione da audio a testo (Whisper e Parakeet) e dei possibili usi che se ne posso fare anche in congiunzione con gli LLM.

Note dell’episodio

Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.

Qui trovi la registrazione in video della puntata non editata.

Link
  • Whisper
  • MacWhisper
  • SuperWhisper
  • Transcriber
  • Parakeet
  • Dragon Dictate
  • Sinossi

    Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.

    1. Le mie premesse e il ruolo di Apple Silicon

    Filippo ci racconta la sua esperienza: in passato, la dettatura al computer, con strumenti come Dragon Dictate, era un bel grattacapo e non la usava quasi mai. Lui è un fanatico della tastiera, ma ultimamente sta esplorando la "scrittura aumentata" grazie ai modelli linguistici (LLM) e ne ha già parlato in un articolo. Ci tiene a sottolineare che, per sfruttare al meglio queste tecnologie, è quasi indispensabile avere un Mac con processore Apple Silicon, perché è fondamentale per gestire la potenza di calcolo richiesta.

    2. I motori della conversione audio-testo: Whisper e Parakeet

    Il cuore della puntata ci porta a scoprire Whisper, un progetto open-source di OpenAI che trasforma l'audio in testo, usando l'intelligenza dei modelli linguistici. Filippo spiega che c'è un compromesso tra velocità e precisione: più vuoi un testo perfetto, più il sistema ci mette, e viceversa. Inizialmente era più orientato all'inglese, ma ora va alla grande con tante lingue, incluso l'italiano. La grande novità, però, sono i modelli di Nvidia chiamati Parakeet, che sono velocissimi nel riconoscere l'audio e danno risultati davvero ottimi. Questi modelli, che Filippo ha provato di persona, sono nettamente più rapidi di Whisper e supportano 25 lingue europee, italiano compreso.

    3. Le soluzioni "base": dagli strumenti Apple agli utilizzi iniziali

    Non è che la trascrizione sia una cosa nuovissima: Filippo ci ricorda che esistono già sistemi come quello di Microsoft Word e che Apple stessa offre da tempo il riconoscimento vocale su macOS, iOS e iPadOS. Questi strumenti sono perfetti per dettare messaggi e, scaricati i modelli, possono funzionare anche offline. Un buon microfono è essenziale, ma i microfoni integrati nei MacBook Air, ad esempio, hanno stupito Filippo per la loro qualità. La dettatura Apple, però, ha i suoi limiti: non sempre aggiunge la punteggiatura e il testo compare in tempo reale, cosa che a volte può distrarre. I sistemi basati su Whisper, al contrario, elaborano l'audio una volta finito e si occupano anche della punteggiatura, gestendo bene anche registrazioni lunghe. Con i prossimi aggiornamenti (iOS 26 e macOS 26), la trascrizione sarà integrata nei "Comandi Rapidi" e anche l'app "Memo Vocali" su iOS 18+ ha già questa funzione. La trascrizione, in fondo, è un ottimo punto di partenza per una prima bozza di testo, utile per prendere appunti o abbozzare documenti legali al volo.

    4. Il salto di qualità: trascrizione + LLM, online o offline?

    Il vero "game changer" è l'unione della trascrizione con i Large Language Models (LLM). Quando dai in pasto un testo trascritto a un LLM, questo sfrutta la sua conoscenza del linguaggio per correggere, riorganizzare o riassumere, migliorando tantissimo il risultato. Filippo, ad esempio, usa questo metodo per trasformare le trascrizioni dei suoi podcast in sinossi o articoli completi. Questo sistema è super versatile: permette di creare testi strutturati con titoli automatici e persino di modificare il tono, rendendolo più professionale o più semplice per i clienti. Puoi scegliere tra LLM online(velocissimi e potenti, ma attenzione alla privacy con dati sensibili) o offline/locali (più sicuri per la privacy, ma richiedono più potenza hardware e sono meno indicati per testi lunghi). Un consiglio d'oro di Filippo: parlare direttamente con gli LLM (attraverso la trascrizione) è un trucco potentissimo. Dà all'AI un contesto più ricco e ti aiuta a chiarire le idee mentre parli, portando a risposte migliori e più mirate.

    5. Le app che ci semplificano la vita: Mac Whisper, Super Whisper e Transcriber

    Per rendere tutto questo più semplice, Filippo ci presenta tre applicazioni chiave:

    • Mac Whisper: Un'app molto conosciuta (costo circa 59€ una tantum) che riconosce più voci (utile per le riunioni), permette di revisionare il testo con gli LLM (anche locali o tramite Open Router) e può persino monitorare cartelle per trascrizioni automatiche. Offre sia trascrizioni in cloud (comode ma meno private) sia in locale (più private).
    • Super Whisper: Questa app punta a rendere la trascrizione super efficace, ideale per chi non è un fulmine a digitare. Funziona in abbonamento (8$/mese o 85$/anno, con un'opzione "lifetime" da 250$) e include già gli LLM online. Permette automazioni, integrazione con Comandi Rapidi, prompt personalizzati e tiene uno storico dei tuoi audio. È pensata per sostituire l'interazione alla Spotlight per attivare le funzioni vocali.
    • Transcriber (di Alex Racuglia): Nata dalle esigenze di video editing di un amico di Filippo, questa app trascrive (anche con timestamp per i sottotitoli) e include funzioni AI specifiche per il video. Attualmente supporta le API di ChatGPT e Gemini e permette di creare prompt personalizzati.
    • Insomma, il futuro della produttività passa molto da qui: l'unione tra la tua voce e l'Intelligenza Artificiale ha un potenziale enorme per gestire e riorganizzare le informazioni, riducendo anche le "allucinazioni" degli LLM quando lavorano su testi ampi. Un mondo da esplorare!

      ...more
      View all episodesView all episodes
      Download on the App Store

      Avvocati e Mac: CompendiumBy Filippo Strozzi


      More shows like Avvocati e Mac: Compendium

      View all
      Digitalia by Franco Solerio

      Digitalia

      1 Listeners

      EasyApple by EasyPodcast

      EasyApple

      3 Listeners

      Pillole di Bit by Francesco Tucci

      Pillole di Bit

      0 Listeners

      Il Disinformatico by RSI - Radiotelevisione svizzera

      Il Disinformatico

      5 Listeners

      DataKnightmare: L'algoritmico è politico by Walter Vannini

      DataKnightmare: L'algoritmico è politico

      0 Listeners

      Marco Montemagno - Il Podcast by Marco Montemagno

      Marco Montemagno - Il Podcast

      23 Listeners

      SNAP - Architettura Imperfetta by Roberto Marin

      SNAP - Architettura Imperfetta

      0 Listeners

      Il podcast di Alessandro Barbero: Lezioni e Conferenze di Storia by A cura di: Fabrizio Mele

      Il podcast di Alessandro Barbero: Lezioni e Conferenze di Storia

      184 Listeners

      Actually by Will Media

      Actually

      7 Listeners

      Negati - Freelance allo sbaraglio by Andrea Ciraolo, Valentina De Poli & Matteo Scandolin

      Negati - Freelance allo sbaraglio

      0 Listeners

      Il TiraLinee by Daniele Borghi

      Il TiraLinee

      0 Listeners

      Il Mondo by Internazionale

      Il Mondo

      31 Listeners

      Non hanno un amico by Luca Bizzarri - Chora Media

      Non hanno un amico

      33 Listeners

      CRASH – La chiave per il digitale by Andrea Daniele Signorelli & VOIS

      CRASH – La chiave per il digitale

      0 Listeners

      9:41 by Luca Ansevini, Matteo Pau, Simone Baglio

      9:41

      1 Listeners