
Sign up to save your podcasts
Or


In questa puntata ti parlo dei modelli di conversione da audio a testo (Whisper e Parakeet) e dei possibili usi che se ne posso fare anche in congiunzione con gli LLM.
Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.
Qui trovi la registrazione in video della puntata non editata.
Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.
Filippo ci racconta la sua esperienza: in passato, la dettatura al computer, con strumenti come Dragon Dictate, era un bel grattacapo e non la usava quasi mai. Lui è un fanatico della tastiera, ma ultimamente sta esplorando la "scrittura aumentata" grazie ai modelli linguistici (LLM) e ne ha già parlato in un articolo. Ci tiene a sottolineare che, per sfruttare al meglio queste tecnologie, è quasi indispensabile avere un Mac con processore Apple Silicon, perché è fondamentale per gestire la potenza di calcolo richiesta.
Il cuore della puntata ci porta a scoprire Whisper, un progetto open-source di OpenAI che trasforma l'audio in testo, usando l'intelligenza dei modelli linguistici. Filippo spiega che c'è un compromesso tra velocità e precisione: più vuoi un testo perfetto, più il sistema ci mette, e viceversa. Inizialmente era più orientato all'inglese, ma ora va alla grande con tante lingue, incluso l'italiano. La grande novità, però, sono i modelli di Nvidia chiamati Parakeet, che sono velocissimi nel riconoscere l'audio e danno risultati davvero ottimi. Questi modelli, che Filippo ha provato di persona, sono nettamente più rapidi di Whisper e supportano 25 lingue europee, italiano compreso.
Non è che la trascrizione sia una cosa nuovissima: Filippo ci ricorda che esistono già sistemi come quello di Microsoft Word e che Apple stessa offre da tempo il riconoscimento vocale su macOS, iOS e iPadOS. Questi strumenti sono perfetti per dettare messaggi e, scaricati i modelli, possono funzionare anche offline. Un buon microfono è essenziale, ma i microfoni integrati nei MacBook Air, ad esempio, hanno stupito Filippo per la loro qualità. La dettatura Apple, però, ha i suoi limiti: non sempre aggiunge la punteggiatura e il testo compare in tempo reale, cosa che a volte può distrarre. I sistemi basati su Whisper, al contrario, elaborano l'audio una volta finito e si occupano anche della punteggiatura, gestendo bene anche registrazioni lunghe. Con i prossimi aggiornamenti (iOS 26 e macOS 26), la trascrizione sarà integrata nei "Comandi Rapidi" e anche l'app "Memo Vocali" su iOS 18+ ha già questa funzione. La trascrizione, in fondo, è un ottimo punto di partenza per una prima bozza di testo, utile per prendere appunti o abbozzare documenti legali al volo.
Il vero "game changer" è l'unione della trascrizione con i Large Language Models (LLM). Quando dai in pasto un testo trascritto a un LLM, questo sfrutta la sua conoscenza del linguaggio per correggere, riorganizzare o riassumere, migliorando tantissimo il risultato. Filippo, ad esempio, usa questo metodo per trasformare le trascrizioni dei suoi podcast in sinossi o articoli completi. Questo sistema è super versatile: permette di creare testi strutturati con titoli automatici e persino di modificare il tono, rendendolo più professionale o più semplice per i clienti. Puoi scegliere tra LLM online(velocissimi e potenti, ma attenzione alla privacy con dati sensibili) o offline/locali (più sicuri per la privacy, ma richiedono più potenza hardware e sono meno indicati per testi lunghi). Un consiglio d'oro di Filippo: parlare direttamente con gli LLM (attraverso la trascrizione) è un trucco potentissimo. Dà all'AI un contesto più ricco e ti aiuta a chiarire le idee mentre parli, portando a risposte migliori e più mirate.
Per rendere tutto questo più semplice, Filippo ci presenta tre applicazioni chiave:
Insomma, il futuro della produttività passa molto da qui: l'unione tra la tua voce e l'Intelligenza Artificiale ha un potenziale enorme per gestire e riorganizzare le informazioni, riducendo anche le "allucinazioni" degli LLM quando lavorano su testi ampi. Un mondo da esplorare!
By Filippo StrozziIn questa puntata ti parlo dei modelli di conversione da audio a testo (Whisper e Parakeet) e dei possibili usi che se ne posso fare anche in congiunzione con gli LLM.
Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.
Qui trovi la registrazione in video della puntata non editata.
Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.
Filippo ci racconta la sua esperienza: in passato, la dettatura al computer, con strumenti come Dragon Dictate, era un bel grattacapo e non la usava quasi mai. Lui è un fanatico della tastiera, ma ultimamente sta esplorando la "scrittura aumentata" grazie ai modelli linguistici (LLM) e ne ha già parlato in un articolo. Ci tiene a sottolineare che, per sfruttare al meglio queste tecnologie, è quasi indispensabile avere un Mac con processore Apple Silicon, perché è fondamentale per gestire la potenza di calcolo richiesta.
Il cuore della puntata ci porta a scoprire Whisper, un progetto open-source di OpenAI che trasforma l'audio in testo, usando l'intelligenza dei modelli linguistici. Filippo spiega che c'è un compromesso tra velocità e precisione: più vuoi un testo perfetto, più il sistema ci mette, e viceversa. Inizialmente era più orientato all'inglese, ma ora va alla grande con tante lingue, incluso l'italiano. La grande novità, però, sono i modelli di Nvidia chiamati Parakeet, che sono velocissimi nel riconoscere l'audio e danno risultati davvero ottimi. Questi modelli, che Filippo ha provato di persona, sono nettamente più rapidi di Whisper e supportano 25 lingue europee, italiano compreso.
Non è che la trascrizione sia una cosa nuovissima: Filippo ci ricorda che esistono già sistemi come quello di Microsoft Word e che Apple stessa offre da tempo il riconoscimento vocale su macOS, iOS e iPadOS. Questi strumenti sono perfetti per dettare messaggi e, scaricati i modelli, possono funzionare anche offline. Un buon microfono è essenziale, ma i microfoni integrati nei MacBook Air, ad esempio, hanno stupito Filippo per la loro qualità. La dettatura Apple, però, ha i suoi limiti: non sempre aggiunge la punteggiatura e il testo compare in tempo reale, cosa che a volte può distrarre. I sistemi basati su Whisper, al contrario, elaborano l'audio una volta finito e si occupano anche della punteggiatura, gestendo bene anche registrazioni lunghe. Con i prossimi aggiornamenti (iOS 26 e macOS 26), la trascrizione sarà integrata nei "Comandi Rapidi" e anche l'app "Memo Vocali" su iOS 18+ ha già questa funzione. La trascrizione, in fondo, è un ottimo punto di partenza per una prima bozza di testo, utile per prendere appunti o abbozzare documenti legali al volo.
Il vero "game changer" è l'unione della trascrizione con i Large Language Models (LLM). Quando dai in pasto un testo trascritto a un LLM, questo sfrutta la sua conoscenza del linguaggio per correggere, riorganizzare o riassumere, migliorando tantissimo il risultato. Filippo, ad esempio, usa questo metodo per trasformare le trascrizioni dei suoi podcast in sinossi o articoli completi. Questo sistema è super versatile: permette di creare testi strutturati con titoli automatici e persino di modificare il tono, rendendolo più professionale o più semplice per i clienti. Puoi scegliere tra LLM online(velocissimi e potenti, ma attenzione alla privacy con dati sensibili) o offline/locali (più sicuri per la privacy, ma richiedono più potenza hardware e sono meno indicati per testi lunghi). Un consiglio d'oro di Filippo: parlare direttamente con gli LLM (attraverso la trascrizione) è un trucco potentissimo. Dà all'AI un contesto più ricco e ti aiuta a chiarire le idee mentre parli, portando a risposte migliori e più mirate.
Per rendere tutto questo più semplice, Filippo ci presenta tre applicazioni chiave:
Insomma, il futuro della produttività passa molto da qui: l'unione tra la tua voce e l'Intelligenza Artificiale ha un potenziale enorme per gestire e riorganizzare le informazioni, riducendo anche le "allucinazioni" degli LLM quando lavorano su testi ampi. Un mondo da esplorare!

1 Listeners

3 Listeners

0 Listeners

5 Listeners

0 Listeners

23 Listeners

0 Listeners

184 Listeners

7 Listeners

0 Listeners

0 Listeners

31 Listeners

33 Listeners

0 Listeners

1 Listeners