shauncastic.com

Model teks-ke-speech open source baru yang disebut DIA telah tiba untuk menantang Elevenlabs, Openai dan banyak lagi


Listen Later

Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut

Startup dua orang dengan nama Nari Labs telah memperkenalkan DIA, model 1,6 miliar parameter teks-ke-speech (TTS) yang dirancang untuk menghasilkan dialog naturalistik langsung dari petunjuk teks-dan salah satu penciptanya mengklaim bahwa ia melampaui kinerja penawaran kepemilikan yang bersaing dari generasi seperti ElevenLabs, Google Hit Notebooklm AI POPREOMLM AI POPREOM POPREOM.

Itu juga bisa mengancam penyerapan GPT-4O-Mini-TTS Openai baru-baru ini.

“Fitur podcast NotebookLM NotebookLM dia sambil melampaui ElevenLabs Studio dan Model Terbuka Sesame dalam kualitas,” kata Toby Kim, salah satu co-pencipta Nari dan Dia, pada sebuah pos dari akunnya di jejaring sosial X.

Dalam sebuah posting yang terpisah, Kim mencatat bahwa model itu dibangun dengan “nol dana,” dan ditambahkan di utas: “… kami bukan ahli dari awal. Semuanya dimulai ketika kami jatuh cinta dengan fitur podcast Notebooklm ketika kami mencoba setiap tahun lalu.

Kim lebih lanjut mengkredit Google karena memberinya dan akses kolaborator ke chip unit pemrosesan Tensor (TPU) perusahaan untuk melatih DIA melalui cloud penelitian Google.

Kode dan bobot Dia – set koneksi model internal – sekarang tersedia untuk diunduh dan penyebaran lokal oleh siapa pun dari memeluk wajah atau github. Pengguna individu dapat mencoba menghasilkan ucapan darinya di ruang wajah yang memeluk.

Kontrol canggih dan lebih banyak fitur yang dapat disesuaikan

DIA mendukung fitur bernuansa seperti nada emosional, penandaan speaker, dan isyarat audio nonverbal – semua dari teks biasa.

Pengguna dapat menandai putaran speaker dengan tag seperti [S1] Dan [S2]dan termasuk isyarat seperti (tertawa), (batuk), atau (membersihkan tenggorokan) untuk memperkaya dialog yang dihasilkan dengan perilaku nonverbal.

Tag -tag ini ditafsirkan dengan benar oleh DIA selama generasi – sesuatu yang tidak andal didukung oleh model lain yang tersedia, menurut halaman contoh perusahaan.

Model ini saat ini hanya bahasa Inggris dan tidak terikat dengan suara pembicara tunggal, menghasilkan suara yang berbeda per run kecuali pengguna memperbaiki benih generasi atau memberikan prompt audio. Pengkondisian audio, atau kloning suara, memungkinkan pengguna memandu nada bicara dan persamaan suara dengan mengunggah klip sampel.

Nari Labs menawarkan kode contoh untuk memfasilitasi proses ini dan demo berbasis gradio sehingga pengguna dapat mencobanya tanpa pengaturan.

Perbandingan dengan ElevenLabs dan Wijen

Nari menawarkan sejumlah file audio contoh yang dihasilkan oleh DIA di situs web Notion-nya, membandingkannya dengan saingan pidato-ke-teks terkemuka lainnya, khususnya ElevenLabs Studio dan Sesame CSM-1B, yang lemari sebuah model teks-ke-speech baru dari co-pencipta headset Oculus Brendan Iribe yang pergi ke suatu tahun awal tahun ini.

Contoh berdampingan yang dibagikan oleh Nari Labs menunjukkan bagaimana Dia mengungguli kompetisi di beberapa bidang:

Dalam skenario dialog standar, dia menangani waktu alami dan ekspresi nonverbal dengan lebih baik. Misalnya, dalam skrip yang diakhiri dengan (tertawa), dia menafsirkan dan memberikan tawa yang sebenarnya, sedangkan elevenlab dan penggantian tekstual output wijen seperti “haha”.

Misalnya, inilah dia…

… Dan kalimat yang sama diucapkan oleh Elevenlabs Studio

Dalam percakapan multi-giliran dengan rentang emosional, DIA menunjukkan transisi yang lebih halus dan pergeseran nada. Satu tes termasuk adegan darurat yang dramatis dan bermuatan emosional. DIA memberikan stres urgensi dan pembicara secara efektif, sementara model yang bersaing sering meratakan pengiriman atau mondar -mandir yang hilang.

Dia dengan unik menangani skrip nonverbal saja, seperti pertukaran lucu yang melibatkan batuk, mengendus, dan tertawa. Model yang bersaing gagal mengenali tag ini atau melewatkannya sepenuhnya.

Bahkan dengan konten yang rumit secara ritmis seperti lirik rap, DIA menghasilkan ucapan bergaya kinerja yang memelihara tempo. Ini kontras dengan output yang lebih monoton atau terputus -putus dari ElevenLabs dan Model 1B Sesame.

Menggunakan petunjuk audio, DIA dapat memperluas atau melanjutkan gaya suara speaker ke baris baru. Contoh menggunakan klip percakapan sebagai benih menunjukkan bagaimana Dia membawa sifat -sifat vokal dari sampel melalui sisa dialog yang ditulis. Fitur ini tidak didukung secara kuat di model lain.

Dalam satu set tes, Nari Labs mencatat bahwa demo situs web terbaik Wijen kemungkinan menggunakan versi internal 8B dari model daripada pos pemeriksaan 1B publik, menghasilkan celah antara kinerja yang diiklankan dan aktual.

Akses model dan spesifikasi teknologi

Pengembang dapat mengakses DIA dari Repositori GitHub Nari Labs dan halaman Model Wajah Memeluknya.

Model ini berjalan pada Pytorch 2.0+ dan CUDA 12.6 dan membutuhkan sekitar 10GB VRAM.

Inferensi pada GPU kelas perusahaan seperti NVIDIA A4000 menghasilkan sekitar 40 token per detik.

Sementara versi saat ini hanya berjalan pada GPU, Nari berencana untuk menawarkan dukungan CPU dan rilis terkuantisasi untuk meningkatkan aksesibilitas.

Startup ini menawarkan pustaka Python dan alat CLI untuk merampingkan penyebaran lebih lanjut.

Fleksibilitas dia membuka kasus penggunaan dari pembuatan konten hingga teknologi membantu dan sulih suara sintetis.

Nari Labs juga mengembangkan versi konsumen DIA yang ditujukan untuk pengguna biasa yang ingin remix atau berbagi percakapan yang dihasilkan. Pengguna yang tertarik dapat bernyanyi melalui email ke daftar tunggu untuk akses awal.

Sumber terbuka sepenuhnya

Model ini didistribusikan di bawah lisensi Apache 2.0 Source Open Open, yang berarti dapat digunakan untuk tujuan komersial – sesuatu yang jelas akan menarik bagi perusahaan atau pengembang aplikasi indie.

Nari Labs secara eksplisit melarang penggunaan yang mencakup menyamar sebagai individu, menyebarkan informasi yang salah, atau terlibat dalam kegiatan ilegal. Tim ini mendorong eksperimen yang bertanggung jawab dan telah mengambil sikap terhadap penyebaran yang tidak etis.

Dukungan Pengembangan Pengembangan DIA dari Google TPU Research Cloud, Program Hibah ZerogPU FACE FACE, dan pekerjaan sebelumnya pada SoundStorm, PetaEt, dan Descript Audio Codec.

Nari Labs sendiri hanya terdiri dari dua insinyur-satu waktu penuh dan satu paruh waktu-tetapi mereka secara aktif mengundang kontribusi komunitas melalui server perselisihan dan github.

Dengan fokus yang jelas pada kualitas ekspresif, reproduktifitas, dan akses terbuka, Dia menambahkan suara baru yang khas pada lanskap model bicara generatif.

Wawasan harian tentang kasus penggunaan bisnis dengan VB setiap hari

Jika Anda ingin mengesankan bos Anda, VB Daily telah Anda liput. Kami memberi Anda sendok dalam tentang apa yang dilakukan perusahaan dengan AI generatif, dari pergeseran peraturan hingga penyebaran praktis, sehingga Anda dapat berbagi wawasan untuk ROI maksimum.

Baca Kebijakan Privasi Kami

Terima kasih telah berlangganan. Lihat lebih banyak buletin VB di sini.

Kesalahan terjadi.

...more
View all episodesView all episodes
Download on the App Store

shauncastic.comBy Shauncastic!