June 08, 2025

Yönetmen Koltuğundaki Luma, Duygulu Konuşma Yapan Ses Modelleri ve Apple’ın AGI Eleştirisi

9 minutes

Bu haftaki podcast’imizde, yapay zeka ile ses ve video üretiminin geldiği son noktaları konuştuk. Özellikle içerik üreticilerini heyecanlandıracak birçok yeni aracı ve özelliği deneyimledik, örneklerle değerlendirdik.

İlk olarak, PlayDiffusion isimli açık kaynak ses düzenleme modeli ile sesli içeriklerde bölgesel düzenlemelerin nasıl yapılabildiğini inceledik. Trinity'nin Matrix filmindeki repliğini Neo yerine “Tyler” olarak yeniden seslendirdik ve modelin bunu ne kadar gerçekçi yaptığına şahit olduk.

Captions AI tarafından geliştirilen Mirage Studio ise sesi bir aktöre entegre ederek video üreten oldukça yenilikçi bir uygulama. Kendi sesinizi ve görselinizi verdiğinizde, sanki gerçekten bir video podcast kaydı yapmışsınız gibi sonuçlar alabiliyorsunuz. Mimik ve jest senkronizasyonları özellikle sosyal medya için kullanıcı üretimi içeriklerde devrim yaratabilecek düzeyde.

Fish Audio’nun OpenAudio S1 modeli ile metinden ses üretiminde duygu kontrolü artık mümkün. Fısıltılı, sinirli, mutlu veya üzgün gibi modlar eklenebiliyor ve bu da konuşmaları daha doğal hale getiriyor. Üstelik ElevenLabs’in flash modelinden daha iyi sonuçlar sunduklarını iddia ediyorlar.

Google AI Studio’nun yeni text-to-speech modeli de bu alana güçlü bir giriş yaptı. 24 dil destekliyor ve farklı aksanlarla konuşma gibi gelişmiş özellikler sunuyor. NotebookLM gibi araçlarda kullanılmasıyla birlikte Google’ın bu teknolojiyi geniş kitlelere ulaştırmak istediği görülüyor.

Luma AI’ın Modify Video özelliği ile artık bir yönetmen gibi kendi videolarınızı yönlendirebiliyorsunuz. Sıradan videoları bir anda süper kahraman sahnesine ya da NBA maçına dönüştürmek mümkün. Özellikle evde çekilen amatör videoları profesyonel prodüksiyonlara çevirebilmek heyecan verici.

ElevenLabs v3, ses üretiminde çıtayı bir adım daha yukarı taşıdı. Duygu kontrolü, çoklu konuşmacı özelliği ve 70’ten fazla dili desteklemesiyle dikkat çekiyor. Korsan ya da futbol spikeri gibi karakterleri konuşturma özelliğiyle sesli hikaye anlatımı daha eğlenceli hale geliyor.

Higgsfield AI’ın yeni “Speak” özelliği ise, video içindeki karakterlerin konuşmalarına gerçek zamanlı lip-sync yapılmasını sağlıyor. Daha önce aksiyon videolarıyla öne çıkan bu model, şimdi video gerçekçiliğini bir adım öteye taşıyor.

Son olarak Apple’ın reasoning modelleriyle ilgili yaptığı araştırmadan bahsettik. DeepSeek, Claude Thinking ve o3 gibi modellerin aslında düşünmediği ve daha önce görmedikleri problemleri çözmekte başarısız oldukları ortaya konmuş. Bu da yapay genel zekaya (AGI) hala uzak olduğumuzu gösteriyor.

...more

View all episodes

By Ozgur Ozer

June 08, 2025

Yönetmen Koltuğundaki Luma, Duygulu Konuşma Yapan Ses Modelleri ve Apple’ın AGI Eleştirisi

9 minutes

...more

Share Yönetmen Koltuğundaki Luma, Duygulu Konuşma Yapan Ses Modelleri ve Apple’ın AGI Eleştirisi

Sign up to save your podcasts

Yönetmen Koltuğundaki Luma, Duygulu Konuşma Yapan Ses Modelleri ve Apple’ın AGI Eleştirisi

Yönetmen Koltuğundaki Luma, Duygulu Konuşma Yapan Ses Modelleri ve Apple’ın AGI Eleştirisi