Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.
March 28, 2025Qwen2.5-Omni: 通往通用人工智能的多模态统一模型深入探讨 Qwen2.5-Omni 技术报告,解析其创新的多模态处理、流式生成能力以及卓越的性能表现。...more11minPlay
March 26, 2025深入探讨Bitnet.cpp:边缘设备上的高效三元大语言模型推理本期节目深入探讨Bitnet.cpp,一个为BitNet b1.58等三元大语言模型在边缘设备上进行高效推理而优化的系统。我们将详细解析其创新的混合精度矩阵乘法(mpGEMM)库、TL(三元查找表)和I2_S(带缩放的Int2)内核,如何实现显著的速度提升和无损推理。...more16minPlay
March 25, 2025LLM推理与TGI - Adyen知识中心技术故事深入探讨使用HuggingFace的文本生成推理(TGI)优化大型语言模型(LLM)以实现高效推理的过程。了解TGI的服务器和推理引擎组件,以及相关的性能指标和注意事项。...more4minPlay
March 21, 2025SNAC:多尺度神经音频编解码器本播客讨论了SNAC(多尺度神经音频编解码器),这是一种新的音频压缩方法,它通过在多个时间分辨率上运行量化器来提高压缩效率。...more9minPlay
March 21, 2025AI Radio FM - 深入解读无分类器引导的扩散模型本期播客深入探讨了一篇关于扩散模型的新研究,该研究提出了一种名为“模型引导”(Model-guidance, MG)的新方法,旨在取代传统的无分类器引导(Classifier-free Guidance, CFG)。我们将讨论MG如何提高训练和推理速度,同时在ImageNet基准测试上取得最先进的成果。...more5minPlay
March 21, 2025AI Radio FM - Technology Channel本期播客深入探讨了一篇关于多模态大型语言模型(MLLM)与人类偏好对齐的综述论文。我们将讨论现有对齐算法的应用场景、对齐数据集的构建、评估方法以及未来的发展方向。...more6minPlay
March 18, 2025AI Radio FM - প্রযুক্তির চ্যানেলCUTLASS中高效GEMM的层次结构、线程块、Warp和线程级GEMM,以及各种优化策略的讨论。...more5minPlay
March 18, 2025AI Radio FM - 科技频道:Transformer模型的快速推理本期播客讨论了通过推测解码实现Transformer模型的快速推理,这是一种在不改变输出的情况下加速自回归模型采样的方法。...more6minPlay
March 18, 2025FlashInfer:面向大语言模型推理服务的可定制高效注意力引擎本播客深入探讨FlashInfer,这是一种专为大语言模型(LLM)推理服务设计的高效且可定制的注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储异构性,优化内存访问并减少冗余。它还提供可定制的注意力模板,通过即时编译适应各种设置。此外,FlashInfer的负载均衡调度算法适应用户请求的动态性,同时保持与CUDAGraph的兼容性。...more5minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.