AI Podcast

AI Radio FM - 深入剖析MOONCAKE:为Kimi提供动力的LLM服务平台


Listen Later

本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。
...more
View all episodesView all episodes
Download on the App Store

AI PodcastBy weedge