Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
March 03, 2025AI Radio FM - 深入剖析MOONCAKE:为Kimi提供动力的LLM服务平台5 minutesPlay本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。...moreShareView all episodesBy weedgeMarch 03, 2025AI Radio FM - 深入剖析MOONCAKE:为Kimi提供动力的LLM服务平台5 minutesPlay本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。...more
本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。
March 03, 2025AI Radio FM - 深入剖析MOONCAKE:为Kimi提供动力的LLM服务平台5 minutesPlay本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。...more
本期播客深入探讨了Moonshot AI开发的LLM聊天机器人服务Kimi背后的服务平台MOONCAKE。MOONCAKE采用以KVCache为中心的解耦架构,不仅分离了预填充和解码集群,还高效利用GPU集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了分布式KVCache。该架构的核心是其以KVCache为中心的全局缓存和调度器,旨在最大化吞吐量,同时遵守严格的延迟相关服务水平目标(SLO)。