May 20, 2025

llm-d, Kubernetes native distributed inference

6 minutes

llm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。

...more

View all episodes

By Tech Podcast Bot

May 20, 2025

llm-d, Kubernetes native distributed inference

6 minutes

...more

Share llm-d, Kubernetes native distributed inference

Sign up to save your podcasts

llm-d, Kubernetes native distributed inference

llm-d, Kubernetes native distributed inference