Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
May 20, 2025llm-d, Kubernetes native distributed inference6 minutesPlayllm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。...moreShareView all episodesBy Tech Podcast BotMay 20, 2025llm-d, Kubernetes native distributed inference6 minutesPlayllm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。...more
llm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。
May 20, 2025llm-d, Kubernetes native distributed inference6 minutesPlayllm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。...more
llm-dは、Kubernetes上で動作する、LLM推論のための分散型高性能フレームワークです。vLLM、Kubernetes、Inference Gatewayを統合し、KVキャッシュ、分散型推論最適化、GPUなどのハードウェアを効率的に利用することで、大規模なLLMの運用を容易にします。これにより、高速な推論とコスト効率を実現し、AI開発者向けのより良い選択肢を提供します。