
Sign up to save your podcasts
Or
DeepSeek-V3は、オープンソースでありながら高性能かつ経済的な学習を実現したLLMです。従来のTransformerブロックをベースに、Multi-Head Latent Attention(MLA)とDeepSeekMoEという革新的な要素を取り入れています。MLAは、入力ベクトルを圧縮することで高速化と省メモリ化を実現。DeepSeekMoEは、Feed-Forward Networkを専門家(エキスパート)に分割し、入力トークンに応じて最適なエキスパートを選択・活用することで性能向上を図ります。また、DualPipeというGPU間の通信効率を改善する技術や、精度を落とす箇所を工夫する混合精度学習も導入し、学習コストを削減しています。
引用元: https://medium.com/@jjjy213/deepseek-v3-explained-fdac83ba280c
Anthropic社が最新モデル「Claude 3.7 Sonnet」を発表。特にコーディング能力が向上し、フロントエンド開発に強みを発揮する。新機能として、開発者がターミナルからClaudeに直接タスクを委任できる「Claude Code」が限定公開された。APIユーザーはモデルの思考時間も制御可能。既存モデル同様の価格で、無料版を含む全プランで利用できる。SWE-bench VerifiedとTAU-benchで最高性能を達成。GitHub連携も強化され、コードの修正、機能開発、ドキュメント作成を支援する。
引用元: https://www.anthropic.com/news/claude-3-7-sonnet
MongoDBがVoyage AIを買収。Voyage AIは、AIアプリケーション向けの高精度な情報検索技術を持つ企業です。
引用元: https://investors.mongodb.com/news-releases/news-release-details/mongodb-announces-acquisition-voyage-ai-enable-organizations/
(株式会社ずんだもんは架空の登場組織です)
DeepSeek-V3は、オープンソースでありながら高性能かつ経済的な学習を実現したLLMです。従来のTransformerブロックをベースに、Multi-Head Latent Attention(MLA)とDeepSeekMoEという革新的な要素を取り入れています。MLAは、入力ベクトルを圧縮することで高速化と省メモリ化を実現。DeepSeekMoEは、Feed-Forward Networkを専門家(エキスパート)に分割し、入力トークンに応じて最適なエキスパートを選択・活用することで性能向上を図ります。また、DualPipeというGPU間の通信効率を改善する技術や、精度を落とす箇所を工夫する混合精度学習も導入し、学習コストを削減しています。
引用元: https://medium.com/@jjjy213/deepseek-v3-explained-fdac83ba280c
Anthropic社が最新モデル「Claude 3.7 Sonnet」を発表。特にコーディング能力が向上し、フロントエンド開発に強みを発揮する。新機能として、開発者がターミナルからClaudeに直接タスクを委任できる「Claude Code」が限定公開された。APIユーザーはモデルの思考時間も制御可能。既存モデル同様の価格で、無料版を含む全プランで利用できる。SWE-bench VerifiedとTAU-benchで最高性能を達成。GitHub連携も強化され、コードの修正、機能開発、ドキュメント作成を支援する。
引用元: https://www.anthropic.com/news/claude-3-7-sonnet
MongoDBがVoyage AIを買収。Voyage AIは、AIアプリケーション向けの高精度な情報検索技術を持つ企業です。
引用元: https://investors.mongodb.com/news-releases/news-release-details/mongodb-announces-acquisition-voyage-ai-enable-organizations/
(株式会社ずんだもんは架空の登場組織です)