
Sign up to save your podcasts
Or


10月1日、Thinking Machines LabがLLM微調整のマネージド基盤「Tinker」を正式発表しました。分散学習のスケジューリングやリソース割り当て、障害復旧といった面倒を同社クラスタ側で処理し、利用者はAPIで「forward_backward」「optim_step」「sample」といった低レベル操作まで直接扱えるのが特徴です。まずはプライベートβで受付開始、当面は無料で、数週間以内に従量課金へ移行する計画です。
対応モデルは小型から大型まで幅広く、巨大なMixture-of-ExpertsであるQwen3-235B-A22Bのようなモデルもワンストリングの指定で乗り換え可能と説明されています。学習方法にはLoRAを採用し、同一プールの計算資源を複数ジョブで共有することで“すぐ走らせられる”実験環境を提供します。研究者やスタートアップが、GPUの管理や分散設定に時間を取られず、アルゴリズムやデータ設計に集中できるというのが売り所です。
APIの使い方は比較的直感的で、ServiceClientからLoRAのTrainingClientを生成し、トークナイザで整形したデータを「forward_backward」で損失計算、「optim_step」で更新する流れ。学習した重みはサンプリング用クライアントに保存・引き継ぎ、そのまま推論テストへ進めます。ドキュメントには演習用のスクリプトが公開され、非同期実行やチェックポイントのダウンロードも含めて一通りの運用が示されています。
実装面の“落とし穴”を埋めるのがオープンソースの「Tinker Cookbook」です。こちらには、監督あり学習やPreference学習、三段階のRLHF、ツール使用最適化、プロンプト蒸留、マルチエージェント、数学推論など、現場で再現したいポストトレーニング手法がまとまっており、ハイパラ算出ユーティリティや評価コンポーネント、InspectAIとの統合例まで揃っています。はじめてのユーザーが“動く最低限”から着実に踏み上がれる導線が整えられている印象です。
注目は、既に複数の研究機関がTinkerを使って成果を出し始めていること。プリンストンのGoedelチームは数学定理証明、スタンフォードのRotskoff研究室は化学推論、バークレーのSkyRLは非同期オフポリシーのマルチエージェント強化学習、Redwood ResearchはQwen3-32Bの制御タスク向けRLなど、多様な実験が走っています。プラットフォームが“研究の当たり前の土台”を狙うなら、この初期採用の広がりは重要な追い風です。
業界的な意味合いとしては、微調整の“内製ハードル”を下げるサービスの台頭が、GPU調達難や人材不足を抱える組織に現実的な回を与える点が大きいでしょう。特に生成AIを自社要件へ合わせたい企業にとって、Cookbookの再現性とAPIの柔軟性の組み合わせは、PoCから本番前の検証まで回しやすい。さらに、QwenやLlamaといった主要オープンウェイト系への対応は、モデル選定の自由度を確保しつつ、政策・規制面の要請に応じた“モデル乗り換え”も想定しやすくします。
最後に運用目線です。プライベートβで無料からスタートという価格設計は、学生・研究室・初期ステージのスタートアップに門戸を開く狙いが見えます。一方で“数週間以内の従量課金”が予告されており、長期の大規模学習にはコスト最適化の見立ても必要になります。分散基盤の面倒を丸ごと任せる代わりに、APIで細かく回せる自由度――このトレードオフをどう活かすかが、採用の分かれ目になりそうです。
By ikuo suzuki10月1日、Thinking Machines LabがLLM微調整のマネージド基盤「Tinker」を正式発表しました。分散学習のスケジューリングやリソース割り当て、障害復旧といった面倒を同社クラスタ側で処理し、利用者はAPIで「forward_backward」「optim_step」「sample」といった低レベル操作まで直接扱えるのが特徴です。まずはプライベートβで受付開始、当面は無料で、数週間以内に従量課金へ移行する計画です。
対応モデルは小型から大型まで幅広く、巨大なMixture-of-ExpertsであるQwen3-235B-A22Bのようなモデルもワンストリングの指定で乗り換え可能と説明されています。学習方法にはLoRAを採用し、同一プールの計算資源を複数ジョブで共有することで“すぐ走らせられる”実験環境を提供します。研究者やスタートアップが、GPUの管理や分散設定に時間を取られず、アルゴリズムやデータ設計に集中できるというのが売り所です。
APIの使い方は比較的直感的で、ServiceClientからLoRAのTrainingClientを生成し、トークナイザで整形したデータを「forward_backward」で損失計算、「optim_step」で更新する流れ。学習した重みはサンプリング用クライアントに保存・引き継ぎ、そのまま推論テストへ進めます。ドキュメントには演習用のスクリプトが公開され、非同期実行やチェックポイントのダウンロードも含めて一通りの運用が示されています。
実装面の“落とし穴”を埋めるのがオープンソースの「Tinker Cookbook」です。こちらには、監督あり学習やPreference学習、三段階のRLHF、ツール使用最適化、プロンプト蒸留、マルチエージェント、数学推論など、現場で再現したいポストトレーニング手法がまとまっており、ハイパラ算出ユーティリティや評価コンポーネント、InspectAIとの統合例まで揃っています。はじめてのユーザーが“動く最低限”から着実に踏み上がれる導線が整えられている印象です。
注目は、既に複数の研究機関がTinkerを使って成果を出し始めていること。プリンストンのGoedelチームは数学定理証明、スタンフォードのRotskoff研究室は化学推論、バークレーのSkyRLは非同期オフポリシーのマルチエージェント強化学習、Redwood ResearchはQwen3-32Bの制御タスク向けRLなど、多様な実験が走っています。プラットフォームが“研究の当たり前の土台”を狙うなら、この初期採用の広がりは重要な追い風です。
業界的な意味合いとしては、微調整の“内製ハードル”を下げるサービスの台頭が、GPU調達難や人材不足を抱える組織に現実的な回を与える点が大きいでしょう。特に生成AIを自社要件へ合わせたい企業にとって、Cookbookの再現性とAPIの柔軟性の組み合わせは、PoCから本番前の検証まで回しやすい。さらに、QwenやLlamaといった主要オープンウェイト系への対応は、モデル選定の自由度を確保しつつ、政策・規制面の要請に応じた“モデル乗り換え”も想定しやすくします。
最後に運用目線です。プライベートβで無料からスタートという価格設計は、学生・研究室・初期ステージのスタートアップに門戸を開く狙いが見えます。一方で“数週間以内の従量課金”が予告されており、長期の大規模学習にはコスト最適化の見立ても必要になります。分散基盤の面倒を丸ごと任せる代わりに、APIで細かく回せる自由度――このトレードオフをどう活かすかが、採用の分かれ目になりそうです。