
Sign up to save your podcasts
Or


AIエージェントを開発している皆さん、自分のPCでは動いていたのに、いざ本番環境にデプロイすると予期せぬ挙動をして苦労した経験はありませんか?従来のソフトウェア開発では、入力と出力がある程度予測できましたが、AIエージェントはユーザーがどんな入力をしてくるか分からず、挙動も広範囲にわたるため、開発が非常に難しいのが現状です。
そこで、LangChainのチームは、AIエージェントを本番環境で信頼性高く運用するための新しい開発手法として、「エージェントエンジニアリング」という専門分野を提唱しています。これは、予測不可能な大規模言語モデル(LLM)ベースのシステムを、信頼できるプロダクトへと継続的に改善していくための反復的なプロセスです。そのサイクルは、「構築(Build)」「テスト(Test)」「リリース(Ship)」「観察(Observe)」「改善(Refine)」「繰り返し(Repeat)」が基本となります。ここで大切なのは、リリースがゴールではなく、新たな知見を得てエージェントを改善するための出発点である、という考え方です。
エージェントエンジニアリングを実践するには、主に3つのスキルセットが連携する必要があります。
なぜ今、この分野が必要なのでしょうか?
エージェントエンジニアリングでは、「完璧にしてからリリースする」のではなく、「リリースして現実世界での挙動から学ぶ」という考え方が重要です。まずエージェントの土台を作り、想定シナリオでテストし、すぐにリリースして実際のユーザー入力を観察します。そこから得られた情報をもとに、プロンプトやツール定義を改善し、このサイクルを素早く繰り返すことで、信頼性の高いエージェントシステムを構築できるのです。
AIエージェントは、これまで人間が行っていた複雑な作業をこなす大きな可能性を秘めています。この新しい開発手法をチームに取り入れることで、LLMの真の力を引き出し、信頼できるプロダクトを生み出すことができるでしょう。
引用元: https://blog.langchain.com/agent-engineering-a-new-discipline/
この記事は、GitHub CopilotのrunSubagentという機能を使って、ソフトウェア開発のワークフロー全体を自動化する「オーケストレーターパターン」について、新人エンジニアにも分かりやすく解説しています。
GitHub CopilotのrunSubagentとは?
オーケストレーターパターンとは?
この一連の作業を、オーケストレーターがそれぞれの専門家である「サブエージェント」に任せることで、開発プロセスをスムーズに進めます。
このシステムの設計で大切なこと
実際に作ってみてわかった注意点
今後の展望
引用元: https://zenn.dev/openjny/articles/e11450f61d067f
Hugging FaceとServiceNow AIが、新しいマルチモーダルAIモデル「Apriel-1.6-15b-Thinker」を発表しました。このモデルは150億パラメータという、大規模モデルと比べると比較的小さな規模でありながら、非常に高い性能と優れたコスト効率を両立しているのが大きな特徴です。
Apriel-1.6は、前バージョン(Apriel-1.5)を基盤に、テキストと画像の理解・推論能力を大幅に強化しました。人工知能の総合評価指標である「Artificial Analysis Index」では57点を獲得し、Gemini 2.5 FlashやClaude Haiku 4.5といった主要な大規模モデルを上回る、あるいは匹敵する最新最高の技術水準(SOTA)の性能を発揮しています。特に注目すべきは、推論時に使用するトークン(単語や文字の単位)の量が、前バージョンと比較して30%以上も削減されている点です。これは、より少ない計算リソースで、より高速かつ効率的に推論ができることを意味します。
モデルの学習には、NVIDIAの最新チップ「GB200 Grace Blackwell Superchips」が活用され、約1万GPU時間という比較的少ない計算資源で効率的に行われました。学習プロセスでは、まず多様なデータで初期学習を行い、その後、以下の二段階でさらに性能を高めています。
これらの工夫により、テキスト理解に加え、画像に関する数学的推論、視覚的質問応答(VQA)、論理推論など、画像関連のタスクでも大きく性能が向上しました。
Apriel-1.6の最大の強みは、「コスト効率の良いフロンティア性能」です。これは、少ないパラメータ数(モデルの規模を示す指標)で、大規模モデルに匹敵する「知能スコア」を実現していることを意味します。つまり、運用にかかる計算リソースや費用を大幅に抑えながら、最先端の推論能力を発揮できるため、特に企業でのAIシステム導入において、非常に魅力的な選択肢となります。
開発チームは、限られたリソースでも「適切なデータ、設計、堅実な手法」があれば、最先端のモデルを構築できることを証明しました。一部の複雑な画像やOCR(文字認識)の精度にはまだ課題があるものの、彼らは高性能と推論トークンの効率性を優先して開発を進めています。この取り組みは、新人エンジニアの皆さんにとって、限られた環境でもイノベーションを生み出せる可能性を示唆していると言えるでしょう。
引用元: https://huggingface.co/blog/ServiceNow-AI/apriel-1p6-15b-thinker
最新LLMを使い、プロダクトマネージャーが赤ちゃんの泣き声を分析し、夜泣き対応の課題解決を検証しました。単発の泣き声から理由を特定するのは困難でしたが、複数の泣き声を比較する「相対評価」では、LLMは泣き声の特徴を正確に捉えました。ChatGPTは慎重な姿勢、Geminiは断定的な傾向、Claudeは詳細な音響分析が特徴です。今後は継続的な分析や、授乳などの文脈情報を加えることで、実用レベルへの精度向上が期待されています。AIによる励ましの言葉も、育児のUXとして価値があると考えられています。
引用元: https://qiita.com/Kuroyanagi96/items/cb89339b3dda509c7ff5
(株式会社ずんだもんは架空の登場組織です)
By 株式会社ずんだもん技術室AI放送局AIエージェントを開発している皆さん、自分のPCでは動いていたのに、いざ本番環境にデプロイすると予期せぬ挙動をして苦労した経験はありませんか?従来のソフトウェア開発では、入力と出力がある程度予測できましたが、AIエージェントはユーザーがどんな入力をしてくるか分からず、挙動も広範囲にわたるため、開発が非常に難しいのが現状です。
そこで、LangChainのチームは、AIエージェントを本番環境で信頼性高く運用するための新しい開発手法として、「エージェントエンジニアリング」という専門分野を提唱しています。これは、予測不可能な大規模言語モデル(LLM)ベースのシステムを、信頼できるプロダクトへと継続的に改善していくための反復的なプロセスです。そのサイクルは、「構築(Build)」「テスト(Test)」「リリース(Ship)」「観察(Observe)」「改善(Refine)」「繰り返し(Repeat)」が基本となります。ここで大切なのは、リリースがゴールではなく、新たな知見を得てエージェントを改善するための出発点である、という考え方です。
エージェントエンジニアリングを実践するには、主に3つのスキルセットが連携する必要があります。
なぜ今、この分野が必要なのでしょうか?
エージェントエンジニアリングでは、「完璧にしてからリリースする」のではなく、「リリースして現実世界での挙動から学ぶ」という考え方が重要です。まずエージェントの土台を作り、想定シナリオでテストし、すぐにリリースして実際のユーザー入力を観察します。そこから得られた情報をもとに、プロンプトやツール定義を改善し、このサイクルを素早く繰り返すことで、信頼性の高いエージェントシステムを構築できるのです。
AIエージェントは、これまで人間が行っていた複雑な作業をこなす大きな可能性を秘めています。この新しい開発手法をチームに取り入れることで、LLMの真の力を引き出し、信頼できるプロダクトを生み出すことができるでしょう。
引用元: https://blog.langchain.com/agent-engineering-a-new-discipline/
この記事は、GitHub CopilotのrunSubagentという機能を使って、ソフトウェア開発のワークフロー全体を自動化する「オーケストレーターパターン」について、新人エンジニアにも分かりやすく解説しています。
GitHub CopilotのrunSubagentとは?
オーケストレーターパターンとは?
この一連の作業を、オーケストレーターがそれぞれの専門家である「サブエージェント」に任せることで、開発プロセスをスムーズに進めます。
このシステムの設計で大切なこと
実際に作ってみてわかった注意点
今後の展望
引用元: https://zenn.dev/openjny/articles/e11450f61d067f
Hugging FaceとServiceNow AIが、新しいマルチモーダルAIモデル「Apriel-1.6-15b-Thinker」を発表しました。このモデルは150億パラメータという、大規模モデルと比べると比較的小さな規模でありながら、非常に高い性能と優れたコスト効率を両立しているのが大きな特徴です。
Apriel-1.6は、前バージョン(Apriel-1.5)を基盤に、テキストと画像の理解・推論能力を大幅に強化しました。人工知能の総合評価指標である「Artificial Analysis Index」では57点を獲得し、Gemini 2.5 FlashやClaude Haiku 4.5といった主要な大規模モデルを上回る、あるいは匹敵する最新最高の技術水準(SOTA)の性能を発揮しています。特に注目すべきは、推論時に使用するトークン(単語や文字の単位)の量が、前バージョンと比較して30%以上も削減されている点です。これは、より少ない計算リソースで、より高速かつ効率的に推論ができることを意味します。
モデルの学習には、NVIDIAの最新チップ「GB200 Grace Blackwell Superchips」が活用され、約1万GPU時間という比較的少ない計算資源で効率的に行われました。学習プロセスでは、まず多様なデータで初期学習を行い、その後、以下の二段階でさらに性能を高めています。
これらの工夫により、テキスト理解に加え、画像に関する数学的推論、視覚的質問応答(VQA)、論理推論など、画像関連のタスクでも大きく性能が向上しました。
Apriel-1.6の最大の強みは、「コスト効率の良いフロンティア性能」です。これは、少ないパラメータ数(モデルの規模を示す指標)で、大規模モデルに匹敵する「知能スコア」を実現していることを意味します。つまり、運用にかかる計算リソースや費用を大幅に抑えながら、最先端の推論能力を発揮できるため、特に企業でのAIシステム導入において、非常に魅力的な選択肢となります。
開発チームは、限られたリソースでも「適切なデータ、設計、堅実な手法」があれば、最先端のモデルを構築できることを証明しました。一部の複雑な画像やOCR(文字認識)の精度にはまだ課題があるものの、彼らは高性能と推論トークンの効率性を優先して開発を進めています。この取り組みは、新人エンジニアの皆さんにとって、限られた環境でもイノベーションを生み出せる可能性を示唆していると言えるでしょう。
引用元: https://huggingface.co/blog/ServiceNow-AI/apriel-1p6-15b-thinker
最新LLMを使い、プロダクトマネージャーが赤ちゃんの泣き声を分析し、夜泣き対応の課題解決を検証しました。単発の泣き声から理由を特定するのは困難でしたが、複数の泣き声を比較する「相対評価」では、LLMは泣き声の特徴を正確に捉えました。ChatGPTは慎重な姿勢、Geminiは断定的な傾向、Claudeは詳細な音響分析が特徴です。今後は継続的な分析や、授乳などの文脈情報を加えることで、実用レベルへの精度向上が期待されています。AIによる励ましの言葉も、育児のUXとして価値があると考えられています。
引用元: https://qiita.com/Kuroyanagi96/items/cb89339b3dda509c7ff5
(株式会社ずんだもんは架空の登場組織です)