株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20250325


Listen Later

関連リンク
  • 言語モデルの物理学
  • MetaのZeyuan Allen-Zhuが提唱する「言語モデルの物理学」は、言語モデルを原理的に理解しようとする研究です。

    (1)ウェブデータではなく、コントロールされたデータセットでモデルを訓練し、(2)モデルの内部状態を詳細に分析します。
    6本の論文からなる研究では、言語モデルが文法構造を内部で習得し、動的計画法のような処理を行うこと、算数の問題を最短経路で解くこと、間違いに気づき修正できることなどが示されました。
    また、知識の貯蔵と抽出は異なり、知識を操作するには思考の連鎖が必要であること、モデルはパラメータあたり約2ビットの情報を記憶できることなどが明らかに。
    これらの知見は、より効率的な言語モデルの開発に役立つ可能性があります。

    引用元: https://joisino.hatenablog.com/entry/physics

    • New State-of-the-art Fully Open 3B Language Models — ROCm Blogs
    • AMDがInstellaという30億パラメータの言語モデルを発表しました。AMD Instinct MI300X GPUで学習されており、同規模の既存オープンモデルより高性能です。Llama-3.2-3B等のオープンウェイトモデルにも匹敵。モデルウェイト、学習設定、データセット、コードは全て公開。AIコミュニティでの協力と技術革新を促進します。Instellaは、FlashAttention-2、Torch Compile、FSDP等の効率的な学習技術を使用。Instella-3B-Stage1, Instella-3B, Instella-3B-SFT, Instella-3B-Instructの4モデルが公開。

      引用元: https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html

      • ゼロからコーディングエージェントを作るならこんなふうに🛠️
      • この記事は、XMLベースのツール定義と実装で、ミニマムなコーディングエージェントを自作する方法を紹介しています。最低限必要なツールは、ListFile、ReadFile、WriteFile、AskQuestion、ExecuteCommand、Completeの6つです。LLMにXML形式でツールを使わせることで、プログラムと会話の融合が実現できます。Go言語での実装例が示されていますが、言語依存はありません。ExecuteCommandの実装では、セキュリティのためユーザーの許可を得るようにしましょう。拡張性を考えるなら、ブラウザ操作ツールやデータベース操作ツールなどを追加すると良いでしょう。

        引用元: https://zenn.dev/minedia/articles/11822c2b509a79

        • 「なぜスパム投稿は内容が雑なのか?」と思ったら、アホな内容に引っかかる選別がコツらしく合理化が進んでいる「悪行にも損益分岐点がある」
        • スパム投稿の内容が雑なのは、効率を上げるため。賢い人が引っかかると、質問が多く対応が大変になるので、最初から知識の少ない人だけをターゲットにしている。注意喚起だけでは防げないため、システムレベルでの対策が必要。

          引用元: https://togetter.com/li/2529599

          • お便り投稿フォーム
          • (株式会社ずんだもんは架空の登場組織です)

            ...more
            View all episodesView all episodes
            Download on the App Store

            株式会社ずんだもん技術室AI放送局By 株式会社ずんだもん技術室AI放送局