AI边角料

By X@ hereFelixK

一个在硅谷做AI企业的实战者

大学就开始创业：游戏，VR，AI，机器人，SaaS…

分享洞察&感受 @产品，技术，商业化，创业管理

可能是踩的坑，可能是小突破

小🍠：康康的跨境AI笔记

博客: https://felixk.me/

欢迎交流，共同突破... more

FAQs about AI边角料:

How many episodes does AI边角料 have?

The podcast currently has 21 episodes available.

AI边角料 episodes:

January 23, 2026 hacker news 上的 claude code 大神争论：skill 配置文件背后的不同价值观
从“金丝雀测试”到上下文分区的解决方案，并反思AI编程本质是严谨工程还是“仪式魔法”。
一：核心困境与检测机制
• 随着上下文增长，模型倾向于忽略Cloud.md中的配置文件规则（如代码风格、库限制）。
• “TC Bear”测试：强制AI使用特定称呼作为“金丝雀测试”（Canary Test），检测模型注意力是否涣散。
• 范海伦乐队“棕色M&M豆”类比：看似荒谬的要求实则是低成本的系统状态探测器。
• 局限性：当前工具链缺乏内省接口（Introspection），只能依赖行为代理而非确定的状态布尔值。
二：上下文管理的工程化策略
• 上下文分区（Context Partitioning）：在子目录（如src/persistence）放置独立的Cloud.md，实现指令物理隔离与专门化。
• 目录内容法（Logical Layering）：主文件作为“导航系统”建立索引，引导模型动态加载外部文档（如docs/styleguide.md）。
• 机器专用文档：Cloud.md区别于README，通过确定性注入（Deterministic Injection）传递“CRITICAL”等强指令。
• 极简主义流派：剥离所有注释与空行，最大化“计算信息比”（Compute to Information Ratio），减少噪声干扰。
三：生产力悖论与本质反思
• MIT研究数据：经验丰富的开发者使用AI工具后，任务完成时间反而增加了19%。
• 行业定义之争：从追求可预测性的软件工程转变为依赖试错的“氛围工程”（Vibe Engineering）或“仪式魔法”。
• 历史类比风险：虽类似早期蒸汽机（原理不明但有效），但AI代码直接面向用户部署被比作“将爆炸物标签朝向用户”。
...more
20min
January 23, 2026普罗塔克会如何看AI时代的今天？
古罗马传记作家普鲁塔克的分析框架，探讨人工智能作为“终极放大器”如何重塑当代人的性格与命运。
一：AI 作为人性放大器

AI 本质并非创造新性格，而是对现有特质的指数级放大，是一种功率惊人的“性格杠杆”。

“爱荣耀之心”：算法反馈机制（如点赞、流量）加剧了对外部认可的病态渴求。

案例：若亚历山大拥有 AI，可能将其征服欲极端化；凯撒可能利用生成式内容制造绝对的舆论操纵。
二：技术优势的盲区与“认知外包”

“技术盲区放大效应”：过度依赖模型预测会忽略非线性风险（黑天鹅事件）及系统外部的人性变量。

案例：雅典伯里克利过度信赖海军与城墙防御体系，最终被系统无法计算的内部瘟疫瓦解。

“骑手与马”模型：AI 通过短期满足喂养“马”（欲望/情绪），导致“骑手”（理智/判断力）因缺乏锻炼而萎缩。

风险：决策外包导致“Akrasia”（意志薄弱），即明知正确方向却因过度依赖辅助工具而无力执行。
三：AI 时代的三种生存原型

膨胀的扩张者（亚历山大/凯撒型）：利用技术杠杆迅速崛起，但易因缺乏内部制衡而导致自我毁灭。

流量吞噬的表演者（阿尔西比亚德斯型）：陷入算法反馈循环，为了迎合数据而丧失主体性，成为流量的附庸。

坚定的守护者（法比乌斯型）：具备“恒定性”（Constancy），在技术泡沫与短期压力中保持长期战略定力，是AI时代稀缺的决策样本。
...more
22min
December 30, 2025 2025最主流的AI架构总结，一次读懂：skill, sub-agents, code-act...
一：能力扩展与上下文管理范式
• Skill 模式采用渐进式披露技术，将专门指令动态加载至主上下文，代表产品如 Claude Code Skills 适合文件转换等轻量工具调用。
该方案优点是极低延迟且无启动成本，但局限在于长程对话中容易引发上下文污染，导致模型推理能力下降。
• Subagent 通过分配独立的系统提示词与隔离窗口实现专业委派，如 ChatDev 模拟公司职能，有效防止主线程的上下文腐烂。
隔离窗口虽然提升了任务专注度，但各子代理间信息互通困难，且每次启动需额外消耗约 2 万 Token 的基础开销。
二：自主执行与多代理协同架构
• CodeAct 模式将 Python 代码作为通用动作格式，代表产品如 Manus AI 在沙箱中通过“执行-观察”循环自主解决逻辑问题。
其核心优势在于极高的环境自适应力，不受预定义工具集限制，但需警惕自动化执行中的无限循环风险。
• Multi-Agent 架构强调角色驱动，CrewAI 模拟团队层级进行任务分发，AutoGen 则侧重多代理间的对话式辩论协同。
该模式适合复杂、多领域的任务拆解，但由于代理间频繁传递冗长的消息历史，其通信成本远高于单代理系统。
三：生产级可靠性与状态工程
• Graph/State 架构以 LangGraph 为代表，将逻辑建模为有状态的有向图，支持检查点保存，是处理高容错业务逻辑的首选。
这种方案允许实现“人在回路”审批与失败后的断点续传，缺点是开发复杂度较高，需要开发者具备严密的图形化思维。
• Handoff 协议支持代理间的动态接力，如 OpenAI SDK 通过折叠历史记录来精简传输上下文，适合垂直专家的线性转接场景。
这种“接力赛”模式能保持单个代理提示词的极度精简，但需防范代理之间因逻辑模糊而产生的对话“乒乓效应”。
...more
20min
December 26, 2025 记忆是AI 智能体目前最大的工程瓶颈，不同的解决方案会如何影响产品形态？
2025年AI Agent正从单轮对话向长程自主任务跨越，核心瓶颈已从单纯的模型智力转向上下文工程与记忆架构的系统性治理，旨在解决Agent在复杂环境下的性能退化与成本失控。
一：上下文工程与分层治理
• 应对丢失在中间困境，实证研究表明模型对长序列中间信息的处理能力随Token增加而显著下降。
• 建立分级上下文架构，区分即时Working Context与持久Session日志，提升系统的模型无关性。
• 案例：瑞典金融科技公司Klarna曾尝试用AI完全替代客服岗，后因模型无法处理复杂语境导致质量下滑。
• 采用句柄模式外化大型状态，通过Artifact Service按需加载大数据块，有效防止上下文污染。
• 针对位置偏见实施重排序，通过策略性将相关证据放置在首尾两端，最大化利用模型的注意力预算。
二：代理记忆系统的架构模式
• 区分情节记忆与语义记忆，针对不同信息类型设定新鲜度、相关性与频率（RIF）评价指标。
• 引入选择性遗忘机制，模仿艾宾浩斯遗忘曲线对低价值记忆进行动态剪枝，降低长期运行成本。
• 利用GraphRAG构建显式关系链条，解决纯向量检索在处理跨文档多跳问题时出现的关联性失效。
• 实施两阶段检索流程，先利用向量搜索进行广义召回，再通过Cross-encoder重排提升证据精确度。
• 探索A-Mem等自主记忆更新机制，利用模型动态生成关联链接，使记忆网络随经验积累自动进化。
三：长程任务执行与战略监督
• 部署COMPASS分层框架，由主Agent负责战术执行，Meta-Thinker负责异步监控与战略干预。
• 应对盲目坚持故障模式，监督模块需在检测到逻辑死循环或策略漂移时强制Agent进行战略转向。
• 监控Agent能力边界，METR数据显示Agent自主完成任务的时间水平上限约每7个月翻一倍。
• 建立任务合同与进度更新机制，在执行长达数小时的任务时定期同步里程碑，避免Agent长期失控。
• 优化数据平面设计，利用实时流技术确保多个分布式Agent在协作过程中状态的一致性与低延迟。
四：后Transformer架构的演进趋势
• 关注Mamba等线性时间序列模型，通过选择性状态空间实现5倍于Transformer的推理吞吐量。
• 案例：Codestral Mamba等模型在处理百万级Token上下文时，展现出接近常数级的资源开销优势。
• 探索Titans架构的神经长效记忆，利用MLP模块在推理过程中根据惊喜指标实时更新模型内部权重。
• 趋势：未来Agent将从单一模型转向多骨干网混合架构，兼顾注意力机制的局部精度与SSM的全局效率。
适合谁听：致力于Agent商业化落地、需处理长文档理解或复杂工作流自动化的技术决策者、PM与架构师。
...more
22min
December 24, 2025Notion 创始人2025年底分享：以钢铁、蒸汽的历史隐喻，拆解 AI 对个人、组织、经济体的变革逻辑
以钢铁、蒸汽的历史隐喻，拆解 AI 对个人、组织、经济体的变革逻辑，指明当前 AI 应用的局限与未来突破方向。
一、AI 时代的核心认知

时代由 “奇迹材料” 定义，AI 是当下的 “无限智能”

未来常伪装成过去，当前 AI 仍停留在 “模仿旧工具” 阶段

掌握 AI 这一核心材料，方能定义新时代
二、AI 对三大维度的变革框架个人：从自行车到汽车的效率跃迁

程序员已通过 AI 助手实现 30-40 倍效率提升

需解决场景碎片化与成果可验证性两大难题

终极目标是人类 “高杠杆监督”，而非全程介入
组织：钢铁与蒸汽的双重赋能

AI 是组织的 “钢铁”，可打破规模化效率衰减

需避免 “只换工具不改模式” 的蒸汽时代陷阱

Notion 用 700+AI 助手处理重复性工作，验证实践价值
经济体：从佛罗伦萨到超级都市的蜕变

知识经济将突破人力尺度，实现超大规模运转

原有工作节律（周会、季度规划）将被重构

以更高复杂度换取更优规模与速度
适合谁听
技术创业者、产品经理、工程师、组织管理者
...more
10min
December 22, 2025阿里的AI选品系统 x Anthropic 新标准：拆解阿里在用的 Agent Skills 架构
现在的推荐算法总是慢半拍？等你刷到热点时，黄花菜都凉了。
本期我们深挖了阿里开发者日志中的硬核案例，聊聊一种全新的 AI 玩法：不再是坐等用户搜索的“被动工具”，而是一个能 24 小时全网巡逻、主动吃瓜、还能识别“雷军同款皮衣”背后商机的自主合伙人。
同时，我们结合了 Anthropic 最新提出的 MCP（模型上下文协议），揭秘这个超级 AI 是如何被制造出来的：

它怎么像侦探一样去全网“查案”而不胡说八道？

为什么说 MCP 是给 AI 装上了“USB 接口”？

如何让 AI 的脑子不被说明书撑爆，还能节省 30 倍的成本？
如果你对 AI Agent 的商业落地、自动化搞钱流程或者前沿技术架构感兴趣，这期节目不容错过。
【时间轴 & 精彩划点】

推荐系统的“马后炮”困局为什么算法总是不懂最新的网络热梗？从“雷军同款皮衣”说起，传统模型既瞎又慢。

给 AI 发个“记者证”：防幻觉的调查工作流大模型总爱一本正经胡说八道？看看这套“三步走”调查协议：先去微博第一现场，再去全网交叉验证，最后像专家一样深挖。

硬核科普：什么是 Anthropic 的 MCP 协议？把 MCP 想象成 AI 的“手”，把 Skills 想象成 AI 的“脑”。为什么说以前的连接方式让 AI “消化不良”？

省钱黑科技：“渐进式披露”别把几万字的说明书一次性塞给 AI！学会这一招，Token 消耗瞬间从 16,000 降到 500，成本打骨折。

会自我反思的 AI 才是好员工它不仅会干活，还会复盘。通过观察哪些商品卖得好，AI 竟然能自己修改 Prompt，准确率提升 50% 的秘密全在这里。
【听完能带走什么】

💡 搞钱思维：一套完整的从“舆情监控”到“爆款上架”的自动化闭环逻辑。

🛠 技术视野：理解 Anthropic 正在推行的 MCP 标准，这是未来 AI 应用开发的“基础设施”。

📉 降本增效：如何用 Agent Skills 解决大模型上下文太贵、太慢的真实痛点。
🎙️ 适合谁听：不仅限于程序员！产品经理、电商从业者、以及所有想知道“未来 AI 怎么独立工作”的朋友
...more
22min
December 15, 2025企业AI落地必听：为什么通用智能体无法用在B端
本期探讨企业级 AI 落地的核心矛盾：如何在追求稳定可控的“工作流”与灵活自主的“智能体”之间，找到工程化的中间方案。
一：核心定义与架构权衡

工作流（Workflows）vs 智能体（Agents）：前者如预设轨道的列车，路径锁死但合规；后者实时生成路径，灵活但不可控。

推理模式对比：“Plan and Execute”模式适合审计但缺乏应变；“ReAct”模式（思考-行动-观察）反应快但缺乏长远规划。

落地原则：从最简单的方案开始，优先使用工作流，仅在业务复杂时引入有限自主性。

工程解法：采用“任务分解”（Task Decomposition），将模糊需求拆解为线性管道（Pipeline），建立标准化作业程序（SOP）。
二：底层技术实现与控制

能动记忆（Agentic Memory）：摒弃固定数据库 Schema，采用“卡片盒笔记法”，动态构建知识图谱（GPT-4o mini 测试中得分显著提升）。

过程奖励模型（PRM）：不只看结果，而是评估每一步的“承诺”（Promise）与“进展”（Progress），提供实时导航信号。

严格控制流：系统提示词强制输出结构化指令（JSON Object），引入编排器（Orchestrator）限制单步执行与回查，杜绝模糊性。
三：产品形态与用户体验设计

多智能体系统（MAS）：拒绝“全能超人”，构建“复仇者联盟”。如电商场景下销售、库存、物流智能体分工协作。

企业技能市场：建立内部受控的 App Store，核心理念是“Don't build agents, build skills”（构建可复用技能）。

可视化思维链：参考 Palantir AIP 的 Debug View，将智能体的思考过程（CoT）透明化，并在高风险节点设置人工检查点。

错误处理原则：“Keep the error in context”。不隐藏失败记录，利用上下文让模型从错误中自我修正，建立真实信任。
...more
22min
December 08, 2025 每周一本书：非商业组织如何实现500强企业那样的卓越文化？
《从优秀到卓越（社会机构版）》专门探讨如何将“卓越”的原则应用于非营利机构、政府部门等社会部门。
• 核心观点：拒绝“像企业一样运作” 作者反对社会部门应变得“更像企业”的观点，认为大多数企业只是平庸而非卓越，因此不应照搬平庸企业的做法。关键的区别不在于企业与社会部门，而在于“卓越”与“平庸”。
• 解决社会部门特有的五大问题：
1. 定义“卓越”： 在商业中，金钱既是投入也是产出；但在社会部门，金钱只是投入。卓越的衡量标准应是相对于使命的绩效和独特影响，而非财务回报。必须要区分投入和产出，即使产出很难量化，也要寻找定性或定量的证据来追踪进度。
2. 第五级领导力： 社会部门的领导者通常面临复杂的治理结构和分散的权力（如终身教授、工会、志愿者），无法像企业CEO那样拥有集中的决策权。因此，这里的领导力更多是“立法型”而非“行政型”，依赖于说服、包容和共同利益。
3. 先人后事： 社会部门往往受到终身教职或低薪酬的限制，但这反而使得“先人后事”的原则更为重要。关键在于利用使命感吸引那些有内在驱动力的人，并建立严格的选拔机制，正如“为美国而教”所做的那样。
4. 刺猬理念： 在社会部门，刺猬理念的第三个圆圈：（吸引志愿者）、（持续的现金流）和品牌（情感商誉）。
5. 飞轮： 通过建立品牌声誉来积累动力。通过展示成果来建立品牌，进而吸引更多资源，形成良性循环，而不是依赖一次性的推销或魅力型领导。
...more
18min
December 03, 2025DeepSeek 3.2 做了什么，让硅谷人在飞机上都在读
坐飞机去圣迭戈参加 NeurIPS 2025，结果一上飞机整个人傻眼：机舱里至少30%的人，手机、iPad、MacBook 打开的全部是同一个PDF——DeepSeek 昨天刚放出来的 V3.2 技术报告这份报告发布时机完美，正好赶上NeurIPS 2025（神经信息处理系统大会）前夕（会议在圣迭戈举行）
DeepSeek V3.2 技术报告分析，帮你理解3.2 是如何通过“换引擎”与“魔鬼特训”，在国际奥数金牌级任务上追平闭源巨头 Gemini 3.0 Pro。
一：换引擎：DSA 稀疏注意力架构

打破“油耗”瓶颈：传统注意力机制随文本变长计算量呈平方级暴涨，DSA（DeepSeek 稀疏注意力）架构将其降至接近线性，大幅提升长文本处理效率。

图书馆索引比喻：引入“闪电索引器”（一种快速筛选核心信息的组件）锁定相关书架，而非逐页翻阅全库，实现极低成本的信息检索。

模拟器训练法：采用“密集预热”策略（先冻结主体参数只练索引器），再转入全面解冻的实战训练，完美解决了新旧架构的过渡难题。
二：练车手：专家蒸馏与 GRPO 算法

专家分治策略：训练 6 个垂直领域的“单项冠军”模型（专家蒸馏），生成高质量合成数据反哺通用模型，实现知识提纯。

GRPO 混合训练：利用 GRPO（一种能兼顾多任务平衡的强化学习算法）将推理、智能体与人类对齐任务一锅炖，有效防止模型“学了编程忘数学”。

部门路由锁定：在 MoE（混合专家模型）训练中强制保持专家选择的一致性，避免因模型自我进化导致“昨天选张三、今天选李四”的混乱。
三：强路感：智能体思维与数据合成

保留草稿纸：在调用工具时保留完整的 CoT（思维链，即推理过程的中间步骤）上下文，解决了以往模型“每用一次工具就清空记忆”的断层痛点。

AI 互搏出题：构建“环境合成智能体”（专门负责出难题的 AI），通过层层叠加约束条件（如限时、限价的旅行规划），自动化生成高难度数据。

性能代价论：Special 版模型通过消耗更多词元进行“长思考”（串行计算逻辑），以牺牲推理速度为代价，换取了极致的准确率。
...more
22min
December 03, 2025“再也不用付钱给人类了”：传奇风投A16Z 为何打造“舆论”制造机器
a16z 正在开拓一种新的风险投资模式：从传统风险投资机构转型为“舆论工厂”，利用叙事控制取代资本成为新的商业资源。
这对中国的创投圈，以及未来的企业之间的竞争带来了新的启示。
一：核心战略：从“产品工厂”到“思想工厂”

资本商品化背景下，a16z 将核心职能重塑为制造共识与合法性的机器，而非单纯的资金提供方。

提出“Timeline Takeover（时间线接管）”战术，目标是在 24 小时内通过多渠道并发让被投公司占据全网唯一话题。

部署 AI 自动化工具（如 Double Speed），利用机器模拟真人社交账号实现规模化、去人工的叙事渗透。
二：基础设施：支撑叙事霸权的四大支柱

社交舆论场：战略投资 X（原 Twitter），旨在控制数字时代的“公共广场”并影响底层舆论，而非单纯追求财务回报。

预测市场：重仓 Kalshi 等平台，利用真金白银的下注机制构建“基于概率的真理”，重构后现代社会的共识机制。

政治暗物质：通过加密通讯（WhatsApp 群组）与监管俘获尝试（如失败的 CFTC 主席提名），进行深层政治与政策协调。

高信号人才网：建立新媒体奖学金与“空中支援”团队，系统性输送认同其价值观的创作者与运营者。
三：商业模型：合法性银行与 F1 维修站理论

“合法性银行”概念：将品牌信誉金融化，初创企业通过获得 a16z 投资完成“合法性”背书，大幅降低信任成本。

F1 维修站隐喻：比赛胜负不由车手（CEO）在赛道上决定，而由赛前的工程设计与资源配置（VC 生态）预先锁定。

模式对比：区别于红杉资本的“治理与纪律”或 YC 的“规模化校友网络”，a16z 的护城河在于“制度化的叙事服务”。
...more
22min

FAQs about AI边角料:

How many episodes does AI边角料 have?

The podcast currently has 21 episodes available.

Share AI边角料

Sign up to save your podcasts

AI边角料

FAQs about AI边角料:

How many episodes does AI边角料 have?

AI边角料 episodes:

FAQs about AI边角料:

How many episodes does AI边角料 have?