Agili 的 Hacker Podcast

Agili 的 Hacker Podcast 2026-02-05


Listen Later

今日精选涵盖 AI 模型竞争、自建基础设施、数据库工具与软件效率反思等话题。Anthropic 和 OpenAI 同日发布旗舰模型,comma.ai 分享自建数据中心的实战经验,开发者工具和硬件产品也引发了社区热议。

自建数据中心:comma.ai 的实践之路
为什么拒绝云服务

comma.ai 在过去几年里将所有模型训练、指标和数据都跑在自家办公室的数据中心里。创始人认为,如果业务依赖计算却在云端运行,就是在透支对他人的信任。云厂商让入门极其简单,但让迁出异常困难。

自建计算设施还能激发优秀的工程实践。云服务要求掌握特定厂商的 API 和计费系统,而数据中心迫使工程师思考瓦特、位和 FLOPs。在云端,ML 问题往往通过增加预算来解决,这锁定了低效的方案;在算力受限的自建环境下,工程师会被迫通过加速代码或修复根本问题来提升性能。

comma 在自建数据中心上投入了约 500 万美元,若使用云服务,同等工作量的花费估计将超过 2500 万美元。

硬件与软件架构

目前最大功耗约为 450kW,2025 年电力支出达 54 万美元。冷却方面采用纯室外空气冷却,通过双 48 英寸进气/排气扇和 PID 控制循环将湿度控制在 45% 以下。

计算集群主力是 600 个 GPU,分布在 75 台自研的 TinyBox Pro 机器中。存储系统约 4PB 全 SSD,使用 Dell R630/R730 机器。网络核心是以太网交换机,并辅以 Infiniband 交换机用于分布式训练。

软件层面采用 PXEboot 安装 Ubuntu,使用 Salt 进行服务器管理。自研的 minikeyvalue 分布式存储支持 1TB/s 的读取速度,使得训练可以直接在原始数据上进行。任务调度使用 Slurm 配合自研的轻量级调度器 miniray。

风险与收益的权衡

社区指出,许多公司选择云服务是为了规避灾难风险。云服务的"高昂"本质上是一种风险保险费。维护硬件需要掌握底层技能的系统管理员,但管理复杂的云端专有 API 同样需要高薪的资深工程师。

更有吸引力的方案可能是混合模式:对于可预测的基准负载使用自有硬件或租用裸金属,对于爆发性需求再调用云端的弹性算力。

Claude Opus 4.6 发布
编程与推理能力升级

Anthropic 推出了 Claude Opus 4.6,在编程能力上进行了重大升级。该版本能够更仔细地制定计划,在长程 Agentic 任务中表现出更高的持久性。首次为该级别模型引入了 100 万 token 的上下文窗口测试版,在 Terminal-Bench 2.0 和 Humanity's Last Exam 等复杂推理评估中取得了业界领先成绩。

有开发者表示该模型通过 100 万上下文窗口,对其 15 年间创作的 900 首诗歌进行了深度分析,准确识别出了不同时期的创作特征。社区也有人对基准测试的有效性提出质疑,认为模型可能针对特定测试集进行了训练。

开发工具与可靠性改进

Anthropic 推出了 Agent Teams 功能,允许在 Claude Code 中启动多个代理协作处理代码库审查等任务。Claude Code 的终端界面使用 React 和 Ink 库构建,部分用户抱怨启动速度较慢,但支持者认为这种"吃自家狗粮"的行为是产品成功的关键。

为提升长任务可靠性,Opus 4.6 引入了 Context Compaction 和 Adaptive Thinking。在自适应模式下,模型会根据任务复杂度自主决定何时开启深度推理。针对"上下文腐烂"问题,100 万版本在信息检索测试中得分高达 76%,远超前代产品。

API 基础定价与 4.5 保持一致,但处理超过 200k 的超长上下文时会收取更高的溢价费用。

OpenClaw 与 Mac Mini 的意外组合
AI 智能体的硬件选择

Mac Mini 正在迎来一场抢购潮,原因是它们正成为运行 OpenClaw 的理想"无头"设备。OpenClaw 是一种允许 AI 模型直接控制计算机鼠标和键盘的开源框架。大量开发者正利用 Mac Mini 搭建专用的 AI 智能体,让模型通过模拟人类操作来自动化处理工作流。

Mac Mini 之所以成为首选硬件,得益于其统一内存架构,使得普通内存可以充当高带宽的显存来运行大型本地模型。

Apple 为何迟迟未动

科技界普遍认为这才是 Apple Intelligence 应该有的样子:一个能够真正操作 App、报税或管理日历的智能体,而不是仅仅停留在总结通知这种琐碎的功能上。

社区讨论指出,Apple 迟迟未动手的核心原因在于安全与合规的权衡。提示词注入攻击是最大的绊脚石。对于拥有 25 亿活跃设备的 Apple 而言,一旦智能体被恶意网页或邮件诱导执行了删除文件、转账或泄露隐私的操作,其财务和声誉损失将是毁灭性的。

也有观点为 Apple 的保守辩护:Apple 往往不是新技术的发明者,而是集大成者,习惯于等待行业解决掉最棘手的安全和工程问题,然后再推出一个精致且好用的版本。

内部主机名泄露到云端
泄露的源头

当你访问内网深处的 NAS 时,可能会发现一些来自 GCP 的主机正顺着你的连接找上门来。这种情况通常源于 NAS 厂商在 Web 界面中集成了 Sentry 来进行遥测。当浏览器加载 NAS 管理页面时,它会向 Sentry 发送追踪数据,并将你用于访问内部盒子的完整主机名一并告知对方。

Sentry 在接收到这些追踪数据后,往往会尝试反向连接该主机名,目的可能包括抓取 Favicon 或尝试检索 Source maps。甚至有用户发现,Sentry 会利用这些信息自动配置运行时间监控。

防御建议

社区提出了一系列防御建议:使用 Little Snitch 或 uBlock Origin 插件直接拦截 Sentry 等遥测域名的出站请求;在 NAS 前端部署 Nginx 等反向代理并注入严格的 CSP 响应头;不要在主机名中包含敏感信息,如果需要隐藏服务应将秘密信息放在 URL 路径中而不是二级域名中。

许多用户抱怨 Synology 等闭源 NAS 系统过于臃肿且难以审计,建议将其仅作为纯粹的文件存储,或者改用 TrueNAS 或 Debian 等开源系统。

sqldef:声明式数据库迁移工具
工具定位

sqldef 是一个用于对比两个 SQL schema 并生成差异 DDL 的命令行工具,支持 MySQL、PostgreSQL、SQLite 和 SQL Server。开发者只需定义最终状态,工具便会自动计算出从当前状态转换所需的 SQL 语句。

社区普遍认为,这种声明式的管理方式比传统的指令式迁移更具优势。开发者不再需要维护一连串繁琐的 ALTER 脚本,而是直接在 Git 仓库中维护最新的数据库状态。

局限与替代方案

sqldef 在处理某些边缘情况时面临挑战。在 SQLite 测试中,有用户发现它在处理添加外键约束或删除列等操作时会生成无效的迁移语句。

社区对"自动 Diff"能否完全替代手动迁移持有保留意见。核心问题是数据迁移:例如将姓名列拆分为姓和名,这类操作涉及业务逻辑,单纯的结构对比无法推断出数据转换的规则。对于大规模生产数据库,自动生成的 DDL 可能触发全表扫描。

一些用户建议在大规模场景下将 sqldef 与手动审计结合使用,或者考虑 Skeema、Atlas 或 pg_roll 等更重型的工具。

reMarkable Pro 的色彩问题
色彩空间与显示技术

reMarkable Pro 提供的颜色非常平淡。当用户将涂鸦导出到电脑查看时,由于色彩空间不匹配,导出文件往往无法还原平板上的视觉效果。有用户通过 DSLR 相机和白卡参考提取了色彩数据,并制作了 ICC 配置文件和 GIMP 调色板。

reMarkable Pro 的白色实质上偏灰,亮度明显低于 reMarkable 2,这使得背光几乎成为必需。该设备采用 E-Ink Gallery 显示技术,使用真实的 CMYK 颜料粒子。

手写笔与软件体验

设备从前代的 Wacom EMR 切换到了 AES 技术,导致精度下降。压感曲线过于生硬,需要非常用力按压才能获得明显的笔触宽度。

软件与交互体验是吐槽最为集中的领域。UI 被指责过于低效,例如在笔记本中移动页面需要经过多个繁琐步骤。对于 Linux 用户,由于官方不提供桌面应用,他们必须依赖逐渐被官方更新封杀的开源社区工具。

社区中不乏转向 Supernote 等竞争品牌的讨论,主要原因是后者提供了更开放的系统架构和更好的维修性。

GPT-5.3-Codex 发布
编程能力与基准测试

OpenAI 发布了 GPT-5.3-Codex,集成了 GPT-5.2 的专业知识,运行速度提升了 25%。在 SWE-Bench Pro 真实软件工程评估中表现优异,Terminal-Bench 2.0 得分 77.3%,远超 Anthropic 同日发布的 Opus 4.6 的 65.4%。

模型在 Web 开发方面表现尤为突出,能通过简单的指令自主迭代复杂的应用。社区评论指出,虽然 5.3 似乎在思考时更慢,但它确实解决了 5.2 无法处理的复杂问题。

实时协作与安全考量

GPT-5.3-Codex 支持实时交互引导,用户可以像对待同事一样在它工作时询问进度、讨论方案并实时修正方向。这是 OpenAI 首个实现"自我辅助"开发的项目,Codex 团队利用早期版本来调试模型自身的训练和管理部署。

根据 Preparedness Framework,该模型被归类为网络安全领域的高能力级,是首个直接接受识别软件漏洞训练的模型。OpenAI 承诺提供 1000 万美元的 API 额度支持开源软件和关键基础设施的防御研究。

本次发布与 Anthropic 的新模型撞档,有评论认为 OpenAI 习惯于在竞争对手发布前夕或同日推出新产品以抢夺媒体关注。

维尔特定律与软件效率
软件变慢的速度超过硬件变快

1995 年,图灵奖得主尼克劳斯·维尔特提出了著名的维尔特定律:软件变慢的速度比硬件变快的速度更快。当时维尔特感叹,25 年前仅需 8KB 内存的文本编辑器,如今却需要百倍以上的空间。

有评论指出,1980 年代末运行在 NeXTStep 系统上的 FrameMaker 仅需 8MB 内存就能完成复杂的排版,而现代的 Microsoft Word 在功能上甚至难与其抗平。研究表明,1983 年的 Apple IIe 在输入延迟上竟然优于现代计算机,因为现代系统在输入链路中插入了过多的抽象层。

LLM 时代的资源消耗

大语言模型的兴起正在将维尔特定律推向极端。用计算资源极其密集的 LLM 去计算"2*3",其消耗的电力和水资源远超本地 CPU 一秒钟执行十亿次此类运算的成本。更糟糕的是,人们倾向于直接向 AI 索要答案,而不是让 AI 编写代码去解决问题。

Anthropic 的研究指出,过度依赖 AI 会损害人们对概念的理解、代码阅读和调试能力。社区中有观点认为,随着摩尔定律走向物理极限,我们或许将迎来一个重新审视软件效率的复兴时代。

微软 Copilot 的困境
产品定位混乱

微软的 Copilot 聊天机器人正成为其人工智能战略的核心,但该产品在作为 ChatGPT 替代品的道路上步履维艰。社区评论指出,微软内部竟有三个不同部门各自拥有名为 Copilot 的产品且互不沟通,这种混乱的品牌定位极大地困扰了用户。

数据显示仅有约 3.3% 的 Microsoft 365 用户在为 Copilot 付费。许多用户反映,即便系统各处都散布着 Copilot 按钮,尝试使用时却常得到"我无法做到这一点"的回应。

竞争压力与市场反馈

在与 ChatGPT 和 Google Gemini 的竞争中,Copilot 的活跃度正在下滑。尽管微软拥有庞大的俘虏受众,但当员工能并排使用多种工具时,往往会转向竞争对手。

微软在最新财报后股价下跌,反映了投资者对其 AI 业务过度依赖 OpenAI 且 Copilot 尚未证明自身价值的担忧。批评者认为微软的企业文化根植于向 CIO 等决策者推销,而非服务终端用户。

nanobot:轻量级 AI 助手
极简设计理念

nanobot 是香港大学数据科学实验室开发的超轻量级个人 AI 助手,作为 OpenClaw 的极简替代方案,仅用约 4000 行代码实现了核心智能体功能,相比 OpenClaw 超过 43 万行的代码量缩减了 99%。

核心架构包括智能体循环、工具派遣,内置了 GitHub、天气、tmux 等技能。支持 Telegram、WhatsApp 以及通过 WebSocket 长连接接入的飞书,可通过 vLLM 运行 Llama-3.1 等本地模型。

RAG 是否已过时

社区对 nanobot 剔除 RAG 的设计展开了讨论。支持者认为,随着 LLM 的上下文窗口普遍突破 10 万 token,开发者可以直接将大量文档推入上下文,而不再需要复杂的向量嵌入搜索。有观点认为给 AI 赋予 grep 或 rg 权限比 RAG 更高效。

反对意见指出,尽管上下文窗口在变大,但召回率仍会随信息量增加而下降。向量搜索在处理缺乏结构化的语义相似性查询时依然具有不可替代的优势。

由于 nanobot 可以自托管在本地 VM 中,它能够绕过云端托管智能体经常遇到的机器人协议限制,并能更直接地控制敏感的个人数据。

相关链接:

  • Don't rent the cloud, own instead
  • Claude Opus 4.6
  • OpenClaw is what Apple intelligence should have been
  • When internal hostnames are leaked to the clown
  • Sqldef: Idempotent schema management tool for MySQL, PostgreSQL, SQLite
  • Remarkable Pro Colors
  • GPT-5.3-Codex
  • Wirth's Revenge
  • Microsoft's Copilot chatbot is running into problems
  • Nanobot: Ultra-Lightweight Alternative to OpenClaw
...more
View all episodesView all episodes
Download on the App Store

Agili 的 Hacker PodcastBy Agili 的 Hacker Podcast