Agili 的 Hacker Podcast

Agili 的 Hacker Podcast 2026-02-22


Listen Later

Agili 的 Hacker Podcast

今日精选涵盖 AI 推理的多条技术路径——从工作流方法论到硬件极限突破,也有认知科学的跨物种发现、存储芯片市场的价格战,以及对社交网络本质的反思。

Claude Code 使用心得:计划与执行分离
核心方法论

Boris Tane 分享了他使用 Claude Code 的工作流:在审查并批准书面计划之前,绝不让 AI 写一行代码。他认为直接输入提示词并纠错的模式在处理复杂任务时会迅速崩溃。

流程分三步:研究阶段要求 Claude 深入理解代码库并输出 research.md;计划阶段生成包含实现思路和文件路径的 plan.md;实现阶段才开始编码。关键在于中间的标注循环——开发者直接在文档中插入行内注释修正 AI 的假设,反复迭代直到计划完善。

社区争议

HN 社区认为这种模式将 Markdown 文件变成了开发者与 AI 之间的共享可变状态,标志着开发者角色从"编码员"向"软件经理"的转变。

Boris 主张在单一长会话中完成全过程以维持 AI 的连贯理解,但有经验的用户建议分批执行,将大型项目拆解为 1500 行左右的增量,以防止上下文漂移。关于使用"深入地"等修饰词是否有效,部分人认为这属于提示词炼金术,也有观点反驳称这实际上触发了模型的注意力机制,引导其关注高质量代码范例。

单张 RTX 3090 运行 Llama 3.1 70B:NVMe 直连 GPU 方案
技术实现

NTransformer 是一款 C++/CUDA 推理引擎,让 24GB 显存的单张 RTX 3090 运行 70B 模型。它通过 PCIe 总线流式传输模型层,利用 NVMe 直接 I/O 完全绕过 CPU。

引擎采用三级自适应缓存:Tier A 常驻显存实现零延迟;Tier B 锁定系统内存通过异步传输;Tier C 使用 NVMe 或 mmap 回退,利用 DMA 将权重直接读取到 GPU 可访问的内存。Llama 3.1 70B 在 Q4_K_M 量化下可达 0.5 tok/s,相比标准 mmap 基准提速 83 倍。

瓶颈与优化

主要瓶颈在于 PCIe 带宽限制。项目引入"层跳过"技术,通过余弦相似度校准跳过冗余层,在几乎不损失质量的前提下减少 25% 计算量。社区认为若能结合已停产的 Intel Optane 或 CXL 协议,或许能进一步缓解延迟问题。

安装需要底层系统修改,包括禁用 IOMMU、修补 NVIDIA DKMS。项目灵感源于作者在 PlayStation 2 上的实验——PS2 的"情感引擎"能直接将指令交付给显存,启发他尝试在现代 PC 上绕过 CPU。

Taalas 将 LLM "印刷"到芯片上
硬件方案

Taalas 发布了一款将 Llama 3.1 8B 硬编码在硅片上的 ASIC 芯片,推理速度达每秒 17,000 个 token。传统 GPU 面临冯·诺依曼瓶颈——每层权重计算都需要从显存提取数据再存回,频繁的内存往返导致高延迟和能耗。Taalas 直接将 32 层权重蚀刻在晶体管中,信号像电流一样流经各层。

芯片使用单个晶体管完成 4-bit 乘法,可能利用了晶体管的亚阈值区特性。虽然权重固定,但片上保留了 SRAM 用于存储 KV Cache 和 LoRA 适配器,保持一定灵活性。制造上采用结构化 ASIC 策略,仅通过定制顶层两层掩膜映射特定模型,开发周期缩短至两个月。

争议与前景

批评者认为在 AI 算法日新月异的今天,不可重写的芯片在更好模型问世时就会变成电子垃圾。支持者则认为延迟才是 ASIC 的杀手锏——相比云端推理 50-200ms 的网络抖动,本地 ASIC 可实现微秒级响应,对自动驾驶和机器人控制至关重要。就像比特币矿机从 GPU 转向 ASIC,当模型进入"足够好"的平台期,将特定版本固化到智能家电中将展现巨大市场潜力。

zclaw:888 KB 的 ESP32 AI 助手

zclaw 是专为 ESP32 微控制器设计的 AI 助手,全量固件严格控制在 888 KiB 以内,包含约 25KB 应用逻辑、ESP-IDF/FreeRTOS、Wi-Fi 网络栈和 TLS 加密套件。它支持通过自然语言操控 GPIO、执行时区感知的 cron 调度,底层对接 Anthropic、OpenAI 等大模型后端。

社区澄清 zclaw 是一个客户端,将模型计算交由云端 API 处理。开发者指出在 ESP32 上运行助手的核心价值在于"零维护"——相比需要频繁更新的 Linux 服务器,微控制器每次重启都能回到已知稳定状态,是处理简单自动化循环的理想设备。部分评论认为 888 KiB 对 HTTP 客户端来说略显臃肿,但现代 Wi-Fi 驱动(约 388 KiB)和加密栈(约 110 KiB)占据了绝大部分空间。

两位胜过一位:布隆过滤器精度提升 2 倍
优化方案

Bloom Filter 在数据库中用于避免不必要的磁盘 I/O。传统实现在 k=1 时效率最高,但误报率随插入元素增加迅速上升。Floe 引擎引入"两位方案":将两个哈希位存储在同一个 uint32 中,只需一次内存读取和一次原子或操作即可同时设置两个位。

实验显示,在增加约 1.2 个 CPU 周期查询耗时的代价下,误报率从 11.7% 降至 5.7%。HN 社区指出这本质上是分块布隆过滤器的变体,利用了寄存器阻塞技术。

进一步建议

社区提出多项补充:在 64 位架构上使用 uint64 替代 uint32 能提供更低的饱和概率;利用 C++ 模板生成多种固定大小实现,运行时根据基数估计动态选择;布隆过滤器在 32 位规模下也可作为哈希表桶的"指纹"前缀,快速跳过无效探测。

长鑫存储以半价销售 DDR4 芯片

长鑫存储(CXMT)正以约为市场价一半的价格销售 DDR4 芯片。在三星和 SK 海力士全力投入 HBM4 研发时,中国厂商通过大量投放低价通用型 DRAM 蚕食传统市场。根据 DRAMeXchange 数据,DDR4 8Gb 合同价格在过去一年上涨八倍多,长鑫的激进定价对惠普、戴尔等厂商极具诱惑。

HN 社区认为这种策略并非单纯倾销,而是对长期处于寡头垄断的存储市场的冲击——三星等巨头将产能转移到利润更丰厚的 HBM 领域时,长鑫实际上填补了被放弃的市场。长江存储在 NAND 领域市场份额已达 10%,长鑫目前正将约 20% 产能转换为 HBM3 生产。

技术人员分析认为,DDR4、DDR5 与 HBM 的主要区别在于 I/O 接口,中国厂商跨越技术代差的速度可能比预想中更快。

初生小鸡身上发现波巴-克基效应
研究发现

研究在刚孵化、尚无世界经验的小鸡身上发现了波巴-克基效应——人类倾向于将"波巴"等圆润声音与圆形联系,将"克基"等尖锐声音与锯齿形联系。这表明这种音形关联可能并非人类语言的副产品,而是更深层的跨物种生物本能。

评论区指出这种关联具有物理声学基础:尖锐边缘物体受震动时产生更高频率谐波,因为微小特征的共振频率更高;"克基"不仅音调更高,其频率转换也更突兀,与锯齿形状的视觉特征高度契合。

争议与意义

有观点认为尖锐边缘往往意味着危险,这种联觉可能源于进化的预警机制。但也有反驳指出自然界中许多幼态个体外形圆润却会发出尖锐叫声。如果缺乏语言能力的小鸡也表现出该效应,说明它可能早于语言产生,植根于比"人类语言硬件"更原始的认知结构中。

社区对实验严谨性抱有怀疑——样本量约 42 只,部分评论担心缺乏彻底的双盲控制。鉴于该效应在其他灵长类动物身上未能稳定复现,这种跨越三亿年的进化一致性仍需更多验证。

GameDate:复活死亡多人游戏的平台

GameDate 允许玩家无需注册账号即可寻找、加入或预约特定游戏场次,支持从《命令与征服:叛逆者》到《半条命》等大量经典作品,目前已有超过 150 个活跃场次。

网站采用致敬早期 Steam 的 VGUI 风格,高信息密度且响应迅速。有资深开发者将其描述为"匹配周期长达一周的匹配算法"。为解决冷启动问题,评论区建议主动对接《部落 2》等已在 Discord 拥有活跃社群的小众社区。

社区讨论延伸到对现代多人游戏环境的批判——许多玩家怀念曾经的局域网模式,批评现代作品强制"始终在线"导致官方服务器关闭后游戏彻底失效。这种自发的场次预约模式被视为对快速匹配系统摧毁游戏社区社交性的反抗。

日本浮世绘搜索引擎

Ukiyo-e Search 由 jQuery 创始人 John Resig 创建,拥有超过 22 万张日本木版画数据库。用户只需上传版画照片或粘贴图片链接,即可跨越全球多家博物馆和收藏库寻找相似作品,系统利用 TinEye 的计算机视觉分析实现版画聚类与关联。

网站详细划分了浮世绘发展历程:从 18 世纪初的早期作品到 1740 年代彩色印刷的诞生,再到 1780 至 1804 年的黄金时代。社区对新版画运动(Shin Hanga)表现出极大兴趣,川瀬巴水因其"电影感"的树木刻画受到推崇。有用户分享了通过该网站成功鉴定家中祖传版画的经历。John Resig 正在开发新站点,旨在整合经销商及拍卖行的实时数据提供价格对比参考。

注意力媒体 ≠ 社交网络

Web 2.0 早期的社交网络是真实的——你关注朋友,获取他们的更新,通知仅限于直接消息或真实互动。但自 2012 至 2016 年间,这些平台演变成了注意力媒体,核心目标不再是社交,而是通过无限滚动和虚假通知收割用户注意力。

HN 社区指出从"社交网络"到"社交媒体"的称谓转变,本质上标志着从"朋友关系"向"追求名利"和"广告投放"的演变。有用户指出 Facebook 内部保留了纯粹的"动态"功能只显示朋友内容,但被隐藏在二级菜单中。

评论区提出"酒精类比":社交媒体带来的快感类似酗酒,短期让人放松,长期让生活变得更糟。尽管作者推崇 Mastodon 作为回归纯粹社交的选择,但批评者认为它并未解决社交媒体养成的坏习惯。讨论揭示了核心矛盾:真正的社交网络在规模扩大时往崩溃,注意力媒体正是通过牺牲真实社交质量来换取规模和商业价值。

相关链接:

  • How I use Claude Code: Separation of planning and execution
  • Show HN: Llama 3.1 70B on a single RTX 3090 via NVMe-to-GPU bypassing the CPU
  • Evidence of the bouba-kiki effect in naïve baby chicks
  • How Taalas “prints” LLM onto a chip?
  • zclaw: personal AI assistant in under 888 KB, running on an ESP32
  • Two Bits Are Better Than One: making bloom filters 2x more accurate
  • CXMT has been offering DDR4 chips at about half the prevailing market rate
  • Gamedate – A site to revive dead multiplayer games
  • Japanese Woodblock Print Search
  • Attention Media ≠ Social Networks
...more
View all episodesView all episodes
Download on the App Store

Agili 的 Hacker PodcastBy Agili 的 Hacker Podcast