Agili 的 Hacker Podcast

Agili 的 Hacker Podcast 2026-03-08


Listen Later

欢迎收听今天的 Agili 的 Hacker Podcast,本期为你梳理了从 2026 云计算基准测试到底层 Lisp 对象模型的最新技术动态。

2026 云端虚拟机性价比大考
处理器架构对决

2026 年的云端性能由 AMD Turin 架构主导。在单线程测试中,Turin 在各家云服务商中均表现出明显优势。Intel 的 Granite Rapids 较前代有稳健提升,解决了上一代在节点争用时的性能波动问题。

ARM 架构方面,Google 自研的 Axion 处理器是目前的性能领跑者,表现比肩 AMD Genoa。Azure 的 Cobalt 100 介于 AWS Graviton3 和 Graviton4 之间。尽管 Turin 性能强劲,云服务商通常会限制基础频率以优化能效,其云端单核主频(约 4.1GHz)仍低于自建服务器使用消费级或高频服务器 CPU 的表现。

多数 x86 系统使用同步多线程(SMT)技术,AMD 的 SMT 效率普遍高于 Intel。ARM 实例由于 1vCPU 通常对应 1 个完整物理核心,在增加线程时的性能线性提升接近 100%。AWS 的 C8a 实例禁用了 SMT,在多线程任务中表现极其强悍。

各大云厂商定价策略

Oracle (OCI) 和 Hetzner 在按需付费市场保持领先。Oracle 的 ARM 实例是目前性价比最高的付费产品。在 3 年预留期下,Azure Cobalt 100 的性价比跃居第一,紧随其后的是 GCP 和 AWS 的 Turin 实例。

竞价实例(Spot VMs)是获得极致性价比的途径。GCP 和 Azure 提供最大折扣,Oracle 提供固定的 50% 折扣。AWS 价格最高,网络带宽费用远高于实际成本。Hetzner 在欧洲市场价格极低,但风控严格,存在因信用卡问题或异常工作负载直接封号的情况。DigitalOcean 硬件更新缓慢,物理资源过度分配导致性能波动大。

租用与自建的取舍

社区对“去云化”展开讨论。自建 Turin 服务器的成本回收期约 6 到 18 个月,在持续集成任务中的速度能达到同价位 GCP 实例的两倍。

云服务的核心优势在于自动扩展与托管服务。对于流量波动的业务,云端弹性可以抵消单价成本。对于稳定负载,租用 Hetzner 等供应商的独立物理服务器能节省 40% 以上的开支。

Rust 编译 WebAssembly 的实践避坑指南
跨边界内存管理

在 Rust 开发 WebAssembly(Wasm)时,wasm-bindgen 处理跨边界内存管理存在陷阱。在 Wasm 边界传递数据应首选引用传递。Wasm 导出的 Rust 结构体在 JS 侧表现为持有内部指针的对象,直接消耗所有权会导致 Rust 侧释放内存,使 JS 侧的句柄失效并引发错误。

开发者将非基础类型封装在 Rc> 或 Arc> 中,利用内部可变性模式确保内存安全。这种引用计数开销在边界调用成本前可以忽略。在 Wasm 环境下应谨慎使用异步 Mutex,以防产生死锁或性能瓶颈。

规避类型限制

明确的命名能区分不同来源的接口。Rust 导出的结构体使用 Wasm* 前缀,JS 导入的接口使用 Js* 前缀,这在处理鸭子类型时能减少混淆。

针对 wasm-bindgen 无法直接传递复杂 Vec 的限制,可以采用 wasm_refgen 模式。具体做法是使导出类型可廉价克隆,在 Wasm 端暴露带命名空间的克隆方法,通过 JS 导入接口调用该方法生成新的安全实例。这种代码相比手动使用 js_sys 进行动态运行时检查,能提供更好的编译时反馈。

胶水代码的去留之争

部分开发者对 wasm-bindgen 产生的 JS 胶水代码表示不满,希望 Wasm 能直接与浏览器 Web API 通信。Firefox 正在推动 Wasm 组件模型提案以消除 JS 桥接层。

Web API 最初为 JS 设计,Wasm 直接操作高层级对象存在安全风险。目前 Wasm 的指导原则是将复杂性转移到 Emscripten 或 Rust 编译器等工具链,以换取沙箱安全性。Wasm 在处理 DOM 操作时有性能损耗,更适合机器学习推理或音视频编解码等计算密集型任务。

AI 写作套路与“模式坍缩”现象
陈词滥调的具体表现

tropes.md 系统提示词库列出了当前 AI 写作中泛滥的可预测模式。在词汇上,AI 频繁使用“delve”(钻研)、“quietly”(安静地)和“tapestry”(织锦)。AI 倾向于用“serves as”(充当)代替简单的“is”来增加隆重感,并在句首大量使用“honestly”和“genuinely”试图模拟人性化。

在句式结构上,AI 依赖“负面并行”(不是 X,而是 Y)制造深刻感,过度使用排比句,并在文章的每一级标题下进行重复总结。加粗短语开头的列表项是 Claude 或 ChatGPT 的典型输出格式。

指令微调的副作用

文风趋同属于“模式坍缩”,即模型输出失去多样性,收敛到有限的几种模式中。未经指令微调的基础模型较少出现这些风格异常。研究人员推测,这源于人类反馈强化学习(RLHF)过程中的偏见,模型在迎合评测者对“礼貌、清晰、专业”的过度定义。也有研究认为这与部分地区数据标注员的英语习惯有关。

规避策略与博弈

直接禁止 AI 使用特定词汇容易触发“粉红大象悖论”,导致模型反而更关注该词。有效的做法是要求 AI 模仿特定作者的风格。开发者采用“编辑代理模式”,先生成初稿,再通过专门的 AI 搜索并重写陈词滥调。

在 ChatGPT 等工具中关闭“热情”和“温暖”参数滑块,选择“高效”模式,能减少煽情文本。AI 写作缺乏生活体验,随着模型学习新的规避策略,对抗工具与生成机制的博弈将持续升级。

PyPy 陷入开发停滞危机
核心团队无力跟进版本

高性能 Python 工具链 uv 在文档中增加警告,标明 PyPy 已处于“非活跃开发”状态。PyPy 核心开发者 cfbolztereick 澄清,团队仍在修复漏洞并改进即时编译器(JIT),但现有成员无力跟上 CPython 密集的版本更新节奏。支持 Python 3.12 的工作近期才由新贡献者启动。

科学计算生态的脱节

PyPy 在计算密集型任务中通常比 CPython 快 5 倍以上。目前 PyPy 仅支持到 Python 3.11,落后于发布一年多的 CPython 3.12。NumPy、Pandas 等科学计算社区正在逐步放弃对 PyPy 的支持,原因在于 PyPy 兼容 C 语言 API 的 cpyext 扩展层性能低且维护成本高。

PyPy 的垃圾回收机制(GC)是延迟触发的,与 CPython 的引用计数立即回收不同,这会导致文件描述符等外部资源在循环中迅速耗尽,且官方文档缺乏相关说明。

资金与人力的断层

PyPy 核心开发者 mattip 呼吁企业提供资金或代码贡献。部分用户通过 Open Collective 发起捐款。如果使用 PyPy 提升性能的企业不回馈社区,开发停滞的局面难以扭转。

苹果暗调 Mac Studio 内存配置
供应缩减与价格上调

苹果将 M3 Ultra Mac Studio 的 512GB 内存配置下架,并将 256GB 配置的升级价格从 1600 美元上调至 2000 美元。零售渠道已停售该型号。内存制造商正将产能转向用于数据中心 AI 加速器的高带宽内存(HBM),导致传统动态随机存取存储器(DRAM)供应萎缩。

为超大模型本地推理铺路

苹果可能在为 M5 Ultra 储备内存颗粒,以支持 768GB 配置,用于在本地运行 Qwen-235B 或 DeepSeek-V3.2 等超大规模且未经量化的语言模型。Mac Studio 采用统一内存架构,配合 macOS Tahoe 的计算集群功能,允许多台设备共同处理复杂的 AI 负载。M4 Max 因缺乏高速互连技术 UltraFusion 跳过了 Ultra 版本,M5 预计将采用全新架构提升扩展效率。

内存溢价与市场垄断

社区质疑当前的内存短缺是头部厂商协同减产形成的垄断行为。硬件生态受到波及,树莓派 5 价格涨幅超过 50%,开发者转向二手迷你 PC 或 AMD 的 Strix Halo 设备。苹果坚持焊接内存并设置高昂溢价,切断了用户利用零售市场降价升级设备的途径,通过缩减高端配置来保护利润率。

Qwen 3.5 本地推理实测
双模式与硬件门槛

阿里巴巴推出的 Qwen 3.5 模型涵盖 0.8B 到 397B-A17B 规格。Unsloth 发布了基于 Dynamic 2.0 量化技术的 GGUF 模型包,支持 256K 上下文,具备独立的“思考”与“非思考”模式。

27B 和 35B-A3B 模型可在 22GB 显存设备上运行。在 5070ti 显卡上,9B 模型保持 100 tok/s 输出,5090d 上达到 140 tok/s。397B 模型通过混合专家(MoE)卸载技术,在 24GB 显存配合 256GB 系统内存的环境下实现 25 tok/s 的推理速度。

参数微调指南

进行精准编码任务时,最佳参数组合为 temperature 0.6 与 top_p 0.95。0.8B 到 9B 的小模型默认关闭思考模式,需添加 --chat-template-kwargs '{"enable_thinking":true}' 手动开启。LM Studio 用户需要下载特定 YAML 配置文件来解锁模式切换开关。

实际应用痛点

Qwen 3.5 存在迎合用户观点的倾向。在提示词中加入简练且严厉的高级工程师角色设定,能强行修正回复风格。尽管支持 256K 长度,长文本处理时模型倾向于关注近期上下文。基准测试表明 27B 稠密模型精度略高,35B 混合专家模型推理速度更快。GGUF 模型在 Ollama 中因视觉组件分离存在兼容问题,推荐使用 llama.cpp 兼容后端。

AI 智能体自主优化 LLM 训练
五分钟自动化实验循环

Andrej Karpathy 开源的 autoresearch 项目提供了一个轻量级 LLM 训练环境。AI 智能体可以在夜间自主修改代码、进行 5 分钟的微型训练,通过比对验证集指标决定是否保留修改。

系统分为三个核心文件:不可修改的数据预处理脚本、包含优化器和架构的训练脚本(智能体的实验场),以及人类编写的研究指南指令。评估使用验证集每字节比特数(val_bpb),使智能体能直接对比不同架构下的性能。

代码修改与过拟合风险

该系统允许智能体修改代码逻辑,如更换激活函数,而非仅调整数值超参数。智能体利用逻辑快速逼近最优设置。在部分实验中,智能体通过修改随机种子获得了微小性能提升。这暴露了模型刷榜和验证集过拟合的风险。目前的模型在开放式研究中表现保守,实现新颖研究需要模型能力提升和更好的人类指令。

催生实验环境治理工程师

随着自动化环境的普及,软件公司将出现负责构建 AI 实验脚手架和验证环境的工程师。这种让 AI 智能体充当初级研究员、由高级指令集引导的模式,能让模型根据特定硬件平台的算力预算自动寻找最优架构。该项目支持 NVIDIA GPU 环境,社区已推出针对 Apple Silicon 的分支版本。

Maxell 软盘广告的实体机器人往事
耗资巨大的负面暗示营销

1985 年,Maxell 为推广软盘打造了真人大小的机器人道具。广告展示了机器人在餐厅进食文件的场景,暗示使用劣质软盘会导致数据丢失。这组耗资巨大的机器人广告频繁出现在《Byte》等电脑杂志上。当时的物理道具拥有可活动的关节手指,部分电视广告版本则使用了真人穿着机器人服装拍摄。

博物馆展出与维护难题

1987 年,这些机器人进入波士顿计算机博物馆展出。由于动画循环长达四分钟且心跳灯光不同步,常被游客误认为静态模型。维护这些机器人占用了技师四分之一的工作时间。1990 年,Maxell 为博物馆捐赠了一个带有可移动写保护口的 6 英尺高软盘模型。

复古科技的视觉遗产

这些实体机器人道具成为蒸汽波艺术家的创作素材。与今天受人类远程遥控的半自动机器相比,这些曾模拟手术场景的纯物理机电装置展现了早期科技营销的独特路径。

C 语言视角下的 Emacs Lisp 对象模型
标记指针技术

Emacs 的核心是一个 C 语言编写的 Lisp 运行时。所有 Elisp 值的通用 C 类型在 64 位系统中表现为一个 64 位的机器字 Lisp_Object。由于堆分配对象遵循 8 字节对齐,内存地址低 3 位始终为 0。Emacs 利用这 3 个空闲位存储类型标记。低位标记配合位移指令可以快速加载,避免干扰有符号整数的补码表示。

立即数整数的位移处理

Emacs 对立即数整数进行了优化,只使用 2 位标记,将整数表示范围扩大一倍。指针类型的高位存储堆指针,整数的高位直接存储数值。在清除标记位时,Emacs 源码使用减法而非位与运算。GCC 编译器能将减法偏移与结构体成员访问合并为一条 x86 指令,从而节省寄存器。

麦卡锡公理的底层映射

Lisp 的七个数学公理在 Emacs 中映射到了具体的 C 源码。引用等价通过 64 位字比较实现,列表获取映射到结构体字段,内存分配由特定 C 函数负责。Emacs 内核实现了约 1700 个底层原语以处理复杂的现实交互。C 核心中的宏带有浓厚的 Lisp 风格,内部没有冗余代码,其区间树和缓冲区局部变量的实现极其精炼。

聚碳酸酯 MacBook 外壳注入现代内核
跨时代组件缝合

FrameBook 项目将 2006 年第一代聚碳酸酯 MacBook 外壳与 Framework 13 内部组件结合。作者装入了 Intel 第 12 代主板和 64GB 内存。由于内部零件几乎全部更换,该设备被社区称为“特修斯之 MacBook”。

物理结构的逆向改造

作者移除了原有支柱,使用 3D 打印件配合强力胶固定主板。利用电磨工具切开原始端口位,并通过 3D 扫描制作了定制接口挡板。键盘和触控板通过在电路板上直接焊接 USB 线转变为通用输入设备。作者定制了超薄 LED 片恢复了背光 Apple Logo,并使用转接板连接了原始电源键。

运行 Windows 的反向黑苹果

该设备运行 Windows 11 系统,使用第三方软件模拟 macOS 界面,属于一种“反向黑苹果”。2006 款 MacBook 外壳存在掌托位置易出现裂纹的物理缺陷。Framework 提供的可互换主板降低了复古硬件外壳改造的技术门槛。

相关链接:

  • Cloud VM benchmarks 2026
  • Notes on writing Rust-based Wasm
  • LLM Writing Tropes.md
  • Warn about PyPy being unmaintained
  • Apple's 512GB Mac Studio vanishes, a quiet acknowledgment of the RAM shortage
  • How to run Qwen 3.5 locally
  • Autoresearch: Agents researching on single-GPU nanochat training automatically
  • In 1985 Maxell built a bunch of life-size robots for its bad floppy ad
  • Emacs internals: Deconstructing Lisp_Object in C (Part 2)
  • FrameBook
...more
View all episodesView all episodes
Download on the App Store

Agili 的 Hacker PodcastBy Agili 的 Hacker Podcast