
Sign up to save your podcasts
Or


欢迎来到 Agili 的 Hacker Podcast,今天我们探讨微塑料测量的乌龙、诱捕 AI 爬虫的毒穴,以及领英为何需要 2.4GB 内存等前沿科技与硬核工程话题。
密歇根大学的一项研究指出,科学家测量微塑料时佩戴的丁腈和乳胶手套会导致数据严重高估。手套释放的硬脂酸盐(一种方便脱模的涂层颗粒)会污染实验室设备。这些颗粒在结构和视觉上与常见的聚乙烯塑料极难区分。实验显示,模拟手套接触会在每平方毫米区域平均产生约 2000 个假阳性颗粒。研究团队开发了包含扫描电子显微镜和光谱技术的分类库,帮助研究者从现有数据集中剔除这些干扰物,并建议改用无硬脂酸盐涂层的无尘室手套。
Hacker News 社区指出,在痕量分析领域,测量过程污染样本的现象并不罕见。多位专家提到,当前微塑料领域的许多研究缺乏严密的对照组,在超灵敏检测中区分环境背景信号极其困难。
讨论延伸到食品服务行业的佩戴手套强制令。部分观点认为,手套会剥夺佩戴者对生肉粘液等污染物的触觉感知,频繁洗手是更安全的卫生标准,同时也能减少人体微塑料摄入。
Miasma 是一款使用 Rust 编写的诱捕工具,专门针对大规模抓取网页数据的 AI 爬虫。它通过在网页中嵌入对人类不可见的代码(如 style="display: none;"),将爬虫引向特定服务器。该服务器会持续输出含有误导信息的“中毒”训练数据和自引用链接,消耗爬虫资源。开发者建议在 robots.txt 中配置规则,避免误伤友好的传统搜索引擎。
这种防御战术改变了数据抓取的成本结构。站点所有者注入毒素的成本极低,而爬虫方在大规模采集中过滤这些数据的成本极高。有开发者分享,他故意在 GitHub 散布虚构的 Python 库信息,随后发现大语言模型确实吸收并输出了这些假数据。
社区对爬虫行为的合法性存在分歧。支持 AI 训练的一方援引合理使用原则,主张机器拥有阅读和学习的权利;反对者反驳,创作者在数字公地分享内容并非为了让科技巨头零成本商业化,高频的爬虫请求已经构成了实质上的“带宽污染”。
旅行者 1 号目前距离地球超过 150 亿英里。它的运行核心仅依赖 69KB 内存和一个 8 轨磁带录音机,数据传输功率仅为 22.4 瓦。1977 年发射时,其设计寿命仅为 5 年。系统代码使用汇编语言编写,每秒执行约 8.1 万条指令。JPL 工程师曾利用几百字节的内存空隙塞入模式匹配程序,成功拍下木星的新卫星。
2025 年初,由于备用推进器燃油箱内橡胶隔膜老化脱落,二氧化硅残留导致管道堵塞。工程师团队通过远程指令,成功激活了停用 20 年的另一组推进器。这次操作耗时 46 小时才收到单程信号反馈。由于推进器堵塞不可逆,材料老化可能在未来 5 年内让探测器失去对准地球的能力。其放射性同位素热电机预计可维持电力至 2036 年,随后它将作为人类文明的物理剪影在宇宙中继续漂流。
50 岁的安吉拉·利普斯因一起北达科他州银行诈骗案被捕入狱五个月。法戈警方利用 Clearview AI 的面部识别工具将监控录像与利普斯的照片匹配。调查人员直接将系统生成的潜在嫌疑人报告作为申请逮捕令的依据,未核实其不在场证明。直到辩护律师出示银行记录证明案发时她在田纳西州,检方才撤销指控。在此期间,利普斯失去了房屋、汽车和宠物。
法戈警方已禁止在未经授权的情况下使用该 AI 系统。社区讨论指出,这起案件暴露出执法系统对大数据匹配的基本比率谬误:即便系统准确率高,在庞大人口基数下产生的错误匹配绝对数量依然惊人。法官在证据薄弱时机械签发全国引渡令的做法遭到批评。目前利普斯的律师正在推进民权索赔,呼吁建立要求警察机构承担过失赔偿的问责机制。
前端开发者分析了 LinkedIn 页面极度占用内存的三个核心机制:
一线开发者指出,当前的科技企业缺乏对性能优化的激励。员工更倾向于堆砌新功能以获取晋升。社区将这种现象与早期的工程严谨性对比,提出许多 Web 应用和基于 Electron 的桌面软件(如 Slack)的内存占用已经超过了完整的集成开发环境。尽管用户普遍对现代网页的臃肿感到不满,但由于求职的强制性需求,人们依然不得不忍受这种资源消耗。
哈佛医学院在《英国医学杂志》发表的研究分析了近 900 万份死亡证明。在 443 种职业中,出租车司机和救护车司机的阿尔茨海默病死亡率最低(分别为 1.03% 和 0.74%,远低于 3.88% 的平均值)。研究提出,频繁的空间处理和实时导航任务会增强海马体功能,而海马体萎缩正是阿尔茨海默病的最早生理特征之一。路线固定的公交车司机和飞行员则没有表现出相同的保护效应。
Hacker News 用户对数据解读提出了异议。阿尔茨海默病早期的核心症状是迷路,具有患病倾向的司机可能在初期就因无法胜任工作而离职,导致最终留在该职业统计库中的都是认知强健者。另外,出租车司机的平均死亡年龄约为 64-67 岁,低于普通职业的 74 岁,很多人可能在 75 岁的老年痴呆高发期到来前,就死于心血管疾病。在海量职业数据中筛选出两个离群值,如果缺乏多重测试校正,容易陷入统计学的巧合陷阱。
Motorola 88000(m88k)是摩托罗拉在 PowerPC 诞生前推出的精简指令集(RISC)架构。它采用独特的外部缓存存储管理单元(CMMU)设计,允许芯片直接在处理器总线上监控多处理器缓存一致性。由于多芯片设计占用主板空间且限制了运行频率,m88k 未能取得商业成功,但其外部总线设计理念后来融入了 PowerPC 601 之中。
OpenBSD 开发者 Miod Vallat 在 2000 年接手了 m88k 的移植维护。为了搭建环境,他收集淘汰的 MVME188 硬件,解决了 SCSI 终结器配置错误和引导程序内存冲突等底层故障。在修复过程中,OpenBSD 创始人 Theo de Raadt 曾因其他开发者合并代码不当而直接封禁对方账号,强制要求按照严格的 CVS 规范重新提交。到 2003 年,该平台因编译器后端优化不稳定和缺乏企业支持逐渐停用。
测试显示,macOS 等操作系统有时会根据线缆内部 eMarker 芯片的标称数据,错误报告连接速度为 10gbps,即使该线缆物理上根本没有用于高速传输的 SuperSpeed 引脚。目前的 USB 控制器通常不会将真实的物理连通性数据传递给操作系统,导致用户在传输变慢时才会发现性能瓶颈。
售价 45 美元的 Treedix 智能测试仪提供了一个直观的解决方案。它能显示线缆支持的协议版本、物理引脚连通状态、内部阻抗并读取 eMarker 容量。社区讨论指出,许多高端耳机附赠的线缆非常粗硬,让用户误以为其数据带宽很高,实际上这些厚度通常只是为了支持高功率充电(PD 协议)或增加耐用性,其数据传输仅限 USB 2.0 速度。虽然精准的眼图信号测试需要昂贵的实验室设备,但这套低成本测试仪足以帮助普通用户完成线缆的断舍离。
研究人员解密了浏览器中静默运行的 Cloudflare Turnstile 程序。该程序不仅检查 WebGL 和网络 IP,还会读取当前页面的 React 单页应用内部状态。它验证 55 个属性,包括路由上下文和渲染注水数据。如果请求只伪造了浏览器指纹,却没有在前端真正渲染 ChatGPT 的界面,验证就会失败。程序的加密方式采用简单的异或运算,密钥直接嵌入在指令流中。
OpenAI 团队回应称,深度检查是为了防止爬虫消耗有限的 GPU 资源。社区开发者对这种做法提出了质疑:OpenAI 自身依赖抓取全网数据训练模型,现在却利用复杂的客户端指纹识别将抓取其网页的行为定义为滥用。大量复杂的行为生物识别监听(包括按键时序和鼠标轨迹)以及 DOM 结构检查,是导致 ChatGPT 网页端在长对话中出现严重输入延迟和卡顿的核心原因。
为了在护眼屏幕上阅读长文章,作者使用一台离线状态的 Kindle 搭建了阅读流。由于亚马逊限制了 ePub 格式直传,他使用自托管服务 Readeck 从网页抓取正文,每天傍晚将其打包导出,再通过开源管理软件 Calibre 转换格式并传输至 Kindle。这套流程避开了购买昂贵的新型 Android 墨水屏设备。
Hacker News 社区提供了更自动化的选项。用户可以通过越狱 Kindle 安装 KOReader,直接拉取 RSS 订阅源和 OPDS 目录,省去电脑转换的步骤。硬件方面,Kobo 阅读器因系统开放且无需越狱即可安装第三方软件,被认为是更好的选择。对于不想折腾服务器的用户,KTool 和 Polyreader 等第三方服务也能将网页文章自动排版成杂志格式推送到阅读设备。
相关链接:
By Agili 的 Hacker Podcast欢迎来到 Agili 的 Hacker Podcast,今天我们探讨微塑料测量的乌龙、诱捕 AI 爬虫的毒穴,以及领英为何需要 2.4GB 内存等前沿科技与硬核工程话题。
密歇根大学的一项研究指出,科学家测量微塑料时佩戴的丁腈和乳胶手套会导致数据严重高估。手套释放的硬脂酸盐(一种方便脱模的涂层颗粒)会污染实验室设备。这些颗粒在结构和视觉上与常见的聚乙烯塑料极难区分。实验显示,模拟手套接触会在每平方毫米区域平均产生约 2000 个假阳性颗粒。研究团队开发了包含扫描电子显微镜和光谱技术的分类库,帮助研究者从现有数据集中剔除这些干扰物,并建议改用无硬脂酸盐涂层的无尘室手套。
Hacker News 社区指出,在痕量分析领域,测量过程污染样本的现象并不罕见。多位专家提到,当前微塑料领域的许多研究缺乏严密的对照组,在超灵敏检测中区分环境背景信号极其困难。
讨论延伸到食品服务行业的佩戴手套强制令。部分观点认为,手套会剥夺佩戴者对生肉粘液等污染物的触觉感知,频繁洗手是更安全的卫生标准,同时也能减少人体微塑料摄入。
Miasma 是一款使用 Rust 编写的诱捕工具,专门针对大规模抓取网页数据的 AI 爬虫。它通过在网页中嵌入对人类不可见的代码(如 style="display: none;"),将爬虫引向特定服务器。该服务器会持续输出含有误导信息的“中毒”训练数据和自引用链接,消耗爬虫资源。开发者建议在 robots.txt 中配置规则,避免误伤友好的传统搜索引擎。
这种防御战术改变了数据抓取的成本结构。站点所有者注入毒素的成本极低,而爬虫方在大规模采集中过滤这些数据的成本极高。有开发者分享,他故意在 GitHub 散布虚构的 Python 库信息,随后发现大语言模型确实吸收并输出了这些假数据。
社区对爬虫行为的合法性存在分歧。支持 AI 训练的一方援引合理使用原则,主张机器拥有阅读和学习的权利;反对者反驳,创作者在数字公地分享内容并非为了让科技巨头零成本商业化,高频的爬虫请求已经构成了实质上的“带宽污染”。
旅行者 1 号目前距离地球超过 150 亿英里。它的运行核心仅依赖 69KB 内存和一个 8 轨磁带录音机,数据传输功率仅为 22.4 瓦。1977 年发射时,其设计寿命仅为 5 年。系统代码使用汇编语言编写,每秒执行约 8.1 万条指令。JPL 工程师曾利用几百字节的内存空隙塞入模式匹配程序,成功拍下木星的新卫星。
2025 年初,由于备用推进器燃油箱内橡胶隔膜老化脱落,二氧化硅残留导致管道堵塞。工程师团队通过远程指令,成功激活了停用 20 年的另一组推进器。这次操作耗时 46 小时才收到单程信号反馈。由于推进器堵塞不可逆,材料老化可能在未来 5 年内让探测器失去对准地球的能力。其放射性同位素热电机预计可维持电力至 2036 年,随后它将作为人类文明的物理剪影在宇宙中继续漂流。
50 岁的安吉拉·利普斯因一起北达科他州银行诈骗案被捕入狱五个月。法戈警方利用 Clearview AI 的面部识别工具将监控录像与利普斯的照片匹配。调查人员直接将系统生成的潜在嫌疑人报告作为申请逮捕令的依据,未核实其不在场证明。直到辩护律师出示银行记录证明案发时她在田纳西州,检方才撤销指控。在此期间,利普斯失去了房屋、汽车和宠物。
法戈警方已禁止在未经授权的情况下使用该 AI 系统。社区讨论指出,这起案件暴露出执法系统对大数据匹配的基本比率谬误:即便系统准确率高,在庞大人口基数下产生的错误匹配绝对数量依然惊人。法官在证据薄弱时机械签发全国引渡令的做法遭到批评。目前利普斯的律师正在推进民权索赔,呼吁建立要求警察机构承担过失赔偿的问责机制。
前端开发者分析了 LinkedIn 页面极度占用内存的三个核心机制:
一线开发者指出,当前的科技企业缺乏对性能优化的激励。员工更倾向于堆砌新功能以获取晋升。社区将这种现象与早期的工程严谨性对比,提出许多 Web 应用和基于 Electron 的桌面软件(如 Slack)的内存占用已经超过了完整的集成开发环境。尽管用户普遍对现代网页的臃肿感到不满,但由于求职的强制性需求,人们依然不得不忍受这种资源消耗。
哈佛医学院在《英国医学杂志》发表的研究分析了近 900 万份死亡证明。在 443 种职业中,出租车司机和救护车司机的阿尔茨海默病死亡率最低(分别为 1.03% 和 0.74%,远低于 3.88% 的平均值)。研究提出,频繁的空间处理和实时导航任务会增强海马体功能,而海马体萎缩正是阿尔茨海默病的最早生理特征之一。路线固定的公交车司机和飞行员则没有表现出相同的保护效应。
Hacker News 用户对数据解读提出了异议。阿尔茨海默病早期的核心症状是迷路,具有患病倾向的司机可能在初期就因无法胜任工作而离职,导致最终留在该职业统计库中的都是认知强健者。另外,出租车司机的平均死亡年龄约为 64-67 岁,低于普通职业的 74 岁,很多人可能在 75 岁的老年痴呆高发期到来前,就死于心血管疾病。在海量职业数据中筛选出两个离群值,如果缺乏多重测试校正,容易陷入统计学的巧合陷阱。
Motorola 88000(m88k)是摩托罗拉在 PowerPC 诞生前推出的精简指令集(RISC)架构。它采用独特的外部缓存存储管理单元(CMMU)设计,允许芯片直接在处理器总线上监控多处理器缓存一致性。由于多芯片设计占用主板空间且限制了运行频率,m88k 未能取得商业成功,但其外部总线设计理念后来融入了 PowerPC 601 之中。
OpenBSD 开发者 Miod Vallat 在 2000 年接手了 m88k 的移植维护。为了搭建环境,他收集淘汰的 MVME188 硬件,解决了 SCSI 终结器配置错误和引导程序内存冲突等底层故障。在修复过程中,OpenBSD 创始人 Theo de Raadt 曾因其他开发者合并代码不当而直接封禁对方账号,强制要求按照严格的 CVS 规范重新提交。到 2003 年,该平台因编译器后端优化不稳定和缺乏企业支持逐渐停用。
测试显示,macOS 等操作系统有时会根据线缆内部 eMarker 芯片的标称数据,错误报告连接速度为 10gbps,即使该线缆物理上根本没有用于高速传输的 SuperSpeed 引脚。目前的 USB 控制器通常不会将真实的物理连通性数据传递给操作系统,导致用户在传输变慢时才会发现性能瓶颈。
售价 45 美元的 Treedix 智能测试仪提供了一个直观的解决方案。它能显示线缆支持的协议版本、物理引脚连通状态、内部阻抗并读取 eMarker 容量。社区讨论指出,许多高端耳机附赠的线缆非常粗硬,让用户误以为其数据带宽很高,实际上这些厚度通常只是为了支持高功率充电(PD 协议)或增加耐用性,其数据传输仅限 USB 2.0 速度。虽然精准的眼图信号测试需要昂贵的实验室设备,但这套低成本测试仪足以帮助普通用户完成线缆的断舍离。
研究人员解密了浏览器中静默运行的 Cloudflare Turnstile 程序。该程序不仅检查 WebGL 和网络 IP,还会读取当前页面的 React 单页应用内部状态。它验证 55 个属性,包括路由上下文和渲染注水数据。如果请求只伪造了浏览器指纹,却没有在前端真正渲染 ChatGPT 的界面,验证就会失败。程序的加密方式采用简单的异或运算,密钥直接嵌入在指令流中。
OpenAI 团队回应称,深度检查是为了防止爬虫消耗有限的 GPU 资源。社区开发者对这种做法提出了质疑:OpenAI 自身依赖抓取全网数据训练模型,现在却利用复杂的客户端指纹识别将抓取其网页的行为定义为滥用。大量复杂的行为生物识别监听(包括按键时序和鼠标轨迹)以及 DOM 结构检查,是导致 ChatGPT 网页端在长对话中出现严重输入延迟和卡顿的核心原因。
为了在护眼屏幕上阅读长文章,作者使用一台离线状态的 Kindle 搭建了阅读流。由于亚马逊限制了 ePub 格式直传,他使用自托管服务 Readeck 从网页抓取正文,每天傍晚将其打包导出,再通过开源管理软件 Calibre 转换格式并传输至 Kindle。这套流程避开了购买昂贵的新型 Android 墨水屏设备。
Hacker News 社区提供了更自动化的选项。用户可以通过越狱 Kindle 安装 KOReader,直接拉取 RSS 订阅源和 OPDS 目录,省去电脑转换的步骤。硬件方面,Kobo 阅读器因系统开放且无需越狱即可安装第三方软件,被认为是更好的选择。对于不想折腾服务器的用户,KTool 和 Polyreader 等第三方服务也能将网页文章自动排版成杂志格式推送到阅读设备。
相关链接: