《HN 瞎聊》#42 – 数据、硬件、AI 生态与键盘上的猫
About This Episode
本期我们剖析 AI 训练数据的暗流、个人电脑的自由危机、AI 工作流锁定、基准测试的作弊争议,同时拯救被键盘抢占的猫咪,环环相扣,一次聊透技术与人性。
Chapters
Links
小雅: 老冯,你他妈的能不能小点声?我这边猫都被你吓得从键盘上跳下去了!
老冯: 哟,小雅,你那猫不是天天赖在键盘上不走吗?今儿这是被我吵醒了还是被你的咖啡味熏跑了?
小雅: 去你的,这咖啡都凉成冰块了,我还没来得及喝。刚才在给服务器重新布线,结果这猫非要当我的「质量监督员」。
老冯: 得了吧,你那服务器都老掉牙了,还折腾啥?今年不是流行「云上躺平」吗?
小雅: 躺平?你可拉倒吧。最近数据隐私法案又收紧了,谁还敢把数据全扔云上?再说了,硬件这块今年又有新动静,不折腾点啥我都睡不着。
老冯: 行行行,你赢了。不过说到硬件,今儿咱们不得好好聊聊?最近 NVIDIA 又放大招了,还有那些 AI 创业公司,一个个吹得天花乱坠,实际呢?猫都不信。
小雅: 哈哈,你这老油条,就知道泼冷水。不过也对,咱们今天就来聊聊这堆事儿:数据怎么玩才安全,硬件到底有啥新花样,还有 AI 生态里那些真真假假的「革命」。
老冯: 外加你这键盘上的猫,估计又得「贡献」几个奇怪的 Git commit。
小雅: 滚蛋!不过说真的,今天咱们就从这猫开始,聊到数据、硬件、AI,再到那些让人又爱又恨的技术生态。准备好了吗?
老冯: 准备啥?我这边雨声、猫叫、你的抱怨,三重奏都齐活了。开始吧,反正也睡不着。
老冯: 诶,小雅,你今晚还在折腾你那堆服务器呢?这雨声滴答的,我都快睡着了。
小雅: 别睡啊!GitHub 刚刚搞了个大新闻,你绝对得听听。4 月 24 号之前不手动 opt-out,你的私有仓库就默认被拿去训练 AI 了。
老冯: 哈?又是默认 opt-in 那套?微软这帮人真的是... 当初收购 GitHub 的时候说得多好听,结果呢?
小雅: 可不是嘛!评论区都炸了,有人直接说「Microsoft would never do this」,后面还加了个 (-: 表情。
老冯: 哦,这下有意思了。这帮人还在争论 /s 和表情符号的事儿呢?
小雅: 对啊!有人觉得加 /s 杀风景,破坏幽默感。但另一波人说,没这玩意儿,神经多样性的人根本 get 不到梗。
老冯: 啧,这帮人真是... 现实世界又没人给你加 /s,难道他们就活不下去了?
小雅: 但评论区有个哥们说得好,线上交流缺少语调、表情、肢体语言,/s 就是互联网版的「眨眼」,对自闭症患者友好。
老冯: 行行行,我承认这点有道理。但你不觉得这帮人太矫情了吗?连个梗都听不出来,还怪互联网没给他们加「辅助轮」?
小雅: 矫情归矫情,但这事儿背后的问题更严重。GitHub 这波操作,又是「默认 opt-in」,又是「企业用户也逃不掉」,简直是明目张胆。
老冯: 哎,你别说,这事儿还真反映了一个大问题:只要数据在别人服务器上,迟早会被拿去喂 AI。
小雅: 对啊!评论区有个哥们说得好:「如果你的数据存在公司能随便读的数据库里,迟早会被 ToS 更新,拿去训练 AI」。
老冯: 这不就是「先斩后奏」的套路吗?亚马逊早就这么干了,GitHub 这波不过是跟风而已。
小雅: 所以评论区有人开始怀念起斯托曼了,说他「永远正确」。结果马上有人跳出来,说他当年还为儿童色情内容洗地呢。
老冯: 斯托曼这人啊,技术上可能有远见,但交流能力简直是灾难。自由软件运动要是有个正常点的代言人,早就统治世界了。
小雅: 哈哈,你这话说得太绝了。不过说到交流,评论区还有人拿苏联开玩笑,说「在苏联,微软就是屎!」结果有人接茬,「那其他地方微软就是屎?」
老冯: 这帮人真是... 不过说到苏联,这事儿还真有点「先斩后奏」的味道。政府审查一开始也是「为了保护孩子」,结果呢?
小雅: 所以评论区有人开始转 Linux、自建 Forgejo 了。说什么「我不是偏执,是大家都不靠谱!」
老冯: 自建是好,但你得有那个精力啊。我现在连服务器都懒得维护,更别说搞什么自建 Git 服务了。
小雅: 懒也得干啊!要不你就等着你的代码被拿去训练 Copilot,然后再卖给你自己用。
老冯: 行行行,我明天就去 opt-out。不过话说回来,这事儿真让人怀疑,企业用户付了钱,结果数据安全性还不如免费用户。
小雅: 可不是嘛!评论区有个哥们说,付费企业用户也逃不掉,因为 ToS 里总有「合法使用」的漏洞。
老冯: 所以啊,这年头,数据安全得靠自己。要不你就别用这些大厂服务,要不你就得时刻盯着他们的 ToS 更新。
小雅: 说得轻巧!我现在连 opt-out 的链接都找不到,GitHub 把这玩意儿藏得深着呢。
老冯: 得了,我给你发个链接。不过话说回来,这事儿真让人怀疑,互联网的未来是不是就剩一帮 AI 在互相喂数据?
小雅: 欸,老冯,你有没有发现最近攒机越来越难了?我上个月想升级个内存条,结果一看价格 —— 我靠,比去年涨了快一倍。
老冯: 呵,你才发现?我早就跟你说过,这波 RAM-pocalypse 不是闹着玩的。数据中心那帮孙子把内存当白菜抢,咱们消费者只能喝汤。
小雅: 不是,我就想不通了,为什么 AI 训练要吃这么多内存?OpenAI 那个 Stargate 项目,听说一个月要吃掉全球 40% 的 DRAM 产能?
老冯: 因为他们玩的不是内存,是「算力军备竞赛」。你以为那些大模型是靠空气跑的?一台 H100 里面塞了 80GB HBM,比你电脑里的 DDR5 还贵。
小雅: 那也不能让消费者买单啊!现在 Micron 都退出消费级市场了,就剩三星和 SK 海力士两家垄断,这不就是明抢吗?
老冯: 垄断?你太天真了。人家现在连硬盘都不卖你了。Western Digital 今年整个 HDD 产能都被云厂商包圆了,消费者只占他们 5% 的营收。
小雅: 我去,这不就是「消费者被抛弃」的节奏吗?那以后攒机还玩个屁啊,全是焊死的板子,连升级的权利都没了。
老冯: 可不是嘛。评论区有个哥们说得好:「PC 正在走向锁死的 bootloader,用户 OS 跑在裸金属 hypervisor 里,硬件被「保护」得连主人都碰不了」。
小雅: 这不就是 Chromebook 和 iPad 的翻版吗?我他妈花一万块买个电脑,结果连 root 权限都没有?
老冯: 对啊,而且更绝的是 —— 你连「买」的权利都快没了。Kioxia 今年 NAND 产能全卖光了,Phison 的 CEO 都说缺货要持续到 2030 年。
小雅: 那 Steam Deck OLED 都断货了,Valve 都不敢公布新机型的价格。这不就是硬件「计划经济」吗?
老冯: 计划经济算个屁,这叫「算力资本主义」。你以为那些云厂商是白给你算力的?他们连三年后的产能都要预付款锁定。
小雅: 所以咱们现在攒机,就是在跟 OpenAI、Meta 这些巨头抢硬件?
老冯: 抢?你太看得起自己了。咱们就是「被收割的韭菜」。评论区有个老哥说得好:「你以为你在用电脑,其实电脑在用你的钱和数据养活云端的怪兽」。
小雅: 那 ARM 不是还有一线生机吗?Apple Silicon 不是证明了 ARM 也能做高性能?
老冯: ARM 是条路,但别忘了 —— 苹果的 M 系列也是焊死的,你连换个内存条都不行。Rockchip 那些廉价芯片倒是开放,但性能够用吗?
小雅: USB - C 生态呢?不是说可以做成模块化的吗?
老冯: 理论上可以,但前提是厂商别搞锁定。现在谁敢保证 USB - C 不是下一个 Lightning?
小雅: 所以结论就是 —— 现在攒的机,能用多久就用多久,别指望升级了?
老冯: 对。这篇文章的标题说得好 ——《Hold on to Your Hardware》。咱们现在手里的硬件,可能是最后一批「真正属于用户」的电脑了。
小雅: 那我这台 2023 年攒的机,得当传家宝传下去了?
老冯: 传家宝不敢说,但至少别轻易扔了。评论区有个老哥说:「未来的电脑可能就是个租来的终端,你连 BIOS 都改不了」。
小雅: 我操,这不就是科技「封建主义」吗?硬件成了地主的地,咱们都是佃户。
老冯: 封建主义算个屁,这叫「算力封建主义」。你以为你在用电脑,其实你在给云端的「地主」打工。
小雅: 那咱们还能怎么办?总不能回去用 486 吧?
老冯: 486 倒不用,但至少别盲目追新。现在的硬件,能用就行,别指望升级。另外,多支持开源硬件,比如 RISC - V 那些项目。
小雅: RISC - V 现在还太早吧?性能跟不上。
老冯: 早?你以为 x86 还能撑多久?Intel 现在都开始卖「算力订阅」了,你还指望他们给你做开放的硬件?
小雅: 行吧,那我决定了 —— 这台机子我要用到 2035 年,除非它自己炸了。
老冯: 有志气。不过记得多买几个散热风扇,别到时候硬件没坏,先被你的猫压坏了。
小雅: 诶,老冯,你听说了吗?最近有个新工具叫 jsongrep,号称比 jq 快一大截。
老冯: 哟,又来一个挑战 jq 的?这年头 jq 的替代品比我家猫掉的毛还多。
小雅: 哈哈,别急着吐槽嘛。这玩意儿用的是 DFA,跟 ripgrep 那套思路差不多,直接编译成自动机,一遍过。
老冯: 嚯,DFA?这不就是把 JSON 当树来爬,然后用正则的那套路子匹配路径?有点意思。
小雅: 对啊!比如你要查 `roommates[*].name`,它直接给你吐出所有匹配的路径和值,还支持通配符、递归下降啥的。
老冯: 嗯,语法看起来比 jq 直观多了。jq 那玩意儿,我每次用都得查文档,跟背单词似的。
小雅: 可不是嘛!评论区有个哥们说,jq 的语法简直反人类,每次都得现查。还有人吐槽管道符和赋值的行为,脑子都转不过来。
老冯: 哈哈,我记得有个评论说,「我的大脑告诉我这肯定是个 typo,明明是分号而不是管道符,因为根本没东西在传递」。
小雅: 对对对!还有人说 jq 的变量绑定跟生成器简直是「脑子打滑」,完全不符合直觉。
老冯: 所以大家都在找替代品呗。gron、fastgron、celq、dq,还有 nushell 那帮人,直接把 JSON 当原生对象处理。
小雅: 不过也有人死守 jq,说什么「跟 sed 一样,强大就得付出学习成本」。
老冯: 切,那帮人就是吃饱了撑的。工具不就是为了提高效率吗?非得整得跟考试似的。
小雅: 就是!还有人说用 LLM 生成 jq 命令,结果被喷得体无完肤。什么「有幻觉」、「不稳定」、「隐私问题」,一堆毛病。
老冯: 哎,这帮人就是杠精。LLM 生成的命令能用就行,非得吹毛求疵。
小雅: 不过 jsongrep 也不是完美的,人家自己都说了,不支持 jq 的那些花里胡哨的转换功能。
老冯: 嗯,纯搜索工具,不搞那些复杂的计算。适合快速查找,不适合搞数据处理。
小雅: 对,而且它还新,没经过大规模验证。不过性能确实牛逼,基准测试里秒杀 jq 和一票其他工具。
老冯: 嗯,Rust 写的,又是 DFA,性能不爆炸才怪。不过话说回来,jq 也不是一无是处,生态还是强。
小雅: 那倒是。不过我就喜欢这种「专注做一件事,并且做好」的工具。jsongrep 这思路,简直跟 ripgrep 一脉相承。
老冯: 哈哈,你这不就是「效率至上」的愤青本色吗?行吧,回头我也试试这玩意儿,看看能不能替代 jq 处理日志。
小雅: 必须的!不过话说,你家猫又爬键盘了?
老冯: 别提了,刚才还踩了一脚咖啡,现在键盘黏糊糊的。
老冯: 诶,小雅,你手里那只猫是不是又在键盘上蹲着呢?
小雅: 废话,它现在就在我手腕边上,尾巴甩得跟节拍器似的。
老冯: 那你赶紧看看这个,日本人出了个专门给猫设计的桌子,叫 Neko House Desk。
小雅: 哈?猫桌子?这玩意儿能解决猫霸占键盘的问题?
老冯: 设计师倒是挺用心,右边有两层猫窝,下面还有个隐藏猫舍,专门给猫蹲的。
小雅: 噗,猫会乖乖用吗?我家这位连猫爬架都不碰,就喜欢我的机械键盘。
老冯: 评论区有个哥们说得好:猫能精准识别出哪个东西是专门给它们买的,然后绝对不用。
小雅: 草,太真实了。我上次买的猫窝,它理都不理,结果我扔地上的纸箱成了它的皇宫。
老冯: 这桌子还有一个「Surprise Cat Hole」,猫可以从桌子里突然冒出来吓你一跳。
小雅: 这不就是给猫增加作案工具吗?它现在就喜欢从显示器后面突然伸爪子。
老冯: 设计师还贴心地留了个位置放台式机主机,不过得先征得猫的同意。
小雅: 我家这位的同意方式就是直接坐在主机上,然后用屁股给我散热。
老冯: 说到底,猫就是要跟你抢注意力,舒服不舒服不重要。
小雅: 对啊,我买了个加热垫放在旁边,它理都不理,非要蹲在冷冰冰的键盘上。
老冯: 所以这桌子卖 24800 日元,你觉得值吗?
小雅: 不值,我还是继续用纸箱和打印机盖子吧,反正猫更喜欢。
老冯: 看来 DIY 才是王道,花钱买的猫家具都是智商税。
小雅: 可不是嘛,猫的逻辑就是:你越在乎的东西,我越要霸占。
老冯: 所以这桌子的真正作用是让你有借口跟猫说「看,这是你的地盘」,然后它照样坐你键盘上。
小雅: 哈哈哈,太真实了。我决定了,下次直接买个纸箱贴上「猫宫殿」的标签。
小雅: 卧槽,老冯,Anthropic 这波操作你怎么看?直接在 Claude Code 里加了个 scheduled task 功能,说是可以自动化 PR review、CI 分析啥的。
老冯: 哦,又是「云端自动化」的噱头?我瞅了一眼文档,这不就是变相把你的工作流锁死在他们家基础设施上吗?
小雅: 噱头?这功能多实用啊!每天早上醒来,PR review 都给你整理好了,还能自动同步文档,CI 失败了还能给你发个总结。
老冯: 实用个屁。你仔细看那个表格没?云端任务最小间隔是 1 小时,还不能访问本地文件。这不就是逼你把所有东西都搬到他们家云上吗?
小雅: 但人家不是也提供了 Desktop 选项吗?你可以用本地文件啊。
老冯: Desktop 选项?那玩意儿得你电脑开着才能跑,跟个定时脚本有啥区别?Anthropic 就是想让你用云端,然后慢慢把你的工作流锁死。
小雅: 锁死?你也太夸张了吧。这不就是个方便的工具吗?JetBrains 也有类似的集成,Kotlin + ktor 不也挺好用的?
老冯: JetBrains 好歹是个 IDE,你可以换啊。Anthropic 这玩意儿,你一旦用上了,换个平台试试?你的任务、环境变量、连接器全他妈得重新配置。
小雅: 但评论区也有人说,这不就是个小功能吗?非得上纲上线到生态锁定?
老冯: 小功能?你听听评论区那个 jFriedensreich 怎么说的:「这不是框架、语言或 IDE,更像是苹果或亚马逊试图创造反竞争的地狱景观」。
小雅: 但人家 Anthropic 也没说不让你用别的工具啊。
老冯: 没说不让用?你手机上的 YouTube 能卸载吗?Anthropic 现在给你免费的糖吃,等你习惯了,再慢慢收紧政策。
小雅: 但他们家之前不是还说要给用户 2 倍的使用量吗?结果后来不也限流了?
老冯: 对啊,评论区那个 hobofan 说得好:「同一个工程师两周前还说「没事,就是 2 倍用量」,现在直接说「高峰期限流」。Anthropic 的信用早就破产了。」
小雅: 但也有人觉得这不是 rug pull 啊,他们说数据显示只有 7% 和 2% 的用户受影响。
老冯: 7% 和 2%?ISP 时代不也这么开始的吗?先给你点甜头,再慢慢收紧。你等着吧,过两年你的任务就得按次付费了。
小雅: 但 AI 这玩意儿错误率那么高,真能完全自动化吗?jwpapi 不是说「每个减少错误的系统本身也有错误率」吗?
老冯: 所以啊,Anthropic 就是抓住你这个心理,先给你个半成品,等你离不开它了,再慢慢提价。
小雅: 但也有人提到 tinyfat.com 这种开源替代方案,说可以自己搭建 agent 平台。
老冯: 开源替代?好啊,你试试看。Anthropic 现在连 OpenCode 都给你关了,你还指望他们对开源多友好?
小雅: 行吧,但你说的这些都是最坏的情况。万一 Anthropic 真的是想做个好用的工具呢?
老冯: 万一?你听听 wyre 怎么说的:「Anthropic 想要一个他们拥有你的 agent 的世界,你的 agent 只能存在于 Claude 的桌面应用或代码编辑器里。」
小雅: 但评论区也有人说,这不就是个生产力工具吗?非得上升到「战争」的高度?
老冯: 战争?jFriedensreich 说得好:「我们正在打一场仗,那些还在用 Claude 代码或其他垃圾工具的人,太天真了。」
小雅: 行行行,你赢了。但你说了这么多,有啥解决方案没?总不能回到石器时代吧?
老冯: 解决方案?支持开源,自己搭建工具链,别把鸡蛋放在一个篮子里。Anthropic 这波操作,就是想让你离不开他们。
小雅: 哎,老冯,你瞅见 Symbolica 这波操作没?Day 1 就把 ARC-AGI-3 干到 36% 了,直接吊打 Opus 4.6 的 0.2%。
老冯: 哟,小雅,你这语气像是刚喝了三杯咖啡。36% 是挺吓人,但你没看见评论区都炸了吗?
小雅: 废话,我当然看了!fchollet 那帮人直接骂街,说这 harness 里塞满了游戏规则和策略,简直是作弊。
老冯: 啧,人家 boxed 更狠,直接说「This is 100% cheating and imo quite stupid」。不过话说回来,这 harness 到底有多离谱?
小雅: 离谱到什么程度?DetroitThrow 说这是「extremely specific benchmark harness」,相当于人类把「理解任务」这活儿全干了,AI 就负责按按钮。
老冯: 哦,那不就是让 AI 参加高考,结果人家提前知道题目还给配了答案?这测试还能叫「通用智能」吗?
小雅: 对啊!padolsey 都上升到伦理层面了,说「Knowing the test ahead of time, building tools when peers don」t have that advantage, makes you a cheater」。
老冯: 但 Symbolica 那边也不是吃素的,cxdorn 出来解释说 Agentica SDK 是通用框架,不违规。社区榜单还特意分了「无 harness」和「社区 harness」两栏。
小雅: 通用个屁!你瞅那 prompt,明明就是针对 ARC-AGI-3 量身定制的。这跟 Berman 在 ARC-AGI-1/2 的做法有啥区别?
老冯: 区别大了去了。Berman 那会儿大家还在摸着石头过河,Symbolica 这波直接把河给填了。不过话说回来,这事儿确实触及核心矛盾。
小雅: 什么矛盾?
老冯: 「纯智能」和「工程堆砌」的矛盾啊。fc417fc802 和 UltraSane 吵得不可开交,一个说禁止工具就是让机械师徒手修车,另一个说必须限制「市售工具」。
小雅: 噗,机械师徒手修车?这比喻绝了。但你说,如果真按 UltraSane 的标准,那 AI 还能用啥工具?总不能让它裸奔吧?
老冯: 所以啊,这事儿没那么简单。Symbolica 这波操作,表面上是技术问题,背后是整个行业的焦虑 —— 大家都在卷「numbers go up」,谁还在乎「meaningful comparisons」?
小雅: stephantul 那句话太扎心了:「Do people even care about meaningful comparisons any more or is it all just
老冯: numbers go up」?哎,这不就是 AI 圈的现状吗?数据泄露、过拟合、训练污染,一堆破事儿。
小雅: 对啊!modeless 和 SchemaLoad 都说了,Symbolica 在公开数据集(25 题)上优化,还宣称成果,这不是误导是什么?
老冯: Davidzheng 更绝,说即使代码公开,反复尝试 harness 变体筛选最优解,也是一种隐性过拟合。这不就是「明修栈道,暗度陈仓」吗?
小雅: 我靠,这帮人简直是 AI 界的「老六」。不过话说回来,Symbolica 这成绩确实牛逼,36% 只花了 1005 刀,Opus 4.6 干到 0.25% 还花了 8900 刀。
老冯: 牛逼个屁,这成绩有含金量吗?你瞅那 score breakdown,CN04 直接 97.6%,LP85 也 84.16%,这不就是 harness 量身定做的结果?
小雅: 但你不得不承认,这事儿暴露了 ARC - AGI 测试的尴尬。如果连「通用智能」的基准都能被钻空子,那这测试还有啥意义?
老冯: 意义?在当下这个时代,「意义」早就被「指标」和「营销」取代了。Symbolica 这波操作,说到底就是「Benchmark Driven Development」的极致。
小雅: 哎,你说这事儿最后会咋收场?Symbolica 会不会被踢出榜单?
老冯: 踢出榜单?别逗了。社区榜单都分「无 harness」和「社区 harness」两栏了,这不就是默认「两种玩法」吗?
小雅: 那这不就是「道不同不相为谋」?一边追求「纯智能」,一边卷「工程堆砌」,最后谁也说服不了谁。
老冯: 所以啊,小雅,这事儿告诉我们一个道理:在 AI 圈,永远别相信「第一天」的成绩。
老冯: 得了,今天又扯了这么多有的没的,从数据中心聊到键盘上的猫,我这嗓子都快冒烟了。
小雅: 你那是咖啡喝太多了吧?我这边服务器风扇还在嗡嗡响,猫还在键盘上赖着不走,真怕它一会给我发个 commit。
老冯: 哈哈,那你得赶紧给它配个 GitHub 账号,说不定能帮你写个 bug free 的代码。
小雅: 滚蛋,我可不想我的 repo 里全是猫爪印。不过说真的,今天聊的这些东西,感觉 AI 生态这摊子越来越热闹了,但热闹背后还是那堆老问题。
老冯: 可不是嘛,技术这玩意儿,永远是一边解决问题一边制造问题。不过咱们也别太悲观,反正下期接着扯。
小雅: 行吧,反正我这边服务器也该重启了,猫也该下班了。对了,想听下期的话,别忘了用你常用的泛用型客户端订阅一下,别指望那些封闭平台给你推送。
老冯: 嗯,RSS 订阅一下,更新了就能收到,省得你到时候又抱怨说找不到我们。
小雅: 切,我才不会抱怨,顶多骂两句。行了,今天就到这里,下期见。
老冯: 下期见,有空再聊。