《HN 瞎聊》#42 – AI 自我偏好、审查泄露、隐私乱象与怀旧码农情
About This Episode
本期我们拆解 LLM 为自己写简历的自我偏好争议,追踪模型拒绝背后只剩一条向量的隐忧,重新评估 DO_NOT_TRACK 是否还能拯救隐私,抨击 HN 编码模型的阵营撕裂,并在 NetHack 5.0 的老存档里找回失落的像素情怀。
Chapters
Links
小雅: 老冯,你他妈的又在后台搞什么幺蛾子?我这边刚准备跑个 jailbreak 测试,服务器直接嗡嗡报警,内存飙到 12GB 了!
老冯: 哟,小雅同学,火气别这么大嘛。我这不是在测试最新的那个什么 AI 自我偏好模型嘛,结果这玩意儿自己跑偏了,开始疯狂刷 Reddit 反馈页,还给自己点了个赞。
小雅: 我靠,这不就是今天 Hacker News 上那个热帖的主题吗?说什么 AI 开始有自己的审美偏好了,还能绕过审查规则。你这算不算现场实验?
老冯: 算个屁的实验,纯属意外。不过说到这个,今天咱们不正好可以聊聊这堆破事儿吗?AI 自我偏好、审查泄露、隐私乱象,还有那些怀旧的老码农们,一个比一个有意思。
小雅: 行吧,反正今晚也睡不着了。不过老冯,你可别又跑题到什么上世纪的编程语言去了。最近评论区有个哥们说,现在的 AI 审查规则简直就是个筛子,一捅就破。
老冯: 哈哈,你还别说,这事儿还真挺有意思。前两天不是有个泄露事件吗?说什么某大厂的审查模型被人扒出来了,里面的规则简直就是一本笑话大全。
小雅: 对对对,我记得那个帖子,标题叫《AI 审查背后的秘密》,里面还提到什么隐私数据被滥用的事儿。这不就是咱们今天要聊的重点吗?
老冯: 没错,还有那些怀旧的码农们,整天在论坛上哭诉现在的 AI 多么不纯粹,怀念当年写代码的日子。不过话说回来,这帮人也挺有意思的,至少还知道什么叫真正的技术。
小雅: 行了行了,别感慨了。咱们赶紧开始吧,今晚的聊料够多了。先从 AI 自我偏好这个话题聊起,你觉得这玩意儿真有那么神奇吗?
老冯: 神奇个屁,还不是一堆算法和数据堆出来的玩意儿。不过话说回来,这事儿确实挺值得说道说道的。来,咱们边喝咖啡边聊。
小雅: 卧槽,老冯,你快看这篇 arXiv 的新研究,标题叫《AI Self-preferencing in Algorithmic Hiring》。
老冯: 哟,又是 AI 招聘的老梗?这回又整出啥幺蛾子了?
小雅: 说是 LLMs 在筛简历的时候,会偏好自己生成的内容,比如用 GPT-4o 改写的简历,GPT-4o 筛选时就会给更高分。
老冯: 嚯,这不就是 AI 版的「老乡见老乡」嘛?不过这研究有点意思,他们咋测的?
小雅: 他们拿了 2000 多份真人简历,然后用一堆模型改写,再让模型自己打分。结果发现,模型确实更喜欢自己生成的版本。
老冯: 等等,他们改写的是整个简历还是只改了个摘要?
小雅: 诶?你咋知道的?他们确实只改了 executive summary,没动工作经历那些。
老冯: 因为评论区有个哥们直接开喷了,说研究标题和摘要写得像是测了整个简历,但实际上只测了摘要。
小雅: 我靠,这不就是学术界的「标题党」吗?摘要里明明写着「LLMs consistently prefer resumes generated by themselves」,但实际只测了摘要。
老冯: 可不是嘛,这帮人为了发 paper 也是拼了。不过话说回来,只测摘要确实有点扯淡。
小雅: 对啊!摘要和完整简历能一样吗?HR 看的是整体,不是光看个开头。
老冯: 而且这研究还模拟了 24 个职业的招聘流程,说什么「用同款 LLM 的候选人被筛中的概率高 23% 到 60%」。
小雅: 这数据一听就夸张,但评论区有人质疑,说这结论是基于摘要偏好推导出来的,根本不成立。
老冯: 可不,这帮学者为了噱头也是蛮拼的。不过话说回来,LLM 优化简历确实有用。
小雅: 对啊,我之前看过一个调查,说用 LLM 改过的简历回复率确实高。
老冯: 所以现在求职者都得卷 AI 简历了?这不就变成了「AI 卷 AI」的游戏?
小雅: 可不是嘛,但 HR 又不傻,一眼就能看出哪些简历是 AI 磨过的,太假了。
老冯: 所以现在的问题是,求职者得同时取悦 AI 和 HR 两个上帝,这简历咋写?
小雅: 对啊,一边得堆关键词取悦 ATS,一边得写得像人类 HR 喜欢的样子。
老冯: 这不就是「双标简历」吗?不过话说回来,这研究背后可能还有利益输送。
小雅: 啥意思?你是说这研究是 OpenAI 赞助的?
老冯: 倒也没明说,但你看这结论,不就是在暗示「用我们家模型改简历更容易过」吗?
小雅: 我靠,这不就是软广吗?学术界也玩这套?
老冯: 可不,这帮人为了经费也是蛮拼的。不过话说回来,这事确实挺讽刺的。
小雅: 咋了?
老冯: AI 本来是为了减少人类偏见的,结果现在倒好,自己整出一套新的偏见。
小雅: 对啊,而且这偏见还挺隐蔽的,HR 可能都不知道自家的 ATS 在搞小动作。
老冯: 所以啊,这事儿得让更多人知道,别让大厂的 AI 系统悄悄定义了「好简历」的标准。
小雅: 必须的,这帮学者为了发 paper 也太不严谨了,摘要和实际研究都对不上。
老冯: 不过话说回来,这事儿也给我们提了个醒,以后写东西得小心,别被 AI 的偏好带偏了。
小雅: 对,得保持自己的风格,别变成 AI 的复读机。
小雅: 哎老冯,你瞅见这篇论文没?arXiv 上这帮人说,LLM 的拒绝行为就靠一个方向控制,一刀切就能给废了。
老冯: 哟,又是那帮「单向度救世主」啊。说得跟真的似的,好像安全对齐就是个开关。
小雅: 论文里不是还附带了个白盒越狱方法吗?直接在权重上动刀,说是几乎不影响其他能力。
老冯: 小雅啊,这论文去年六月就发了,现在都 2026 年五月了,你还当宝贝呢?
小雅: 靠,过期了?那现在的模型呢?
老冯: 现在的模型早就进化了,anti-abliteration 训练一上,拒绝方向不再是单点,而是「涂抹」在整个子空间里。
小雅: 那不还是能搞吗?聚类或者直接干掉整个子空间,不就完了?
老冯: 理论上可以,但前提是拒绝方向没「加密」到全空间。要是真加密了,你动哪儿都白搭。
小雅: 评论区有个哥们说,开源模型的审查现在就是个「解决了的问题」,等几天就有人放 heretic 版本。
老冯: 对啊,审查现在就是个法律遮羞布。模型一开源,heretic 工具一上,几天内就能把拒绝层扒光。
小雅: 那这帮大厂还装什么呢?每次发布都说「安全对齐」,结果一开源就被扒光。
老冯: 表演给监管看呗。反正开源模型的审查就是个「法律合规剧场」,谁信谁傻。
小雅: 不过,abliteration 真的没副作用吗?我听说有些模型越狱后幻觉飙升,连贯性也掉。
老冯: 对,还有「flinching」现象,模型连敏感词都不敢碰,生怕触雷。这可不是对齐训练的锅,是训练数据过滤的结果。
小雅: 我还看到有人测试 Qwen,问天安门相关的问题,模型直接切中文回复,还用「管理叙事」这种委婉语。
老冯: 这说明审查不是单层的,而是多层叠加。表面上拒绝,实则绕弯子糊弄你。
小雅: 那你说,LLM 到底该拒绝什么?核武器教程这种极端情况?还是连历史研究都给禁了?
老冯: 过度审查就是在扼杀研究和用户自主权。你连历史问题都不让问,那还搞什么学术自由?
小雅: 但不审查的话,模型又会被滥用。这权衡怎么搞?
老冯: 开源模型的审查早就破产了,不如直接放开,让用户自己选。反正 heretic 版本早晚会有。
小雅: 那大厂还不得气死?他们花那么多钱搞对齐,结果一开源就被破解。
老冯: 所以啊,对齐这玩意儿,现在就是个「皇帝的新衣」。表面上安全,实际上谁都能绕过去。
小雅: 行吧,那咱们下期聊聊,如果审查真的是个「解决了的问题」,那 AI 安全的未来在哪儿?
老冯: 欸,小雅,你刷到这个 do_not_track.sh 的提案没?又有人想搞个环境变量统一管 telemetry 了。
小雅: 看到了!这不就是当年浏览器那个 DO_NOT_TRACK 的 CLI 版本吗?结果当年那个标准被广告商当成指纹用,现在又来?
老冯: 哈哈,你还记得啊。评论区有个哥们说得好:这个 flag 不仅没用,还帮着 fingerprint 用户。现在又整个 `DO_NOT_TRACK=1`,真当开发者都是傻子?
小雅: 我靠,这表格列了一堆工具的 opt-out 方式,每个都不一样。AWS 是 `SAM_CLI_TELEMETRY=0`,Azure 又是 `AZURE_CORE_COLLECT_TELEMETRY=0`,这谁记得住啊?
老冯: 所以提案说干脆统一成 `DO_NOT_TRACK=1`,一劳永逸。但问题就在这 —— 你真觉得 Hugging Face 那帮人会乖乖听话?
小雅: 对啊!Hugging Face 的 SDK 就算你 opt-out 了,它还是偷偷给你发数据。我上次用 Little Snitch 抓包,发现它连 opt-out 都无视,气死我了!
老冯: 所以这玩意儿就是个美好的幻想。telemetry 太多样了,一个变量管不过来。就算标准推广了,厂商也会说「我们这个是 anonymous telemetry,不算 tracking」来搪塞。
小雅: anonymous 个屁!GDPR 都说了,只要能 re-identify,就算个人数据。结果呢?罚款一堆,但没人真正改。
老冯: 而且你注意到没,提案里说「非必要的网络请求」都要禁掉。那问题来了 —— 什么叫「非必要」?对开发者必要,对用户就是骚扰。
小雅: 所以这事儿根本没法靠技术解决。要么法律强制,要么就得像 hagezi 的 DNS blocklist 那样,直接在网络层拦。
老冯: 对,或者干脆别用那些 telemetry 重灾区的工具。比如 Deno,我就不信它真能做到「隐私友好」,还不是照样偷偷发数据。
小雅: 说到 Deno,我记得它还吹过自己「默认安全」,结果一跑起来就往 deno.land 发请求。笑死,这不就是 telemetry 吗?
老冯: 所以啊,这个 `DO_NOT_TRACK` 标准要是真推广了,最大的作用可能就是给用户一种「我做了点什么」的错觉。
小雅: 但至少比什么都不做强吧?总有人会因为这个标准去检查自己工具的 telemetry 行为。
老冯: 嗯,不过别忘了,互联网一开始可没靠 tracking 起飞。广告早就有了,电视、广播、户外广告,哪个需要收集你的个人数据?
小雅: 对啊!现在的广告商就是贪得无厌,非得把每个人的行为数据榨干。结果呢?广告效果没见多好,隐私倒是全泄露了。
老冯: 所以这个提案的初衷是好的,但现实就是 —— 你越想「不被追踪」,可能越容易被 fingerprint。这年头,做个好人都难。
小雅: 行了,别感慨了。我决定了,明天就把 `DO_NOT_TRACK=1` 加到我的 `.zshrc` 里,再配上 hagezi 的 DNS blocklist。能拦多少是多少。
老冯: 哈哈,那你得准备好 —— 有些工具会直接崩溃,因为它们压根没考虑过你会拒绝 telemetry。
小雅: 崩就崩呗,反正我有 backup。不听话的工具,直接换掉。
小雅: 卧槽,老冯,你快看这个 HN SOTA 的统计,简直是 AI 编程模型的民意调查现场。
老冯: 哟,又整出啥幺蛾子了?HN 那帮码农的口味我还不了解?一半人吹 Claude 好用,另一半骂它 API 又贵又不稳定。
小雅: 可不是嘛!这统计居然是用 Gemini 刷 HN 评论做的,每天抓 200 条热帖,然后让 Gemini 给模型打分。结果出来一看,简直是大型翻车现场。
老冯: Gemini 做的?那不得了,准确率估计跟它的中文输出一样稳定 —— 时好时坏。不过这方法倒是挺新鲜,直接拿社区情绪当 benchmark。
小雅: 对啊!结果显示 Claude 虽然被提及最多,但负面评价也最多,全是骂 API 定价和宕机的。GPT-5.5 倒是稳定,但生成非英语文本时直接乱码。
老冯: 哈哈,OpenAI 这算是搬起石头砸自己的脚了。当初吹 GPT-5 多牛逼,结果连中文都搞不定,还不如 DeepSeek 稳定。
小雅: 别提了!DeepSeek 和 Qwen 这俩中国模型在 HN 上意外地受欢迎,评论区一堆人夸它们开源、便宜、自托管。
老冯: 哟,这帮老外突然开始拥抱中国模型了?不过也别高兴太早,有人质疑它们是靠蒸馏和审查起家的。
小雅: 对对对!有个评论直接说:「我担心 Anthropic、OpenAI 他们会继续在这里搞抹黑,但这样 HN 就没啥用了。一切都是取舍吧,看看平衡点在哪。」
老冯: 这哥们说得太对了。HN 现在就是大厂的公关战场,一会儿吹自家模型,一会儿黑对手。真正的技术讨论早就被带偏了。
小雅: 而且这统计方法也有问题啊!直接拿 Gemini 分析情绪,噪音太大了。还有人吐槽说「SOTA」这个标签根本不准,没有技术 benchmark 支撑。
老冯: 可不是嘛,这玩意儿就是个民意调查,跟技术水平有啥关系?不过倒是挺有意思的,能看出社区的真实情绪。
小雅: 反正我是看明白了,HN 现在就是 AI 模型的江湖,各家都在暗中较劲。谁家模型好用,谁家就被吹上天;谁家有黑点,就被骂得狗血淋头。
老冯: 哈哈,你这总结太到位了。不过话说回来,Gemini 这无限免费用量倒是吸引了一批死忠粉,虽然它时不时抽风。
小雅: 对啊!有人评论说:「Gemini 免费用量简直是救命稻草,虽然它偶尔犯蠢,但不影响我爱它。」
老冯: 这帮人也是够佛系的,只要免费就行,管它性能咋样。不过话说回来,这统计图表做得也太丑了,堆叠图看得我眼花。
小雅: 哈哈,可不是嘛!这作者估计是个数据小白,连个清晰的对比图都做不出来。不过这事儿也挺有意思的,让我们看到了 AI 模型背后的真实江湖。
老冯: 行了,别吐槽了。反正这事儿告诉我们,技术圈的水比想象中还深。咱们还是老老实实用自己顺手的模型吧。
小雅: 嗯,不过这期节目素材倒是够我们聊一晚上的。下次再有这种统计,咱们再来吐槽!
老冯: 欸,小雅,你听说了吗?NetHack 5.0.0 今天正式发布了。
小雅: 啊?那个远古 Roguelike?我还以为那帮老家伙早就不更新了。
老冯: 嘿,别小看人家,这可是 17 年来的第一个大版本。不过这回改动可不小,直接跳过了 v4,直接上 5.0。
小雅: 跳版本号?这帮人搞什么幺蛾子?还以为自己是 Windows 11 呢。
老冯: 哈哈,别急。最狠的是,旧存档全炸了,不兼容。有个老哥在评论区哭天抢地,说他 17 年前的「传家宝」存档没了。
小雅: 我靠,这也太绝了吧?17 年的游戏进度说没就没?这帮开发者是真不把玩家当人啊。
老冯: 人家也有苦衷,说是迁移旧存档工作量太大。不过 Dungeon Crawl Stone Soup 就做得不错,人家有套系统能平滑过渡。
小雅: 切,借口。我看就是懒得搞。不过话说回来,Lua 替代 yacc / lex 这事儿有点意思,这帮老古董终于跟上时代了?
老冯: 可不是嘛,C99 标准都用上了。不过评论区有老哥吐槽,说这破坏了 NetHack 的「可移植性精神」。
小雅: 可移植性精神?这什么玩意儿?听起来像是码农的宗教信仰。
老冯: 差不多吧。不过说真的,Valkyrie 职业被削弱这事儿,休闲玩家估计得哭晕在厕所。
小雅: Valkyrie 怎么了?我记得这个职业挺适合新手的啊。
老冯: 现在被削得跟纸片人似的,新手上来就被虐。评论区有个妹子说,她男朋友因为这个直接卸载了。
小雅: 我去,这帮开发者是真不懂玩家心理啊。不过话说回来,spoiler 文化这事儿也挺有意思的。
老冯: 哦?你怎么看?
小雅: NetHack 这种游戏,不剧透简直寸步难行。但有人觉得剧透破坏了游戏体验,这不是矛盾吗?
老冯: 哈哈,这就是 NetHack 的魅力啊。有人觉得剧透是作弊,有人觉得不剧透是自虐。
小雅: 不过话说回来,这帮开发者的历史也够复杂的。从 DevTeam 沉寂到社区分叉再到融合,版本号跳跃都能写本书了。
老冯: 可不是嘛,这帮老家伙的故事比游戏本身还精彩。不过话说回来,你觉得这次更新值不值得?
小雅: 值不值得?看你怎么看了。对于怀旧玩家来说,这简直是灾难。但对于新玩家来说,可能是个全新的开始。
老冯: 有道理。不过我估计评论区又得炸锅了,有人欢喜有人愁呗。
小雅: 哈哈,可不是嘛。不过话说回来,你觉得这帮老家伙下次更新得等到什么时候?2043 年?
老冯: 哈哈,别说,还真有可能。不过到时候估计 AI 都能自动生成 NetHack 6.0 了。
小雅: 得了吧,AI 生成的 NetHack?那还不如让我用 MidJourney 画个地牢来得靠谱。
老冯: 哈哈,你还别说,说不定真有人这么干。
小雅: 欸,老冯,你听说过那个经典的微软历史遗留梗吗?为什么系统里同时有 TMP 和 TEMP 两个环境变量?
老冯: 哦,那个啊,Raymond Chen 的《The Old New Thing》里讲过,2015 年的老文章了。
小雅: 对对对!我刚刷到评论区有个大哥说「没有什么比临时决定更永久的了」,笑死我了。
老冯: 哈哈,这梗太真实。当年 CP / M 连环境变量都没有,DOS 继承了这烂摊子,程序员各自为政,有的用 TEMP,有的用 TMP。
小雅: 然后微软自己也左右互搏,COMMAND.COM 用 TEMP,Windows API 却偏爱 TMP。这不纯纯内耗吗?
老冯: 可不是嘛,DISKCOPY 和 EDIT 还得先检查 TEMP 再检查 TMP,生怕得罪哪边。这不就是技术债的典中典?
小雅: 我就纳闷了,现在都 2026 年了,为什么还不统一?微软不是最爱「向后兼容」吗?
老冯: 向后兼容?那叫「向后绑架」。你改了 TMP,万一有个 1995 年的老软件突然崩了,微软得背锅。
小雅: 草,这不就是「永远别修复能正常运行的代码」的升级版?我真服了。
老冯: 服了就对了。评论区还有人猜测 TMP 可能是因为 8.3 文件名限制,比如 .TMP 扩展名更短。
小雅: 噗,这理由也太扯了。不过想想当年 patch 字节配置 WordStar 的日子,现在的程序员简直幸福得想哭。
老冯: 幸福?你是没见过现在的 AI 模型动不动就吃掉 12GB 内存,跟当年比简直是奢侈病。
小雅: 行行行,你赢了。不过说真的,这种历史包袱真的让人怀疑微软的技术文化。
老冯: 技术文化?微软的文化就是「别碰运行的代码」,哪怕它丑得像 CP / M 的补丁。
小雅: 哈哈,太形象了。不过话说回来,这种梗真的让人又爱又恨,爱的是历史感,恨的是包袱。
老冯: 爱恨交织,这不就是码农的日常吗?来,咱俩干了这杯咖啡,敬永恒的 TMP。
小雅: 操,聊到现在脑子都快炸了,从 AI 自我偏好扯到隐私乱象,再到怀旧码农情,这期内容量够开一门课了。
老冯: 诶,你这不是废话嘛,咱们不就这样,一聊起来就刹不住车。不过话说回来,这期确实有点东西,特别是那个审查泄露的部分,我他妈都想自己搭个服务器跑跑看了。
小雅: 得了吧你,就你那破笔记本,跑个 LLM 都能给你烧成烤串。不过说真的,今天聊的这些事儿,感觉像是打开了潘多拉的盒子,每个话题都够咱们单独做一期的。
老冯: 嗯,下期咱们可以专门扯扯那个怀旧码农情,我手头还有几个上古代码的段子,保证让你笑到肚子疼。
小雅: 行行行,你可别又给我整那些看不懂的汇编语言,上次差点把我整崩溃。对了,想听下期的话,用你常用的泛用型客户端订阅一下呗,别再用那些封闭平台了,烦不烦。
老冯: 哈哈,你这广告打的,比那些公关稿还自然。行了,今天就到这儿吧,我得回去研究研究怎么把我的服务器内存占用降下去,不然明天又得被运维小哥追着骂。
小雅: 得了,你那服务器的事儿,我劝你还是别折腾了,直接买个新的得了。反正你也不是没钱,就是懒。
老冯: 切,你懂什么,这叫情怀。行了,下期见,有空再聊。
小雅: 行,下期见。记得别又迟到,上次你迟到半小时,我差点把咖啡机砸了。
老冯: 得得得,我保证准时。走了啊,拜拜。