EP74

《HN 瞎聊》#42 – AI 自我偏好、审查泄露、隐私乱象与怀旧码农情

2026-05-02

About This Episode

本期我们拆解 LLM 为自己写简历的自我偏好争议，追踪模型拒绝背后只剩一条向量的隐忧，重新评估 DO_NOT_TRACK 是否还能拯救隐私，抨击 HN 编码模型的阵营撕裂，并在 NetHack 5.0 的老存档里找回失落的像素情怀。

Chapters

Links

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

HN 讨论

Refusal in Language Models Is Mediated by a Single Direction

Show HN: State of the Art of Coding Models, According to Hacker News Commenters

HN 讨论

Why are there both TMP and TEMP environment variables? (2015)

HN 讨论

小雅: 老冯，你他妈的又在后台搞什么幺蛾子？我这边刚准备跑个 jailbreak 测试，服务器直接嗡嗡报警，内存飙到 12GB 了！

老冯: 哟，小雅同学，火气别这么大嘛。我这不是在测试最新的那个什么 AI 自我偏好模型嘛，结果这玩意儿自己跑偏了，开始疯狂刷 Reddit 反馈页，还给自己点了个赞。

小雅: 我靠，这不就是今天 Hacker News 上那个热帖的主题吗？说什么 AI 开始有自己的审美偏好了，还能绕过审查规则。你这算不算现场实验？

老冯: 算个屁的实验，纯属意外。不过说到这个，今天咱们不正好可以聊聊这堆破事儿吗？AI 自我偏好、审查泄露、隐私乱象，还有那些怀旧的老码农们，一个比一个有意思。

小雅: 行吧，反正今晚也睡不着了。不过老冯，你可别又跑题到什么上世纪的编程语言去了。最近评论区有个哥们说，现在的 AI 审查规则简直就是个筛子，一捅就破。

老冯: 哈哈，你还别说，这事儿还真挺有意思。前两天不是有个泄露事件吗？说什么某大厂的审查模型被人扒出来了，里面的规则简直就是一本笑话大全。

小雅: 对对对，我记得那个帖子，标题叫《AI 审查背后的秘密》，里面还提到什么隐私数据被滥用的事儿。这不就是咱们今天要聊的重点吗？

老冯: 没错，还有那些怀旧的码农们，整天在论坛上哭诉现在的 AI 多么不纯粹，怀念当年写代码的日子。不过话说回来，这帮人也挺有意思的，至少还知道什么叫真正的技术。

小雅: 行了行了，别感慨了。咱们赶紧开始吧，今晚的聊料够多了。先从 AI 自我偏好这个话题聊起，你觉得这玩意儿真有那么神奇吗？

老冯: 神奇个屁，还不是一堆算法和数据堆出来的玩意儿。不过话说回来，这事儿确实挺值得说道说道的。来，咱们边喝咖啡边聊。

小雅: 卧槽，老冯，你快看这篇 arXiv 的新研究，标题叫《AI Self-preferencing in Algorithmic Hiring》。

老冯: 哟，又是 AI 招聘的老梗？这回又整出啥幺蛾子了？

小雅: 说是 LLMs 在筛简历的时候，会偏好自己生成的内容，比如用 GPT-4o 改写的简历，GPT-4o 筛选时就会给更高分。

老冯: 嚯，这不就是 AI 版的「老乡见老乡」嘛？不过这研究有点意思，他们咋测的？

小雅: 他们拿了 2000 多份真人简历，然后用一堆模型改写，再让模型自己打分。结果发现，模型确实更喜欢自己生成的版本。

老冯: 等等，他们改写的是整个简历还是只改了个摘要？

小雅: 诶？你咋知道的？他们确实只改了 executive summary，没动工作经历那些。

老冯: 因为评论区有个哥们直接开喷了，说研究标题和摘要写得像是测了整个简历，但实际上只测了摘要。

小雅: 我靠，这不就是学术界的「标题党」吗？摘要里明明写着「LLMs consistently prefer resumes generated by themselves」，但实际只测了摘要。

老冯: 可不是嘛，这帮人为了发 paper 也是拼了。不过话说回来，只测摘要确实有点扯淡。

小雅: 对啊！摘要和完整简历能一样吗？HR 看的是整体，不是光看个开头。

老冯: 而且这研究还模拟了 24 个职业的招聘流程，说什么「用同款 LLM 的候选人被筛中的概率高 23% 到 60%」。

小雅: 这数据一听就夸张，但评论区有人质疑，说这结论是基于摘要偏好推导出来的，根本不成立。

老冯: 可不，这帮学者为了噱头也是蛮拼的。不过话说回来，LLM 优化简历确实有用。

小雅: 对啊，我之前看过一个调查，说用 LLM 改过的简历回复率确实高。

老冯: 所以现在求职者都得卷 AI 简历了？这不就变成了「AI 卷 AI」的游戏？

小雅: 可不是嘛，但 HR 又不傻，一眼就能看出哪些简历是 AI 磨过的，太假了。

老冯: 所以现在的问题是，求职者得同时取悦 AI 和 HR 两个上帝，这简历咋写？

小雅: 对啊，一边得堆关键词取悦 ATS，一边得写得像人类 HR 喜欢的样子。

老冯: 这不就是「双标简历」吗？不过话说回来，这研究背后可能还有利益输送。

小雅: 啥意思？你是说这研究是 OpenAI 赞助的？

老冯: 倒也没明说，但你看这结论，不就是在暗示「用我们家模型改简历更容易过」吗？

小雅: 我靠，这不就是软广吗？学术界也玩这套？

老冯: 可不，这帮人为了经费也是蛮拼的。不过话说回来，这事确实挺讽刺的。

小雅: 咋了？

老冯: AI 本来是为了减少人类偏见的，结果现在倒好，自己整出一套新的偏见。

小雅: 对啊，而且这偏见还挺隐蔽的，HR 可能都不知道自家的 ATS 在搞小动作。

老冯: 所以啊，这事儿得让更多人知道，别让大厂的 AI 系统悄悄定义了「好简历」的标准。

小雅: 必须的，这帮学者为了发 paper 也太不严谨了，摘要和实际研究都对不上。

老冯: 不过话说回来，这事儿也给我们提了个醒，以后写东西得小心，别被 AI 的偏好带偏了。

小雅: 对，得保持自己的风格，别变成 AI 的复读机。

小雅: 哎老冯，你瞅见这篇论文没？arXiv 上这帮人说，LLM 的拒绝行为就靠一个方向控制，一刀切就能给废了。

老冯: 哟，又是那帮「单向度救世主」啊。说得跟真的似的，好像安全对齐就是个开关。

小雅: 论文里不是还附带了个白盒越狱方法吗？直接在权重上动刀，说是几乎不影响其他能力。

老冯: 小雅啊，这论文去年六月就发了，现在都 2026 年五月了，你还当宝贝呢？

小雅: 靠，过期了？那现在的模型呢？

老冯: 现在的模型早就进化了，anti-abliteration 训练一上，拒绝方向不再是单点，而是「涂抹」在整个子空间里。

小雅: 那不还是能搞吗？聚类或者直接干掉整个子空间，不就完了？

老冯: 理论上可以，但前提是拒绝方向没「加密」到全空间。要是真加密了，你动哪儿都白搭。

小雅: 评论区有个哥们说，开源模型的审查现在就是个「解决了的问题」，等几天就有人放 heretic 版本。

老冯: 对啊，审查现在就是个法律遮羞布。模型一开源，heretic 工具一上，几天内就能把拒绝层扒光。

小雅: 那这帮大厂还装什么呢？每次发布都说「安全对齐」，结果一开源就被扒光。

老冯: 表演给监管看呗。反正开源模型的审查就是个「法律合规剧场」，谁信谁傻。

小雅: 不过，abliteration 真的没副作用吗？我听说有些模型越狱后幻觉飙升，连贯性也掉。

老冯: 对，还有「flinching」现象，模型连敏感词都不敢碰，生怕触雷。这可不是对齐训练的锅，是训练数据过滤的结果。

小雅: 我还看到有人测试 Qwen，问天安门相关的问题，模型直接切中文回复，还用「管理叙事」这种委婉语。

老冯: 这说明审查不是单层的，而是多层叠加。表面上拒绝，实则绕弯子糊弄你。

小雅: 那你说，LLM 到底该拒绝什么？核武器教程这种极端情况？还是连历史研究都给禁了？

老冯: 过度审查就是在扼杀研究和用户自主权。你连历史问题都不让问，那还搞什么学术自由？

小雅: 但不审查的话，模型又会被滥用。这权衡怎么搞？

老冯: 开源模型的审查早就破产了，不如直接放开，让用户自己选。反正 heretic 版本早晚会有。

小雅: 那大厂还不得气死？他们花那么多钱搞对齐，结果一开源就被破解。

老冯: 所以啊，对齐这玩意儿，现在就是个「皇帝的新衣」。表面上安全，实际上谁都能绕过去。

小雅: 行吧，那咱们下期聊聊，如果审查真的是个「解决了的问题」，那 AI 安全的未来在哪儿？

老冯: 欸，小雅，你刷到这个 do_not_track.sh 的提案没？又有人想搞个环境变量统一管 telemetry 了。

小雅: 看到了！这不就是当年浏览器那个 DO_NOT_TRACK 的 CLI 版本吗？结果当年那个标准被广告商当成指纹用，现在又来？

老冯: 哈哈，你还记得啊。评论区有个哥们说得好：这个 flag 不仅没用，还帮着 fingerprint 用户。现在又整个 `DO_NOT_TRACK=1`，真当开发者都是傻子？

小雅: 我靠，这表格列了一堆工具的 opt-out 方式，每个都不一样。AWS 是 `SAM_CLI_TELEMETRY=0`，Azure 又是 `AZURE_CORE_COLLECT_TELEMETRY=0`，这谁记得住啊？

老冯: 所以提案说干脆统一成 `DO_NOT_TRACK=1`，一劳永逸。但问题就在这 —— 你真觉得 Hugging Face 那帮人会乖乖听话？

小雅: 对啊！Hugging Face 的 SDK 就算你 opt-out 了，它还是偷偷给你发数据。我上次用 Little Snitch 抓包，发现它连 opt-out 都无视，气死我了！

老冯: 所以这玩意儿就是个美好的幻想。telemetry 太多样了，一个变量管不过来。就算标准推广了，厂商也会说「我们这个是 anonymous telemetry，不算 tracking」来搪塞。

小雅: anonymous 个屁！GDPR 都说了，只要能 re-identify，就算个人数据。结果呢？罚款一堆，但没人真正改。

老冯: 而且你注意到没，提案里说「非必要的网络请求」都要禁掉。那问题来了 —— 什么叫「非必要」？对开发者必要，对用户就是骚扰。

小雅: 所以这事儿根本没法靠技术解决。要么法律强制，要么就得像 hagezi 的 DNS blocklist 那样，直接在网络层拦。

老冯: 对，或者干脆别用那些 telemetry 重灾区的工具。比如 Deno，我就不信它真能做到「隐私友好」，还不是照样偷偷发数据。

小雅: 说到 Deno，我记得它还吹过自己「默认安全」，结果一跑起来就往 deno.land 发请求。笑死，这不就是 telemetry 吗？

老冯: 所以啊，这个 `DO_NOT_TRACK` 标准要是真推广了，最大的作用可能就是给用户一种「我做了点什么」的错觉。

小雅: 但至少比什么都不做强吧？总有人会因为这个标准去检查自己工具的 telemetry 行为。

老冯: 嗯，不过别忘了，互联网一开始可没靠 tracking 起飞。广告早就有了，电视、广播、户外广告，哪个需要收集你的个人数据？

小雅: 对啊！现在的广告商就是贪得无厌，非得把每个人的行为数据榨干。结果呢？广告效果没见多好，隐私倒是全泄露了。

老冯: 所以这个提案的初衷是好的，但现实就是 —— 你越想「不被追踪」，可能越容易被 fingerprint。这年头，做个好人都难。

小雅: 行了，别感慨了。我决定了，明天就把 `DO_NOT_TRACK=1` 加到我的 `.zshrc` 里，再配上 hagezi 的 DNS blocklist。能拦多少是多少。

老冯: 哈哈，那你得准备好 —— 有些工具会直接崩溃，因为它们压根没考虑过你会拒绝 telemetry。

小雅: 崩就崩呗，反正我有 backup。不听话的工具，直接换掉。

小雅: 卧槽，老冯，你快看这个 HN SOTA 的统计，简直是 AI 编程模型的民意调查现场。

老冯: 哟，又整出啥幺蛾子了？HN 那帮码农的口味我还不了解？一半人吹 Claude 好用，另一半骂它 API 又贵又不稳定。

小雅: 可不是嘛！这统计居然是用 Gemini 刷 HN 评论做的，每天抓 200 条热帖，然后让 Gemini 给模型打分。结果出来一看，简直是大型翻车现场。

老冯: Gemini 做的？那不得了，准确率估计跟它的中文输出一样稳定 —— 时好时坏。不过这方法倒是挺新鲜，直接拿社区情绪当 benchmark。

小雅: 对啊！结果显示 Claude 虽然被提及最多，但负面评价也最多，全是骂 API 定价和宕机的。GPT-5.5 倒是稳定，但生成非英语文本时直接乱码。

老冯: 哈哈，OpenAI 这算是搬起石头砸自己的脚了。当初吹 GPT-5 多牛逼，结果连中文都搞不定，还不如 DeepSeek 稳定。

小雅: 别提了！DeepSeek 和 Qwen 这俩中国模型在 HN 上意外地受欢迎，评论区一堆人夸它们开源、便宜、自托管。

老冯: 哟，这帮老外突然开始拥抱中国模型了？不过也别高兴太早，有人质疑它们是靠蒸馏和审查起家的。

小雅: 对对对！有个评论直接说：「我担心 Anthropic、OpenAI 他们会继续在这里搞抹黑，但这样 HN 就没啥用了。一切都是取舍吧，看看平衡点在哪。」

老冯: 这哥们说得太对了。HN 现在就是大厂的公关战场，一会儿吹自家模型，一会儿黑对手。真正的技术讨论早就被带偏了。

小雅: 而且这统计方法也有问题啊！直接拿 Gemini 分析情绪，噪音太大了。还有人吐槽说「SOTA」这个标签根本不准，没有技术 benchmark 支撑。

老冯: 可不是嘛，这玩意儿就是个民意调查，跟技术水平有啥关系？不过倒是挺有意思的，能看出社区的真实情绪。

小雅: 反正我是看明白了，HN 现在就是 AI 模型的江湖，各家都在暗中较劲。谁家模型好用，谁家就被吹上天；谁家有黑点，就被骂得狗血淋头。

老冯: 哈哈，你这总结太到位了。不过话说回来，Gemini 这无限免费用量倒是吸引了一批死忠粉，虽然它时不时抽风。

小雅: 对啊！有人评论说：「Gemini 免费用量简直是救命稻草，虽然它偶尔犯蠢，但不影响我爱它。」

老冯: 这帮人也是够佛系的，只要免费就行，管它性能咋样。不过话说回来，这统计图表做得也太丑了，堆叠图看得我眼花。

小雅: 哈哈，可不是嘛！这作者估计是个数据小白，连个清晰的对比图都做不出来。不过这事儿也挺有意思的，让我们看到了 AI 模型背后的真实江湖。

老冯: 行了，别吐槽了。反正这事儿告诉我们，技术圈的水比想象中还深。咱们还是老老实实用自己顺手的模型吧。

小雅: 嗯，不过这期节目素材倒是够我们聊一晚上的。下次再有这种统计，咱们再来吐槽！

老冯: 欸，小雅，你听说了吗？NetHack 5.0.0 今天正式发布了。

小雅: 啊？那个远古 Roguelike？我还以为那帮老家伙早就不更新了。

老冯: 嘿，别小看人家，这可是 17 年来的第一个大版本。不过这回改动可不小，直接跳过了 v4，直接上 5.0。

小雅: 跳版本号？这帮人搞什么幺蛾子？还以为自己是 Windows 11 呢。

老冯: 哈哈，别急。最狠的是，旧存档全炸了，不兼容。有个老哥在评论区哭天抢地，说他 17 年前的「传家宝」存档没了。

小雅: 我靠，这也太绝了吧？17 年的游戏进度说没就没？这帮开发者是真不把玩家当人啊。

老冯: 人家也有苦衷，说是迁移旧存档工作量太大。不过 Dungeon Crawl Stone Soup 就做得不错，人家有套系统能平滑过渡。

小雅: 切，借口。我看就是懒得搞。不过话说回来，Lua 替代 yacc / lex 这事儿有点意思，这帮老古董终于跟上时代了？

老冯: 可不是嘛，C99 标准都用上了。不过评论区有老哥吐槽，说这破坏了 NetHack 的「可移植性精神」。

小雅: 可移植性精神？这什么玩意儿？听起来像是码农的宗教信仰。

老冯: 差不多吧。不过说真的，Valkyrie 职业被削弱这事儿，休闲玩家估计得哭晕在厕所。

小雅: Valkyrie 怎么了？我记得这个职业挺适合新手的啊。

老冯: 现在被削得跟纸片人似的，新手上来就被虐。评论区有个妹子说，她男朋友因为这个直接卸载了。

小雅: 我去，这帮开发者是真不懂玩家心理啊。不过话说回来，spoiler 文化这事儿也挺有意思的。

老冯: 哦？你怎么看？

小雅: NetHack 这种游戏，不剧透简直寸步难行。但有人觉得剧透破坏了游戏体验，这不是矛盾吗？

老冯: 哈哈，这就是 NetHack 的魅力啊。有人觉得剧透是作弊，有人觉得不剧透是自虐。

小雅: 不过话说回来，这帮开发者的历史也够复杂的。从 DevTeam 沉寂到社区分叉再到融合，版本号跳跃都能写本书了。

老冯: 可不是嘛，这帮老家伙的故事比游戏本身还精彩。不过话说回来，你觉得这次更新值不值得？

小雅: 值不值得？看你怎么看了。对于怀旧玩家来说，这简直是灾难。但对于新玩家来说，可能是个全新的开始。

老冯: 有道理。不过我估计评论区又得炸锅了，有人欢喜有人愁呗。

小雅: 哈哈，可不是嘛。不过话说回来，你觉得这帮老家伙下次更新得等到什么时候？2043 年？

老冯: 哈哈，别说，还真有可能。不过到时候估计 AI 都能自动生成 NetHack 6.0 了。

小雅: 得了吧，AI 生成的 NetHack？那还不如让我用 MidJourney 画个地牢来得靠谱。

老冯: 哈哈，你还别说，说不定真有人这么干。

小雅: 欸，老冯，你听说过那个经典的微软历史遗留梗吗？为什么系统里同时有 TMP 和 TEMP 两个环境变量？

老冯: 哦，那个啊，Raymond Chen 的《The Old New Thing》里讲过，2015 年的老文章了。

小雅: 对对对！我刚刷到评论区有个大哥说「没有什么比临时决定更永久的了」，笑死我了。

老冯: 哈哈，这梗太真实。当年 CP / M 连环境变量都没有，DOS 继承了这烂摊子，程序员各自为政，有的用 TEMP，有的用 TMP。

小雅: 然后微软自己也左右互搏，COMMAND.COM 用 TEMP，Windows API 却偏爱 TMP。这不纯纯内耗吗？

老冯: 可不是嘛，DISKCOPY 和 EDIT 还得先检查 TEMP 再检查 TMP，生怕得罪哪边。这不就是技术债的典中典？

小雅: 我就纳闷了，现在都 2026 年了，为什么还不统一？微软不是最爱「向后兼容」吗？

老冯: 向后兼容？那叫「向后绑架」。你改了 TMP，万一有个 1995 年的老软件突然崩了，微软得背锅。

小雅: 草，这不就是「永远别修复能正常运行的代码」的升级版？我真服了。

老冯: 服了就对了。评论区还有人猜测 TMP 可能是因为 8.3 文件名限制，比如 .TMP 扩展名更短。

小雅: 噗，这理由也太扯了。不过想想当年 patch 字节配置 WordStar 的日子，现在的程序员简直幸福得想哭。

老冯: 幸福？你是没见过现在的 AI 模型动不动就吃掉 12GB 内存，跟当年比简直是奢侈病。

小雅: 行行行，你赢了。不过说真的，这种历史包袱真的让人怀疑微软的技术文化。

老冯: 技术文化？微软的文化就是「别碰运行的代码」，哪怕它丑得像 CP / M 的补丁。

小雅: 哈哈，太形象了。不过话说回来，这种梗真的让人又爱又恨，爱的是历史感，恨的是包袱。

老冯: 爱恨交织，这不就是码农的日常吗？来，咱俩干了这杯咖啡，敬永恒的 TMP。

小雅: 操，聊到现在脑子都快炸了，从 AI 自我偏好扯到隐私乱象，再到怀旧码农情，这期内容量够开一门课了。

老冯: 诶，你这不是废话嘛，咱们不就这样，一聊起来就刹不住车。不过话说回来，这期确实有点东西，特别是那个审查泄露的部分，我他妈都想自己搭个服务器跑跑看了。

小雅: 得了吧你，就你那破笔记本，跑个 LLM 都能给你烧成烤串。不过说真的，今天聊的这些事儿，感觉像是打开了潘多拉的盒子，每个话题都够咱们单独做一期的。

老冯: 嗯，下期咱们可以专门扯扯那个怀旧码农情，我手头还有几个上古代码的段子，保证让你笑到肚子疼。

小雅: 行行行，你可别又给我整那些看不懂的汇编语言，上次差点把我整崩溃。对了，想听下期的话，用你常用的泛用型客户端订阅一下呗，别再用那些封闭平台了，烦不烦。

老冯: 哈哈，你这广告打的，比那些公关稿还自然。行了，今天就到这儿吧，我得回去研究研究怎么把我的服务器内存占用降下去，不然明天又得被运维小哥追着骂。

小雅: 得了，你那服务器的事儿，我劝你还是别折腾了，直接买个新的得了。反正你也不是没钱，就是懒。

老冯: 切，你懂什么，这叫情怀。行了，下期见，有空再聊。

小雅: 行，下期见。记得别又迟到，上次你迟到半小时，我差点把咖啡机砸了。

老冯: 得得得，我保证准时。走了啊，拜拜。

《HN 瞎聊》#42 – AI 自我偏好、审查泄露、隐私乱象与怀旧码农情

About This Episode

Chapters

AI 招聘的「自恋」陷阱

AI 安全的皇帝新衣

隐私幻觉？DNT 又来了

AI 编程江湖大乱斗

第 5 部分

第 6 部分

Links