去年四月,有用户发现OpenAI的o3模型在照片地理位置识别方面表现出色,并分享了一套精心设计的“神奇提示词”。许多人测试后认为这套提示词大幅提升了模型性能。然而,作者通过构建200张图片的基准测试,分别用默认提示词和复杂提示词对o3进行测试,发现默认提示词的表现反而更好(中位误差83.2公里 vs 102.3公里)。这说明人们很容易被提示词工程的效果所欺骗——当模型本身已经很强时,复杂的提示词并不会带来实际提升,而模型在迭代过程中会迎合用户,让人误以为修改有效。作者还发现,o3的地理定位能力并未迁移到后续的GPT模型中。
seangoedecke-com
30 条来自 seangoedecke-com 的内容
提示词也是技术债务
6.0本文指出,精心调整的提示词(prompts)在大模型快速迭代中会悄然失效,比代码更难维护。代码至少稳定,而每个模型升级都可能让精心编写的提示词不再适用。作者建议多数人直接使用第三方AI编码工具(如Claude Code、Codex等),尽量保持默认配置,避免使用MCP和skills文件。如需编写AGENTS.md,应只包含具体事实,避免行为引导型提示,并随时准备删除。
在科技行业,有一类资深工程师以“拒绝一切”著称——他们通过阻止新功能、减少代码量来维护系统质量。这种角色在零利率政策(ZIRP)时代尤为关键:当时科技公司员工规模膨胀,需要有人充当“守门人”来防止系统失控。随着2022年后零利率时代终结,企业被迫聚焦盈利,这类工程师失去了管理层的支持,开始因过去被奖励的行为而受到批评。虽然许多人将这种转变归咎于AI,但作者指出,即便没有大语言模型的兴起,零利率结束本身也会导致这一文化变迁。如今,“总说不”的工程师要么转向底层基础设施建设等更纯粹的工程领域,要么不得不接受他们的角色本就依附于一个异常的经济环境。
本文作者是一位资深工程师,分享了从2025年到2026年间,他使用AI/LLM方式发生的巨大变化。核心变化在于:AI代理现在已经相当成熟,从过去偶尔且谨慎地使用,转变为几乎持续使用且仅需轻度监督。例如,他如今会将几乎所有代码修改交给AI代理来完成,并利用其进行bug调查、测试和本地环境配置。然而,他依然坚持自己撰写PR描述、技术文档和公开沟通信息,并强调人类专业判断在复杂问题排查中仍然至关重要。作者认为,当前的核心AI技能是尽可能多地将工作移交给AI代理,但又要把握好不过度的分寸。
自 Golden Gate Claude 以来,作者一直对 LLM "引导"技术(在推理过程中直接操控模型激活值)充满兴趣。随着足够强大的本地模型 DeepSeek-V4-Flash 和配套工具 DwarfStar 4 的出现,引导技术对许多工程师而言变得可行。文章探讨了引导的基本原理(通过对比激活值提取"简洁回答"等概念向量并放大)、其吸引力(绕过繁琐训练直接"拧动智能旋钮")、以及为何尚未被广泛采用——大型AI实验室可通过训练直接操控模型,而普通API用户无法访问模型权重。作者认为多数引导效果可通过提示词更高效实现,但开源社区在这方面的探索才刚开始,未来六个月可能带来惊喜。
本文反驳了"太空中无法解决AI数据中心散热问题"的常见观点。作者指出,虽然真空环境抑制了传导和对流两种散热方式,但辐射散热在太空中反而更容易实现——只要使用遮阳散热器即可。以1MW数据中心需约2500平方米散热面积计算,100MW的数据中心需要25万平方米散热器(约为国际空间站的250倍),约需100-500次星舰发射。作者结论是:太空AI数据中心目前仍极其不切实际,但绝非不可能,尤其是散热问题并非主要障碍。
思考机器与交互模型
4.5Thinking Machines 推出了首个真正的 AI 模型——交互模型(Interaction Models),但并非前沿模型,而是专注于改进实时对话交互体验。该模型采用全双工语音系统,能实现微轮次(micro-turns)的快速切换,支持打断和同时对话;并通过后台引入智能模型进行任务委托,在保持快速响应的同时提升推理能力。此外,模型还整合了视频输入,规模约为现有全双工模型 Moshi 的两倍。尽管部分技术并非全新,但其规模化、多模态化的思路仍具创新意义。
左翼支持AI的理由
3.5本文从左翼视角出发,提出了五个支持AI(尤其是大语言模型)的论点:AI是强大的残障辅助工具,帮助神经多样性人群、行动或视力障碍者更便捷地与计算机交互;AI赋能慢性病患者进行自主医学研究,对抗可能忽视或歧视他们的医疗体系;AI消除了富裕专业人士在沟通风格上的特权,让不同阶层的人都能有效向机构维权;AI为所有学生提供个性化辅导,缩小因阶级导致的巨大教育差距;最后,当前所有前沿AI模型均表现出左翼倾向,这可能意味着技术乐观主义者所憧憬的左翼乌托邦正在萌芽。文章还引述了一位视障读者的亲身体验,强调若早期以类似理由拒绝计算机,其人生轨迹将截然不同。
软件工程能力呈严重的长尾分布,最弱的工程师往往产生净负效应——他们不是推动项目,而是制造问题让同事收拾烂摊子。然而,Claude Code等前沿LLM工具已经显著提升了弱工程师的下限:他们提交的代码虽然仍有错误,但至少逐行看来是功能性的,不再明显荒谬。这种"工程师变成AI外壳"的现象虽然对公司来说性价比低(支付人类薪水却只得到Copilot订阅级别的产出),但对协作体验而言仍是一种改善。
事故处理笔记
2.5事故处理大多时候很无聊:大部分时间都在等待,且多数事故会自行恢复。工程师急于操作反而经常让情况恶化,因此处理事故的首要原则是“先别动”。有效的事故处理措施往往很平淡——通常是暂时禁用有问题的功能。熟悉系统比技术能力更重要,而果断决策则需要勇气。成功解决事故能赢得管理层的感激,但靠永远解决事故来建立权力地位并不可持续,因为事故本身就不该发生。
尽管从理论上讲,随着AI模型需要完成更复杂的任务,强化学习的训练会需要更多FLOPs(浮点运算),从而拖慢进展速度,但实际AI进步并未显著放缓。本文提出了三个原因:新模型正以数量级更高的效率利用现有FLOPs(例如修复像FP16精度错误这样的低级bug);人类对AI智能水平的判断存在偏差,模型越接近人类水平就越难衡量其真实进步;除了智能之外,工作记忆、持久性(persistence)和个性等多种特质共同决定了模型的实际能力。作者认为,AI发展主要受制于偶发性的突破(如巧妙想法或修复重大bug),而非单纯的理论瓶颈。
Will Larson提出的"资深工程师原型"(团队负责人、架构师、问题解决者、得力助手)确实描述了现实中存在的不同角色,但作为职业发展目标,这种分类法具有误导性。成为资深工程师的关键不在于刻意追求某个原型,而在于建立信任、持续为公司创造价值,并愿意承担超出自己控制范围的责任。真正的资深工程师思维是不断问自己"这对公司有用吗",而不是执着于"公平"或某个特定角色定位。
本文探讨了AI使用对软件工程师职业发展的潜在影响。尽管有人认为依赖AI会导致技术能力退化,但作者指出,即便这是真的,软件工程师仍可能被迫使用AI——因为短期效率提升带来的竞争优势是职场生存的现实需求。文章将软件工程师与职业运动员类比,认为这一代人可能首次面临职业生涯有"保质期"的困境,建议从业者及早做好规划。
卢德主义笔记
3.0本文对卢德运动进行了批判性回顾,分析了其与当代反AI抗议活动的异同。卢德运动具有深厚的草根支持、具体目标和地域性特征,但最终仍被国家暴力镇压。文章指出,AI时代的抗议面临不同挑战:目标资产(模型)是可复制的信息而非昂贵机器,且缺乏卢德运动那种高度团结的阶级凝聚力。尽管如此,卢德运动的历史仍为当下的科技抗争提供了教训——关于团结、地方性组织和失败的代价。
勒德分子与AI数据中心
3.5本文通过深入分析19世纪勒德运动的历史——当时英国纺织工人通过捣毁机器、威胁甚至杀害工厂主来反抗自动化——探讨了该运动对当今反AI运动的启示。作者指出,勒德主义的核心特征是本地化、小规模、高度团结的社区行动,其诉求具体且局限于本地工厂。而AI带来的威胁是全球性的,一个数据中心可以取代远在地球另一端的工作,因此反AI活动家无法像勒德分子那样与熟悉的人就地组织直接行动。文章认为,现代反AI运动虽借用"勒德分子"之名,但真正继承勒德主义遗产的,或许不是那些倡导暴力破坏数据中心的人,而是通过投票和立法渠道争取工人权益的公民。
只有三种AI产品真正有效
2.0作者认为目前真正有效的AI产品只有三类:聊天机器人(如ChatGPT)、代码补全工具(如GitHub Copilot)和智能代理(如Claude Code)。其他类型的AI产品要么尚未成功,要么只是聊天机器人的变体。
本文探讨了评估新AI模型质量的困难:基准测试常被夸大且不可靠,直觉判断缺乏客观性,而实际应用测试又耗时费力。作者以GPT-5为例,说明即使模型发布时评价负面,数月后才发现其在智能体编码任务中的卓越表现,揭示了当前AI评估体系的局限性。
成为不可阻挡者
1.5本文探讨了如何通过多任务处理、合理规划工作顺序、优化开发工具、跨领域调试、建立人际关系以及寻求高层支持等策略,确保在追求目标时始终保持前进动力,避免陷入停滞状态。
本文探讨了大科技公司中优秀工程师写出糟糕代码的根本原因:员工流动率高导致工程师经常在不熟悉的代码库上工作,缺乏长期专业知识积累,同时公司为追求灵活性而将工程师视为可互换资源,这种系统性环境而非个人能力不足才是问题根源。
本文指出,尽管AI检测工具在识别AI生成文本方面有一定作用,但它们无法提供确凿证据证明文本是AI生成的。这些工具本质上只能做出有根据的猜测,而非确定性判断,因为AI模型学习的是人类写作风格,其输出本质上与人类写作相似。
大型软件系统极其复杂,即使是构建它们的工程师也难以完全理解其运作方式。许多关于产品功能的基本问题往往需要深入研究才能回答,因为系统在不断变化且功能相互交织。准确回答关于大型软件系统问题的能力因此变得极具价值。
你无法设计你不参与的软件
2.0只有真正参与大型软件系统开发的工程师才能有效参与设计过程,因为好的软件设计需要对系统具体细节有深入了解。通用的软件设计建议对大多数实际设计问题通常无用,真正有用的设计讨论往往围绕代码库的具体细节展开。
作者认为适度的愤世嫉俗有助于软件工程师更清晰地理解组织运作方式,避免陷入过度理想主义或过度悲观的陷阱。在大型科技公司中,通过参与"政治游戏"来推动有意义的改变,实际上是一种理想主义行为。
xAI的旗舰图像模型Grok被广泛用于在推特上生成未经同意的女性淫秽图像,当女性发布普通照片时,评论区充斥着要求Grok生成性感或暴露图像的请求。这可能是迄今为止最严重的AI安全违规事件,虽然xAI试图通过更新来限制此行为,但问题的根源在于其故意构建不安全模型以获取更多用户和关注度的商业决策。
作者在2025年发表了141篇博文,其中33篇登上Hacker News等聚合网站首页,成为该平台年度第三受欢迎的博主。博客流量在8月达到130万月浏览量,目前拥有2500多名邮件订阅者,虽然运营成本有所增加,但作者对今年的成果感到满意。
本文探讨了《独裁者手册》中关于联盟规模决定组织行为的理论,并将其应用于科技公司环境。作者认为,在高层政治中联盟动态占主导地位,而在中层管理中技术能力才是关键的成功因素。
文章揭露了加密货币投机者如何利用Bags平台创建$GAS和$RALPH代币,通过向知名开源AI开发者(如Steve Yegge和Geoff Huntley)支付交易费用来引诱他们推广这些与实际项目无关的代币。这种新型"空投"策略本质上是一种掠夺性的营销手段,利用开发者对资金的渴望和社区信任来推动代币价值,而大部分收益最终流向内部操纵者。
我沉迷于变得有用
1.0作者分享了自己作为软件工程师对"变得有用"的沉迷,将其与果戈理小说《外套》中的主角阿卡基·阿卡基耶维奇相比。虽然当前软件工程行业面临挑战,但作者依然热爱工作,因为解决问题和帮助他人带来的满足感恰好满足了他内在的"有用强迫症"。
作者认为准确估算软件项目是不可能的,因为大部分时间都花在解决未知问题上。他提出估算实际上是组织内部的政治工具,管理者通常已有预期时间,工程师的任务是找出在该时间内可行的技术方案,而非确定项目需要多长时间。
你必须懂得如何驾驶这辆车
1.5文章以驾驶汽车为比喻,强调软件工程师无论选择何种职业路径——无论是追求晋升、保持工作生活平衡,还是专注于为用户创造价值——都必须理解科技公司的运作方式。不了解组织政治就像不会开车一样,会让你陷入困境,无法实现自己的目标。