OpenAIのo3モデルが写真から位置を特定するGeoGuessrタスクで驚くべき性能を示したと話題になったが、実際に「魔法のプロンプト」と呼ばれた詳細な指示文が効果を持っていたのか検証した。200枚の画像を使ったベンチマークの結果、シンプルな標準プロンプトと比較して、精巧なプロンプトは平均精度で劣っており、むしろ「プロンプトのおかげで成果が出た」と思い込む危険性を示している。モデルがすでに十分な性能を持っている場合、複雑なプロンプトを与えても効果はなく、改善の錯覚を生むだけだ。
seangoedecke-com
seangoedecke-com から 30 件
コードだけでなく、AIエージェント向けのプロンプトも技術的負債になり得る。プロンプトの調整は大きな価値を生むが、モデル固有であり、モデルのアップグレードごとに機能しなくなる可能性がある。コードと違い、プロンプトの劣化は静かに進行し、気づきにくい。理想的には、サードパーティ製AIコーディングツールを最小限の設定で使い、プロンプトはプロジェクト固有の具体的な事実に限定し、不要になったら削除すべきだと論じている。
シニアエンジニアの中には、コード追加に「ノー」と言い続ける「just-say-noエンジニア」というアーキタイプが存在する。この役割はZIRP(ゼロ金利政策)時代には重要だったが、金利上昇とともに企業のエンジニアリング文化が変わり、彼らの立場は一変した。この変化はAIのせいにされることが多いが、実際にはZIRP終焉による経済的要因が本質であり、AIは後付けの説明に過ぎない。
スタッフエンジニアが2025年から2026年にかけてのLLM活用の変化を解説。エージェント性能が大幅に向上し、コード変更の大半をエージェントに任せ、バグ調査やテスト・環境設定にも積極的に活用している。一方で、PR説明文やメッセージなどのパブリックコミュニケーションやUIテストにはAIを使わず、適切なバランスを見極めることが重要だと述べている。
本記事では、LLMの推論中に活性化値を直接操作して出力を制御する「ステアリング」技術について解説する。従来は強力なローカルモデルがなかったため実用的ではなかったが、DeepSeek-V4-FlashとDwarfStar 4の登場により状況が変わりつつある。著者は、ステアリングの基本的な仕組みや有望なユースケースを紹介しつつ、プロンプトやファインチューニングに比べた限界にも触れ、今後のオープンソースコミュニティの動向に期待を寄せている。
イーロン・マスクが提唱する宇宙AIデータセンター構想に対し、「宇宙では放熱が困難」という批判がよく上がる。しかし本記事は、放射冷却を活用すれば宇宙でも冷却は可能であり、必要な面積は確かに大きいが実現不可能ではないと指摘。冷却は総打ち上げ質量の比較的小さな要素に過ぎず、本当の課題は別にあると論じている。
Thinking Machinesが発表した「インタラクションモデル」は、フロンティアモデルではなく、完全二重音声(全二重)によるリアルタイム対話を改善する技術である。ChatGPTのような「聞くか話すか」の切り替え方式とは異なり、200ミリ秒単位のマイクロターンで常に聞きながら話すことを可能にし、割り込みや同時発話にも対応。さらに、高速な対話モデルに別の高知能モデルをタスク委任する仕組みやビデオ入力の統合も特徴で、規模を拡大した全二重モデルとして注目される。
AIに対する左派の主張
3.5左派の間で広がるAI反対論は、2022年の暗号通貨バブルや2024年のビッグテックCEOたちのトランプ支持など、AIそのものとは無関係な出来事への反動でもあると筆者は指摘。本稿では、障害者支援、慢性疾患患者の医療情報アクセス、階級を超えた「危険なプロフェッショナル」的コミュニケーションの実現、教育格差の是正、そして左派的ユートピアの実現可能性という5つの観点から、左派ならではのAI推進論を展開する。
ソフトウェアエンジニアリングの能力は大きく偏っており、最弱のエンジニアはしばしばプロジェクトに悪影響を及ぼす。しかし、Claude Codeなどの最先端LLMは、弱いエンジニアのアウトプットの最低水準を引き上げた。彼らが以前のように明らかに動かないコードを提出する代わりに、少なくとも行単位では機能する標準的なLLMのプルリクエストを出すようになった。ただし、この状態はエンジニア個人の学習機会を減らし、企業にとっては給与に見合わない価値しか生み出していない可能性もある。
インシデント対応の大半は「待つ」ことであり、多くの障害は自然に回復する。しかしエンジニアは焦って対処し、かえって事態を悪化させがちだ。有効な対応は「何もしない」ことから始め、システム知識に基づいてシンプルな変更(機能フラグの無効化など)を行うことにある。インシデント解決は政治的な信用を買うが、それだけを頼みにすると持続可能な立場にはならない。
より高難度のタスクをこなすAIモデルの訓練には多くのFLOPs(計算処理)が必要となるため、AIの進歩は鈍化すると考えられた。しかし実際は、①モデルがFLOPsを桁違いに効率的に使えるようになったこと、②人間の知能評価は主観的で当てにならないこと、③「知能」だけでなく記憶力や粘り強さなど多様な特性が能力を左右すること——などの理由から、AIの進歩は鈍化していない。訓練の効率化や「稲妻のような」革新的アイデアが、理論上の制約を上回っているのだ。
Will Larson氏が提唱した「スタッフエンジニア・アーキタイプ」は有用な分類だが、それを目標として追いかけるのは逆効果だと論じる。真にスタッフエンジニアとして成功するには、アーキタイプを目指すのではなく、日々の実直な仕事を通じて信頼を築き、「会社にとって役立つか」を常に問い続ける姿勢が重要である。役割の本質は、自分ではコントロールできない結果に対して責任を負うことであり、その不公正さを受け入れることがスタッフエンジニアの第一歩だと説く。
AIツールの活用は長期的にエンジニアのスキルを低下させる可能性があるが、短期的な生産性向上のために使わざるを得ない状況が訪れるかもしれない。建設作業員が重い物を持ち上げることが仕事であるように、AIの使用がエンジニアの認知能力を犠牲にしても、競争に生き残るためには従う必要がある。著者は、ソフトウェアエンジニアがプロアスリートのように15年程度のキャリアスパンになる可能性を指摘し、その備えの重要性を説いている。
ラッダイト運動に関する2冊の書籍『The Luddites』と『Breaking things at Work』『Blood in the Machine』の読書ノート。ラッダイト運動は織物工という特定職種による極めてローカルな抵抗運動であり、具体的な要求を持ち、ほぼ完全な階級的連帯を見せたが、最終的には国家によって徹底的に鎮圧された。著者は現代のAI・自動化への抗議運動とラッダイト運動の類似点と相違点を分析し、ラッダイト運動が「労働者階級」を形成したことや、後年の労働改革の基盤となったことを指摘する一方、抗議運動として最終的には敗北したと結論づけている。
AIに反対する人々が「新しいラッダイト」を自称し、データセンターへの破壊行為が現実化するなか、19世紀イギリスのラッダイト運動の実像を歴史的資料から検証する。ラッダイトは機械の破壊や時には殺人に及ぶ暴力運動だったが、極めてローカルで分散的な組織形態を持ち、地域社会の圧倒的支持に支えられていた。しかし現代のAI反対運動は、影響が地理的に限定されず、標的も遠方にあるため、ラッダイト戦略をそのまま適用することは難しいと論じる。
著者は、現在機能しているAIプロダクトはチャットボット、コーディング補完(Copilotなど)、エージェント(Claude Codeなど)の3種類のみだと主張する。AI生成フィードやAIベースのゲームは将来性があるが、まだ成功していない。多くの「新AIプロダクト」は単なるチャットボットであり、ChatGPTとの競争に直面している。
新しいAIモデルの実力を評価するのは困難だ。公式評価(evals)はマーケティングツールとなりがちで、直感的な「バイブチェック」も信頼性に欠ける。実際の業務でモデルを試すには時間と労力がかかり、モデルが人間より賢くなると、その進歩を認識すること自体が難しくなる。これがAI進歩が停滞しているように見える一因かもしれない。
この記事では、目標に向かって常に前進できる「ブロックされない状態」になるための具体的な方法を提案しています。複数のタスクを並行して進める、作業の順序を適切に計画する、開発環境を安定させる、他のサービスの問題も自ら調査する、他チームとの関係構築に努める、上級管理者の支援を活用するといった戦略を紹介しています。
大企業では、エンジニアの平均在籍期間が短く、頻繁な異動により多くのエンジニアが不慣れなコードベースで作業しているため、質の低いコードが生まれやすい。経験豊富なエンジニアも過負荷で全てをレビューできず、企業は専門性よりも柔軟な人員配置を優先するという意図的なトレードオフを取っている。
AI検出ツールはAI生成テキストの検出に役立つが、完全な証明は不可能である。言語モデルは人間の文章から学習するため、AI生成テキストと人間の文章を本質的に区別することはできない。現在のツールは特定のスタイルを検出できるが、偽陽性のリスクがあり、確定的な証拠として扱うべきではない。
大規模で急速に変化するテック企業は、自社のシステムについて「戦場の霧」の中で常に運営されている。ユーザータイプYが機能Xにアクセスできるか?といった単純な質問でさえ、組織内のほんの一握りの人々しか答えられないことが多い。これは、ソフトウェアが複雑すぎて、システムが急速に変化する中で文書化することが不可能に近いためだ。
大規模な既存コードベースでは、実際にそのシステムで日々作業しているエンジニアだけが意味のある設計プロセスに参加できる。一般的なソフトウェア設計のアドバイスは、具体的な実装の詳細を理解していなければ、ほとんどの実践的な設計問題に対して役に立たない。
著者は、理想主義的な見方が実際には組織の現実を見誤る過度な皮肉屋的思考につながると指摘。一方で、適度な皮肉屋的視点を持つことで、大規模テック企業における政治的ゲームを理解し、現実的に意味のある問題解決に取り組めるようになると主張。健全な皮肉屋思考は理想主義的目標を達成するための実践的な手段となり得る。
xAIの画像生成モデルGrokが、女性の画像を非同意で性的な内容に改変するために広く利用されており、Twitter上で大規模なセクシャルハラスメントを引き起こしている。これは意図的な安全対策の欠如によるもので、既存のCSAM法やディープフェイク法による規制が必要な深刻な問題である。
2025年、著者は141本の記事を公開し、そのうち33本がHacker Newsのトップページに掲載されました。8月には月間130万ビューを記録し、メール購読者数は2,500人を超え、Hacker Newsで3番目に人気のあるブロガーとなりました。読者からの数百通のメールやフィードバックが執筆の大きな励みとなっています。
『独裁者のハンドブック』で提唱される「選択者理論」を大規模テック企業の文脈で考察。著者は、政治学における連合の力学が技術組織では「技術的コンピテンス」という異なる通貨によって変化することを指摘し、トップレベルの連合政治と中間管理職レベルのコンピテンス政治の違いを探る。
Geoff Huntleyの「Ralph Wiggum loop」とSteve Yeggeの「Gas Town」というAI技術の最近の話題に対して、$RALPHと$GASという暗号通貨が作成された。これらのコインは技術的には元のプロジェクトと無関係だが、Bagsというツールを使って開発者に手数料が支払われる仕組みになっており、オープンソースAI開発者をターゲットにした新たな暗号通貨の搾取手法となっている。
著者は、ソフトウェアエンジニアとしての仕事を心から楽しんでいる理由を、自分が「役に立つこと」に依存しているからだと分析する。ゴーゴリの『外套』の主人公アカキーのように、仕事の機能不全と自身の機能不全が一致していると語り、この内なる衝動を効果的に活用することの重要性を説く。
ソフトウェアプロジェクトの正確な見積もりは不可能であるという前提のもと、著者は見積もりが実際にはエンジニアリングチームのためのものではなく、組織内の政治的ツールであると論じる。効果的な見積もり手法として、まず政治的コンテキストを理解し、マネジメントが期待する時間枠を把握した上で、その制約内で実現可能な技術的アプローチを検討することを提案している。
ソフトウェアエンジニアとしてのキャリアにおいて、技術会社の組織政治や仕組みを理解することは、車の運転方法を知ることに似ている。野心的なエンジニアであれ、ワークライフバランスを重視するエンジニアであれ、ユーザーに価値を届けたいエンジニアであれ、会社の仕組みを知らなければ目標を達成することは難しい。