トークンマキシングの魅力薄れる、企業は高騰するAIコストの抑制に奔走
AI技術の活用拡大に伴い、企業は予想を超えるコスト増加に直面している。トークン消費量の最大化(トークンマキシング)を重視した戦略が見直され、各社はモデル効率化やクラウド費用削減など、AI関連支出を抑制するための対策を急ピッチで進めている。
背景メモ
• 「Token」はAI(大規模言語モデル)が処理するテキストの最小単位。モデルに質問を送る(推論する)たびに消費される。「Tokenmaxxing」とは、可能な限り多くのトークンを消費する、いわば「とにかくAIを使い倒す」ムーブメントを揶揄した業界用語。
• 2023〜25年にかけて、企業は競ってLLM(ChatGPTやClaudeなど)を業務に導入したが、API利用料が想定をはるかに超えて膨張。一説には、ある大企業の生成AI関連コストが四半期で1億ドルを突破したケースもある。
• 特に問題なのは「チェーン・オブ・ソート」(思考連鎖)など、正確性を高めるためにトークン消費量が爆増する手法の普及。回答1件あたりのコストが従来比で10〜100倍になることも。
• 各社は現在、①簡易な質問は小型モデルに振り分ける「ルーティング」、②プロンプトの圧縮、③回答のキャッシュ保存など、単位トークンあたりの価値を最大化する「トークン経済学」にシフトしつつある。