Qwen3.6-35B-A3B speculative decoding is net-negative on RTX 3090
RTX 3090でQwen3.6-35B-A3Bの投機的デコードを実行した場合、パフォーマンスが低下する可能性があるという分析です。投機的デコードは通常、推論速度を向上させる手法ですが、この特定のハードウェアとモデルの組み合わせでは逆効果となることが示されています。
RTX 3090でQwen3.6-35B-A3Bの投機的デコードを実行した場合、パフォーマンスが低下する可能性があるという分析です。投機的デコードは通常、推論速度を向上させる手法ですが、この特定のハードウェアとモデルの組み合わせでは逆効果となることが示されています。
Anthropic has introduced a 1 million token context window for its Claude Opus 4.6 and Sonnet 4.6 models, representing a significant technical advancement. The company is offering this increased capacity without additional charges to users.
Gemini 3 Pro's design capabilities and Opus 4.5's reduced babysitting needs represent a subtle but significant leap that traditional benchmarks completely miss.
The article explains how to package Perl and shell scripts for deployment on NixOS, covering dependency management and reproducible builds. It demonstrates creating Nix expressions to handle Perl modules and shell dependencies in the Nix ecosystem.
llm-openrouter 0.6 adds a new "llm openrouter refresh" command that allows users to refresh the list of available models without waiting for cache expiration. This feature was added to enable immediate access to new models like Kimi 2.6 on OpenRouter.