RTX 3090でQwen3.5-27Bが207 tok/sを達成
RTX 3090上でQwen3.5-27Bモデルが207トークン/秒という高速な推論性能を実現しました。この結果は、消費電力あたりの性能効率が高いことを示しています。
RTX 3090上でQwen3.5-27Bモデルが207トークン/秒という高速な推論性能を実現しました。この結果は、消費電力あたりの性能効率が高いことを示しています。
The article provides a command-line recipe for transcribing audio files on macOS using the Gemma 4 E2B model with MLX and mlx-vlm. It demonstrates the transcription of a 14-second WAV file, noting minor misinterpretations in the output.
When working with 24-bit-per-pixel formats on video cards with bank-switched memory, code had to use aligned memory accesses despite the pixels themselves not being aligned. This requirement was necessary due to the hardware constraints of bank-switched video memory architectures.