面向向量长度无关的机器学习代码生成的可扩展打包布局

本文提出了一种可扩展的打包布局方法，用于在向量长度无关（VLA）的机器学习代码生成中优化数据排布。该方法通过自动调整数据布局以适应不同硬件向量宽度，显著提升代码性能和可移植性，为跨平台ML加速提供了高效解决方案。