Show HN：我们在11美元/月的VPS上，用1个共享编码器替代了5个ML模型

我们将5个微调的MiniLM模型（共455MB）整合为单个共享编码器加5个轻量级头部，总大小仅25MB，在相同延迟下匹配分数反而从71提升到75。这一优化使处理速度从19秒降至8.7秒，同时节省了内存和API调用成本。