Meta开源Llama-3.1-405B轻量版推理框架

量子位

2026年6月15日

👁️ 0 次浏览

今日，Meta AI团队在GitHub正式发布Llama-3.1-405B专属轻量级推理框架。该框架采用动态稀疏计算与KV Cache量化技术，使4050亿参数模型在单张H100显卡上的推理吞吐量提升3.5倍，显存占用降低60%。项目开源首周即获Star超8000次，已适配vLLM等主流生态，大幅降低千亿级模型的本地部署门槛。