今日,Meta AI团队在GitHub正式发布Llama-3.1-405B专属轻量级推理框架。该框架采用动态稀疏计算与KV Cache量化技术,使4050亿参数模型在单张H100显卡上的推理吞吐量提升3.5倍,显存占用降低60%。项目开源首周即获Star超8000次,已适配vLLM等主流生态,大幅降低千亿级模型的本地部署门槛。