随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理、计算机视觉和科学任务等领域取得了显著

Search code, repositories, users, issues, pull requests...

submited by
Style Pass
2024-11-05 08:30:05

随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而,随着模型规模的扩大,如何在保持高性能的同时优化资源消耗成为一个关键挑战。为了应对这一挑战,我们研究了混合专家(MoE)模型,当前亮相的Hunyuan-Large(Hunyuan-MoE-A52B)模型,这是目前业界已经开源的基于Transformer的最大MoE模型,拥有3890亿总参数和520亿激活参数。

本次通过开源Hunyuan-Large的技术成果,我们希望激发更多研究者的创新灵感,共同推动AI技术的进步和应用。欢迎加入我们的开源社区,共同探索和优化未来的AI模型!

高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据

KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐

Leave a Comment