热搜: 活动交友 discuz

扫码关注官方微信

扫码下载APP

返回顶部

传薪教育 › › 查看评论

一万亿参数，512个昇腾910训练，华为PanGu-Σ大模型来了

评论 (1)|发表评论

xyenglish 2023-4-6 06:27

引用

亿或数千亿参数，仍然可以具有出色的性能。这使得 PanGu-Σ 模型具有更广泛的可用性和可扩展性。

另外，为了进一步提高训练效率，研究团队还提出了 ECSS 机制，即专家计算与存储分离（Expert Computation and Storage Separation）。该机制将每个专家的计算和存储分配到不同的设备上，从而最大程度减少设备之间的通信，并提高训练吞吐量。在 512 个昇腾 910 加速器集群上，PanGu-Σ 训练吞吐量达到了每秒 69905 个 token，比具有相同超参数但采用 MoE 架构的模型提高了 6.3 倍。

总的来说，PanGu-Σ 是一个具有稀疏架构的大型语言模型，参数数量高达 1.085 万亿，采用了 RRE 机制和 ECSS 机制进行优化，以实现高性能、高效率、高可用性和易于部署。在测试中，PanGu-Σ 在多个任务和应用领域都取得了出色的成果，具有强大的零样本、少样本学习能力和涌现能力，为自然语言处理领域的发展带来了新的机遇和挑战。 ...

传薪教育，传承创新，传薪助力！线上线下平台，助力小学、初中、高中师生的课前、课中、课后多场景教学、训练、检测和考试，依托学校、老师、家长、教辅出版商等多方合力辅助教与学，借助大数据和人工智能等潮流技术，积极响应国家“双减”政策，真正实现高效教学！

官方手机版
微信公众号
商务合作

Powered by Discuz! X3.4 | Copyright © 2001-2020, Tencent Cloud. | 传薪教育
赣ICP备2022009411号-2 | 营业执照 |赣公网安备 4236902302000354号