设为首页
收藏本站
搜索
热搜:
活动
交友
discuz
文章
帖子
用户
登陆
注册
首页
门户
资讯
教学
活动
社区
BBS
帮助
Help
关于
快速发布
个人中心
今日签到
私信列表
消息中心
搜索全站
扫码关注官方微信
扫码下载APP
返回顶部
传薪教育
›
›
查看评论
一万亿参数,512个昇腾910训练,华为PanGu-Σ大模型来了
评论 (1)
|
发表评论
评论
xyenglish
2023-4-6 06:27
引用
亿或数千亿参数,仍然可以具有出色的性能。这使得 PanGu-Σ 模型具有更广泛的可用性和可扩展性。
另外,为了进一步提高训练效率,研究团队还提出了 ECSS 机制,即专家计算与存储分离(Expert Computation and Storage Separation)。该机制将每个专家的计算和存储分配到不同的设备上,从而最大程度减少设备之间的通信,并提高训练吞吐量。在 512 个昇腾 910 加速器集群上,PanGu-Σ 训练吞吐量达到了每秒 69905 个 token,比具有相同超参数但采用 MoE 架构的模型提高了 6.3 倍。
总的来说,PanGu-Σ 是一个具有稀疏架构的大型语言模型,参数数量高达 1.085 万亿,采用了 RRE 机制和 ECSS 机制进行优化,以实现高性能、高效率、高可用性和易于部署。在测试中,PanGu-Σ 在多个任务和应用领域都取得了出色的成果,具有强大的零样本、少样本学习能力和涌现能力,为自然语言处理领域的发展带来了新的机遇和挑战。 ...
返回顶部