AI大模型新突破!NVIDIA全新nGPT使训练速度暴增20倍

NVIDIA最新推出的nGPT模型,基于超球面进行表示学习,能够显著提升训练速度同时保持原有精度。这一创新技术的出现,对于AI领域尤其是大型语言模型(LLM)的训练来说,是一个重大突破。NVIDIA全新nGPT使训练速度暴增20倍有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍

  1. 架构创新

nGPT通过将所有向量归一化为单位范数,使得输入后的token在超球面表面上移动,每一层都通过「位移」来贡献最终的输出预测。

这种设计不仅优化了网络参数,还在超球面上执行多步优化,其中注意力和MLP更新的每一步,都由特征学习率控制,这些都是可学习的可变度量矩阵的对角线元素。

  1. 效率提升

实验表明,nGPT达到相同精度所需的训练步骤减少了4-20倍,具体取决于序列长度。例如,1k上下文时训练速度提高4倍,而8k上下文时提高20倍。

这种效率的提升意味着原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定,这对于资源密集型的AI模型训练来说是一个巨大的进步。

  1. 性能保持

尽管训练速度大幅提升,nGPT还能维持原有的模型精度。这是因为所有的向量都被归一化,从而消除了对权重衰减的需求,并且将矩阵-向量乘法转化为余弦相似度的计算。

为了在训练过程中调整置信度,nGPT引入了一个可学习的缩放参数sz,通过逐元素地缩放logits,模型可以更灵活地预测置信度。

  1. 未来展望

如果nGPT能在更长的上下文中大幅扩展,这意味着像o1这样的模型将会获得显著的训练速度优势。

英伟达团队的这一研究成果为通向AGI终极目标注入了一针强心剂,预示着AI领域的未来发展将更加迅速和高效。

NVIDIA的nGPT模型通过其创新的架构设计和优化方法,实现了训练速度的显著提升,同时保持了高精度。这一技术的推出不仅提高了AI模型训练的效率,还为未来的AI发展开辟了新的道路。随着进一步的研究和应用,nGPT有望在AI领域发挥更大的作用,推动整个行业向前发展。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1227662.html

本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

(0)
未希新媒体运营
上一篇 2024-10-20 15:45
下一篇 2024-10-20 15:54

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

产品购买 QQ咨询 微信咨询 SEO优化
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入