AI大模型新突破！NVIDIA全新nGPT使训练速度暴增20倍

NVIDIA最新推出的nGPT模型，基于超球面进行表示学习，能够显著提升训练速度同时保持原有精度。这一创新技术的出现，对于AI领域尤其是大型语言模型（LLM）的训练来说，是一个重大突破。NVIDIA全新nGPT使训练速度暴增20倍。有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20倍

架构创新：

nGPT通过将所有向量归一化为单位范数，使得输入后的token在超球面表面上移动，每一层都通过「位移」来贡献最终的输出预测。

这种设计不仅优化了网络参数，还在超球面上执行多步优化，其中注意力和MLP更新的每一步，都由特征学习率控制，这些都是可学习的可变度量矩阵的对角线元素。

效率提升：

实验表明，nGPT达到相同精度所需的训练步骤减少了4-20倍，具体取决于序列长度。例如，1k上下文时训练速度提高4倍，而8k上下文时提高20倍。

这种效率的提升意味着原本需要一个月完成的训练，在未来可能只需1-2天的时间就能搞定，这对于资源密集型的AI模型训练来说是一个巨大的进步。

性能保持：

尽管训练速度大幅提升，nGPT还能维持原有的模型精度。这是因为所有的向量都被归一化，从而消除了对权重衰减的需求，并且将矩阵-向量乘法转化为余弦相似度的计算。

为了在训练过程中调整置信度，nGPT引入了一个可学习的缩放参数sz，通过逐元素地缩放logits，模型可以更灵活地预测置信度。

未来展望：

如果nGPT能在更长的上下文中大幅扩展，这意味着像o1这样的模型将会获得显著的训练速度优势。

英伟达团队的这一研究成果为通向AGI终极目标注入了一针强心剂，预示着AI领域的未来发展将更加迅速和高效。

NVIDIA的nGPT模型通过其创新的架构设计和优化方法，实现了训练速度的显著提升，同时保持了高精度。这一技术的推出不仅提高了AI模型训练的效率，还为未来的AI发展开辟了新的道路。随着进一步的研究和应用，nGPT有望在AI领域发挥更大的作用，推动整个行业向前发展。

原创文章，作者：未希，如若转载，请注明出处：https://www.kdun.com/ask/1227662.html

本网站发布或转载的文章及图片均来自网络，其原创性以及文中表达的观点和判断不代表本网站。如有问题，请联系客服处理。

AI大模型新突破！NVIDIA全新nGPT使训练速度暴增20倍

相关推荐

NVIDIA如何改变视频录制技术？

英伟达NVIDIA标准版老版驱动在哪里可以官方下载？

NVIDIA最新更新了什么？一文带你了解详情！

如何在Linux系统中安装NVIDIA显卡驱动？

发表回复