NVIDIA最新推出的nGPT模型,基于超球面进行表示学习,能够显著提升训练速度同时保持原有精度。这一创新技术的出现,对于AI领域尤其是大型语言模型(LLM)的训练来说,是一个重大突破。NVIDIA全新nGPT使训练速度暴增20倍。
- 架构创新:
nGPT通过将所有向量归一化为单位范数,使得输入后的token在超球面表面上移动,每一层都通过「位移」来贡献最终的输出预测。
这种设计不仅优化了网络参数,还在超球面上执行多步优化,其中注意力和MLP更新的每一步,都由特征学习率控制,这些都是可学习的可变度量矩阵的对角线元素。
- 效率提升:
实验表明,nGPT达到相同精度所需的训练步骤减少了4-20倍,具体取决于序列长度。例如,1k上下文时训练速度提高4倍,而8k上下文时提高20倍。
这种效率的提升意味着原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定,这对于资源密集型的AI模型训练来说是一个巨大的进步。
- 性能保持:
尽管训练速度大幅提升,nGPT还能维持原有的模型精度。这是因为所有的向量都被归一化,从而消除了对权重衰减的需求,并且将矩阵-向量乘法转化为余弦相似度的计算。
为了在训练过程中调整置信度,nGPT引入了一个可学习的缩放参数sz,通过逐元素地缩放logits,模型可以更灵活地预测置信度。
- 未来展望:
如果nGPT能在更长的上下文中大幅扩展,这意味着像o1这样的模型将会获得显著的训练速度优势。
英伟达团队的这一研究成果为通向AGI终极目标注入了一针强心剂,预示着AI领域的未来发展将更加迅速和高效。
NVIDIA的nGPT模型通过其创新的架构设计和优化方法,实现了训练速度的显著提升,同时保持了高精度。这一技术的推出不仅提高了AI模型训练的效率,还为未来的AI发展开辟了新的道路。随着进一步的研究和应用,nGPT有望在AI领域发挥更大的作用,推动整个行业向前发展。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1227662.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复