谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件
热门讨论 35
谷歌DeepMind团队在2023年8月发表的一篇论文《优化LLM测试时计算比扩大模型参数规模更高效》中探讨了大模型(LLM)在面对复杂问题时,是否可以通过增加测试时的计算量来提高决策质量。研究表明,增加测试时(test-time compute)计算比扩展模型参数更有效。
这项研究与OpenAI近期发布的o1模型原理相似,o1模型在给出答案之前,会生成一系列中间推理步骤,不断完善自己的思维过程,尝试不同的策略,并能识别自身错误。随着更多的强化学习和思考时间,o1的性能持续提升。
网友们认为,随着顶尖开发者在行业内的流动,秘密突破和算法最终会传播到其他公司和开源社区,因此没有人拥有护城河。这也促使OpenAI将o1-mini的速度提高7倍,每天都能使用50条;o1-preview则提高每周50条。
有评论指出,唯一可能形成护城河的是硬件,至少在可预见的未来是这样。如果AI大模型公司无法解决对显存的依赖,英伟达可能会直接掌控谁能够获得计算能力。而如果微软或谷歌开发出在自研芯片上运行速度快10倍的模型,情况也会变化。
目前,英伟达在AI大模型算力的分配上占据主导地位。OpenAI近期也被曝出其首款芯片计划,采用台积电最先进的A16级工艺,专为Sora视频应用打造。这些迹象表明,大模型的竞争已不仅局限于模型本身,硬件能力也成为关键因素。在AI领域,谁能拥有更强大的算力,谁就可能在下一阶段的竞争中占据优势。
内容来源网络,不代表本站立场。文章及其配图仅供学习之用,如有内容侵权或者其他违规问题,m4g6@qq.com。