谷歌论文提前揭示o1模型原理：AI大模型竞争或转向硬件

未希 2024-09-20 07:06 热门讨论 35

谷歌DeepMind团队在2023年8月发表的一篇论文《优化LLM测试时计算比扩大模型参数规模更高效》中探讨了大模型（LLM）在面对复杂问题时，是否可以通过增加测试时的计算量来提高决策质量。研究表明，增加测试时（test-time compute）计算比扩展模型参数更有效。

这项研究与OpenAI近期发布的o1模型原理相似，o1模型在给出答案之前，会生成一系列中间推理步骤，不断完善自己的思维过程，尝试不同的策略，并能识别自身错误。随着更多的强化学习和思考时间，o1的性能持续提升。

网友们认为，随着顶尖开发者在行业内的流动，秘密突破和算法最终会传播到其他公司和开源社区，因此没有人拥有护城河。这也促使OpenAI将o1-mini的速度提高7倍，每天都能使用50条；o1-preview则提高每周50条。

有评论指出，唯一可能形成护城河的是硬件，至少在可预见的未来是这样。如果AI大模型公司无法解决对显存的依赖，英伟达可能会直接掌控谁能够获得计算能力。而如果微软或谷歌开发出在自研芯片上运行速度快10倍的模型，情况也会变化。

目前，英伟达在AI大模型算力的分配上占据主导地位。OpenAI近期也被曝出其首款芯片计划，采用台积电最先进的A16级工艺，专为Sora视频应用打造。这些迹象表明，大模型的竞争已不仅局限于模型本身，硬件能力也成为关键因素。在AI领域，谁能拥有更强大的算力，谁就可能在下一阶段的竞争中占据优势。

内容来源网络，不代表本站立场。文章及其配图仅供学习之用，如有内容侵权或者其他违规问题，m4g6@qq.com。