对话智源王仲远：统一的多模态大模型是实现AGI的必经之路|agi

用微信扫码二维码

分享至好友和朋友圈

出品｜网易科技《态度》栏目

10月21日，被冠以“今年最重要”的模型——原生多世界模型Emu3终于发布。

“科研没有一帆风顺，面对挫折挑战以及技术创新的不确定性，Emu3研发团队攻克了一个又一个技术难关，做到了第一次先于国际社会发布，率先验证了新的大一统原生多模态技术路线。”智源研究院院长难掩其兴奋。

对比实际效果，根据智源的评测，在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了SDXL、LLaVA-1.6、Opensora等开源模型。

目前，智源已将Emu3的关键技术和模型开源。

在Emu3发布之前，行业内多模态生成模型大多采用扩散模型（diffusion）或 DiT 架构，例如OpenAI的 Sora以及国内的可灵、即梦等。

这类模型将多模态生成与理解任务分别处理：生成任务通过扩散模型实现，而理解任务则以语言模型为核心，映射视觉信号至语言模型，所以是一种组合式的模型。

这个可以被称为多模态大模型的“GPT-3时刻”，表示这一技术路线可能开创多模态大模型的新训练范式：“Attention is all you need 开启了transformer技术路线，那么，Next-token is all you need可能会成为多模态大模型的新路径。”王仲远在与网易科技等媒体的沟通会上这样说道。

“现在，多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线，那么接下来需要展示，也期待在多模态领域的chatgpt 的时刻。”

虽然目前关于通向的道路仍是非共识，但像人类一样，能够理解并模拟物理世界的“世界模型”，已被行业内大多数视为通向AGI的关键路径之一。

站在Emu3发布节点，环顾四周：用于训练的文本数据逐渐枯竭，数据墙林立；硬件水平受限下，算力能力短时间很难突破；被奉为行业底层逻辑的Scaling law，也被更多人质疑是否会在模型变大的过程中而失效。

然而，文本数据之外，图像、视频、音频乃至真实世界的数据是千倍于文本的巨量潜在资源。

瞄向“大问题”，坚持做原始创新的智源，用Emu3给出了他们的答案。

以下为智源研究院院长王仲远采访的部分内容（有删减）：

谈0到1的突破：Emu3是多模态大模型的GPT3时刻

媒体：Emu3研发初衷和目标分别是什么？

王仲远：一方面，智源研究院坚持做原始创新，做高校做不了，企业不愿意做的研发。Emu3是我们认为在整个大模型发展技术路线上必须要攻克的技术方向：原生多模态，统一理解和生成。另一方面，为多模态大模型的训练范式上指明方向，这是我们的初衷。Emu3的意义很有可能会在一两年之后，大家会有更强烈的感知。

媒体：从6月份到现在，在Emu3的研发过程中做了哪些工作？

王仲远：对比6月，图像生成、视频生成能力都有了大幅的提升。

Emu3的效果已经超越了很多开源模型，但还没有达到每一个方向上的最优。确实单向上现在很多闭源模型的能力非常强，Emu3还没有超越闭源模型的能力。这是跟资源投入、训练时间有关。

但我们为什么如此有信心？因为现在的Emu3模型的能力比6月份又有了大幅的提升。Scaling law 在语言模型上有没有失效已经开始有些争论，但是在多模态大模型上还远没有打开。

在过去的小半年的时间，我们通过攻克一个又一个的技术难题，累积了不少核心技术、核心能力。在这期间，团队也遇到了不少的挫折，不断在绝望和希望之间挣扎。这就是科学探索的魅力，如果一帆风顺，就不是真正意义上的科学探索和创新。

媒体：Emu3和市场上的现有的多模态大模型有什么区别？

王仲远：现有的多模态大模型没有类似 Emu3的技术路线。Emu3是对已有的多模态大模型技术路线的颠覆。但是这个颠覆并不是突然出来的，而是研究界、学术界、产业界一直都有探索的，只是智源率先做出来了。

媒体：Emu3的发布有哪些重要意义？

王仲远：Emu3的重要的意义是让语言模型的技术路线和多模态的技术路线不是一个分叉的关系，而是一个统一的关系。因为我们使用了跟大语言模型非常接近和类似的架构是Autoregressive做出了统一多模态大模型，这样可以极大地避免资源浪费。

媒体：Emu3是如何实现图像、视频和文字的统一输入和输出的？

王仲远：Emu3将文本、图像、视频各种模态的信息通过统一的tokenizer 映射到一个离散空间，通过 Autoregressive的方式进行统一训练。相当于发明了一种文字、图像、视频统一的“新语言”，这种语言能够在一个统一的空间里表达。

媒体：Emu3的技术新范式和过去的范式有什么区别？

之前的悟道系列，我们还在追赶大语言模型的GPT3、 GPT 4的阶段，但是到多模态，我们第一次先于国际社会发布，率先验证了新的大一统的原生多模态技术路线。

媒体：Emu3在哪些方面能体现出来便利？

王仲远：不需要去使用多种模型了，只需要一个模型解决所有的事情，One for world, world in one。

媒体：Emu3的可用性如何？需要的硬件设备是怎样的？

王仲远：Emu3对于硬件的要求跟大语言模型一样，这是非常重要的贡献之一。Emu3使用大语言模型的一些硬件就能实现多模态大模型的训练和推理。

当然现阶段我们没有做特别多的工程化开发，智源将统一的 SFT 模型在开源社区发布，这样专业人士能体验到，并且能够做进一步的训练或者调优和各种能力的阐释。

大模型工业化，真正变成产品，是一个完整的体系，依赖底层的硬件，现在的底层硬件，GPU 的芯片，基本围绕像 Transformer 这样的架构进行优化。Diffusion 架构需要的硬件优化可能更多，每一个硬件的迭代周期至少要18个月到两年的时间。

媒体：模型参数量减少，幻觉会不会更严重？

王仲远：首先简单介绍Emu3和 Emu 2的技术区别。Emu2视觉用的还是embedding 的方式，Emu3变成了离散的token。

Emu1，Emu 2是概念验证加探索迭代。当时用了预训好的语言模型和扩散的decoder，快速验证统一的生成式是否能走通，智源是国际上最早做的探索。

因为不需要训练语言模型，基于已有的，成本会比较低。Emu3我们是完全从头训练，是为视频图像文本原生多模态设计的。

媒体：Emu3对于例如 DiT 的这种技术路线，或者前几代的一些技术路线，是降维打击还是完全替代？

王仲远：过去几十年深度学习发展专用模型，在特定的产品应用中有其独特之处。例如，人脸识别，即使大模型做到现在这个程度，也没有直接替换人脸识别的专用模型。在图像、视频特定的一些场景，DiT 架构有独特的优势。

但是Emu3大一统模型更重要的是更通用、泛化的能力以及理解和生成统一的能力上的独特优势。我们不期待立刻能够替换掉所有的DiT技术路线。

OpenAI 做 GPT1、GPT2的时候，业界认为用 Bert即可，bert可以解决很多问题，可以做得更好，直到ChatGPT才统治了整个语言的问题。但是，现在bert还是有独特的价值。2006年提出深度学习，2012年深度学习爆发之后的很长一段时间，企业依然在用传统的 SVM 模型。

所以，替代的周期会比较长，但是技术的先进性是可以很容易做出判断的。

媒体：Emu3视频好像最多5秒24的FPS，这与其他预测模型的区别？

只是如果在一个场景续写，看到的长视频都是一个场景，意义不大。现在整体的续写能力还没有突破长的有情节的视频生成。

Emu3这套框架的独特优势就是因果性，可以基于前面发生的事情预测后面发生的事情，而不是基于一堆噪声去想象。Emu3现在可以5秒一直续写。

媒体：Emu3的局限性是什么？

比如 Open Sora 是一个开源的集合很多能力复现的diffusion transformer，取得了还不错的性能，但是离商业化还有一定差距。随着参数量、数据质量提升，训练效率提升，能达到什么样的水平？有比 Sora更让大家想象不到的能力？是不是能打开更长的富有情节的推理能力？Emu3是一个原生的大一统多模态，跟之前的多模态方法以及单一理解或者生成模型的能力不是一个类型。现在学术界为什么这么感兴趣？因为打开了一个新通道。

Emu3探索出来的原生统一多模态大模型的一个新的技术范式，所需的资源并不比大语言模型小。但是Emu3的技术路线，能够极大可能复用现有的大语言模型训练的基础设施，比如，GPU集群，训练框架不需要做特别大的修改，那么有望加速整个多模态大模型的迭代和最终产业应用。

谈未来方向：期待多模态领域的ChatGPT时刻

媒体：Emu3为什么选择自回归的技术路线？

王仲远：我们一直强调智源的机构定位，要做企业不愿意做，高校做不了的原始创新。

大语言模型，市场已经复现了。所以在语言模型上智源更多的是解决共性的问题。例如，解决大语言模型共性问题的BGE 模型，今年10月登顶了 hugging face 的全球下载量榜单的第一名。

之前Emu 系列做了不少基础工作，智源也在大语言模型上有很多积累。Emu 3用的训练数据很大一部分来自于悟道Aquila大语言模型系列的训练数据，以及 Emu1和Emu2训练的图像、视频数据。今年年初智源研究院也和一些机构，签署了战略合作协议。

过往智源在大语言模型上为行业带来了很多的技术思潮和方向。那么在多模态方向上，智源也需要为整个行业指明一个方向。

王仲远：例如，做更长的时间视频预测。Emu3的技术路线理论上可以一直预测，生成下去。输入的窗口如何变大，输出如何变长，这些大语言模型已经正在走过很多的路径，对于多模态大模型有参考意义，这些问题我们会去探究。

媒体：对于通向AGI的路径怎么看？

王仲远：关于怎么达到AGI行业现在没有共识。关于语言模型能不能达到AGI，现在有很多的争论，OpenAI 的 o1确实证明了大语言模型加强化学习能够进一步的提升模型的智能化的水平，但它到底能不能通往 AGI 仍然有争论。

刚才提到像Lecun，他就认为大语言模型不足以通向AGI。我们认为AGI 是要真正像人类一样，不只是思考推理，还必须是要多模态的。多模态是AGI 的必经之路，尤其是人工智能进入物理世界，进入各行各业的必行之路。

媒体：智源未来三到五年之内的重点是什么？

王仲远：继续研发原生多模态世界模型Emu系列，解决更大规模的数据、算力以及训练。

统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大脑也是研究院正在做的研究。

今年我们也看到了诺贝尔的物理学奖给了Hinton教授，化学奖是给了DeepMind团队。AI for Science 也是智源非常关注的重要研究方向。

媒体：从 c 端传播的角度来说，APP 肯定是最好的方式，未来，有没有计划和一些其他合作伙伴推出一些 c 端 APP？

王仲远：当前市场上的语言模型APP 已经开始基于百亿模型在使用，这个前提是有了千亿、万亿模型，达到更高的性能，百亿模型效果随之更好。

我想再一次强调Emu3架构的优越性，将来多模态大模型都能够非常容易使用，这是Emu3模型的意义。

现在，多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线，那么接下来需要展示，也期待在多模态领域的“ChatGPT” 的时刻。

图注：在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中，12项基准测试的平均得分，Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。

图注：Emu3在海外社媒中的反应