AGI-智源研究院验证-新路线-发布原生多模态世界模型 (智源baai)

引言

在大模型领域,通用人工智能 (AGI) 的理想已鲜少被高调提及。智源研究院的最新举措将这一终极目标重新拉回了聚光灯下。

Emu3:原生多模态世界模型

智源研究院发布了原生多模态世界模型 Emu3,宣称该模型实现了视频、图像和文本三种模态的统一理解与生成。在图像生成任务中,Emu3 的人类评估得分高于 StableDiffusion 的两个版本 SD-1.5 与 SDXL。针对视觉语言理解任务,Emu3 的 12 项基准测试的平均得分略高于微软研究院联合多所高校研发的多模态大模型 LLaVA-1.6。视频生成任务方面,Emu3 的 VBench 基准测试得分略高于 OpenSora 1.2。从语言能力角度看,它的水平大概处于 GPT-3.5。

这是国内大模型领域首次对上述命题作出回答,意味着世界模型路径下的 AGI 进程向前迈进了一小步。

AGI 之争

AGI 的实现路径一直存在争议。其中一派观点认为,只有语言智能才能实现 AGI;另一派则认为,这绕不开多模态的理解与生成统一。这条路径被认为可以达到世界模型,并进一步抵达 AGI。

世界模型能够对环境或世界的状态进行表征,并预测状态之间转移。它使智能体 (Agent) 能够在模拟环境中进行学习,并将学到的策略迁移到真实世界中,从而提高学习效率并减少风险,这对视频生成、自动驾驶以及智能体的发展至关重要。

多模态大模型:理解与生成统一

作为世界模型的前提,多模态大模型的理解与生成统一是一道重要技术门槛。据智源研究院院长王仲远介绍,多模态大模型此前的主。

至于为什么决定走上多模态理解与生成统一的路径,王仲远认为,智源的出发点还是在于定位原始创新,因为对现状不满足,所以必须要做下一代的探索。

结语

虽然已押注在当前道路,王仲远并不认可技术路线已经出现分歧,他认为目前还处在技术路线的多元化发展阶段。

Emu3 的发布表明,多模态大模型理解与生成统一的路径正在取得进展。智源研究院的探索为 AGI 的实现提供了新的思路,也为人工智能领域注入了新的活力。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容