首个国产自研通用多模态大模型

当前位置：新闻动态>
正文

智子引擎多模态模型迈向AGI：首次实现自主更新，写真视频生成力压Sora2024-08-02

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上，人大系初创公司智子引擎隆重发布全新的多模态大模型Awaker 1.0，向 AGI 迈出至关重要的一步。

相对于智子引擎前代的 ChatImg 序列模型，Awaker 1.0 采用全新的 MOE 架构并具备自主更新能力，是业界首个实现 “真正” 自主更新的多模态大模型。

在视觉生成方面，Awaker 1.0 采用完全自研的视频生成底座 VDT，在写真视频生成上取得好于 Sora 的效果，打破大模型 “最后一公里” 落地难的困境。

Awaker 1.0 是一个将视觉理解与视觉生成进行超级融合的多模态大模型。在理解侧，Awaker 1.0 与数字世界和现实世界进行交互，在执行任务的过程中将场景行为数据反哺给模型，以实现持续更新与训练；在生成侧，Awaker 1.0 可以生成高质量的多模态内容，对现实世界进行模拟，为理解侧模型提供更多的训练数据。

尤其重要的是，因为具备 “真正” 的自主更新能力，Awaker 1.0 适用于更广泛的行业场景，能够解决更复杂的实际任务，比如 AI Agent、具身智能、综合治理、安防巡检等。

在理解侧，Awaker 1.0 的基座模型主要解决了多模态多任务预训练存在严重冲突的问题。受益于精心设计的多任务 MOE 架构，Awaker 1.0 的基座模型既能继承智子引擎前代多模态大模型 ChatImg 的基础能力，还能学习各个多模态任务所需的独特能力。相对于前代多模态大模型 ChatImg，Awaker 1.0 的基座模型能力在多个任务上都有了大幅提升。

鉴于主流的多模态评测榜单存在评测数据泄露的问题，我们采取严格的标准构建自有的评测集，其中大部分的测试图片来自个人的手机相册。在该多模态评测集上，我们对 Awaker 1.0 和国内外最先进的三个多模态大模型进行公平的人工评测，详细的评测结果如下表所示。注意到 GPT-4V 和 Intern-VL 并不直接支持检测任务，它们的检测结果是通过要求模型使用语言描述物体方位得到的。

已加载全部内容
下一篇
携手京西智谷，共启人工智能新篇章

携手打造企业AI能力，大模型赋能企业核心驱动力

携手打造企业AI能力
大模型赋能企业核心驱动力

立即体验