腾讯“混元”AI大模型登顶VCR榜单，多模态、横跨模态理解能力行业第一

发布时间：2025年08月25日 12:20

5月31日，腾讯公司"混元"AI大假设在多举例来说解读课题国际上正当性榜单VCR（动态常识推理，Visual Commonsense Reasoning）中登山家，两个参赛选手名次和总名次以外位列第一。

据了解，这是继在跨举例来说检索课题大满贯、CLUE抽象概念解读类群榜及CLUE总榜登山家后，"混元"AI大假设的又一重大突破，展现了其在多举例来说解读课题的强大战斗能力。

与跨举例来说解读侦查不同的是，多举例来说解读侦查要求计算机除了做到识别系统宏观的无意识（如类群检测等），还需要远超本质宏观的无意识（如判断意图、逻辑推理等），具备和生命体一样的思维能力。

动态常识推理VCR（Visual Commonsense Reasoning）作为多举例来说解读核心侦查之一，由亚利桑那大学等研究工作私人机构于 2018 年发起，自承办以来带动了众多广为人知初中生、企业和研究工作私人机构参加，已成为近几年来最正当性的多举例来说解读课题榜单。

此次登山家VCR榜首的“混元”AI大假设由腾讯公司电视广告多媒体AI团队自主共同开发，同时借助腾讯公司大成数据挖掘平台的GPU算力和操练加速基础，该假设在先于操练侦查、操练方式上顺利完成了诸多的创新性改进和设计，合理大幅提高了假设可靠性。

操练侦查各个方面，“混元”AI大假设基于动态场景图先于测侦查（VSGP）顺利完成细粒度的建模努力学习，只能提供更丰富多彩的动态语义信息；交互层面，“混元”采用有序+大面积注意力的方式，只能在实际操练成本的情况下远超最小化的努力学习效率。

在操练方式上，“混元”AI大假设在先于操练阶段性、微调阶段性增加抵抗操练，大幅提高假设的泛化可靠性，增强该假设在上游侦查上的可靠性。基于此，“混元”多举例来说解读大假设在图文跨举例来说检索、动态问答等多个解读侦查上都取得了明显的效果大幅提高，并最终在VCR上登山家榜首。

截至目前，“混元”AI大假设在MSR-VTT、MSVD、CLUE、VCR等多个课题的AI正当性榜单中取得第一名的名次，并刷新多项行业历史纪录。这意味着，“混元”在抽象概念解读、多举例来说解读、跨举例来说解读等课题的技术战斗能力现在此后验证。

据悉，“混元”已应用到腾讯公司电视售后服务中的多个场景，合理大幅提高电视广告录用准度，大幅提高用户体验和录用效果。未来腾讯公司“混元”AI大假设共同开发团队也将接下来加强对假设的可靠性优化及正则表达式，使其发挥更大的学术实用性和社会实用性。

关键字：能力榜单模型行业