(资料图片)
众所周知,万众瞩目的大型多模态模型GPT-4,能接受图像和文本输入,输出文本内容。最让人震撼的莫过于其对于如下图片的Joke Understanding,俗称“梗图”理解(我也不知道为什么要这么翻译,可能因为我俗,也可能这样Joke属性拉满)。
那为什么对于“梗图”的理解如此充满噱头(bushi,至关重要呢?
举个不恰当的例子:正如你永远不知道自己在兄弟的自媒体视频里充当什么角色,你也永远不会知道你的用户下一秒会塞给你什么样突破想象力边界的输入。用户能有什么错呢,Ta不过是爱你罢了。
当然,在用户天真无邪的折磨下,如果抗住了压力,一波操作,完美应对,那绝对可以说是屌炸天。这是一个成熟的人工智能模型了,可以应付刁钻的用户了(开玩笑,逃)!
正经地说,这预示着人工智能模型对于一张图的理解不仅仅局限在识别图中的物体以及空间关系这些低阶层面,对于物体组合而形成的图像意境、人文幽默等更高级的蕴含信息有了一定的感知能力。简而言之,它要 秃 了变强了。
众所周知,随着OpenAI在公众的风评中逐渐变成Open API but ClosedAI,其强大的多模态对话能力引无数英雄尽折腰,纷纷追赶效仿,试与之争锋对决。这不,MiniGPT-4的热度至今未减,新推出的LLaVA也才不足半月,新的多模态对话模型已然问世。阿里达摩院开源了其多模态对话生成模型mPLUG-Owl秀出其强大的图文理解能力。
论文:https://arxiv.org/abs/2304.14178
项目:https://github.com/X-PLUG/mPLUG-Owl
试玩:https://modelscope.cn/studios/damo/mPLUG-Owl/summary 该模型的贡献简列如下( 懒得看直接跳过吧,不慌,就是玩):(1) 提出一种新的模块化的训练多模态大模型的方式;(2)提出测评OwlEval,以便测试多模态模型在视觉相关任务上的能力;(3)开源模型代码,权重以及 在线demo,方便研究者进行进一步的研究。(虽然没有性感荷官在线发牌,但是性感AI,在线对话,也蛮好玩的哈) 介绍完创新点,再简单哔哔叨一下模型的模型架构。mPLUG-Owl由视觉基础模型 、视觉抽象模块 以及预训练语言模型组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。 叨叨了这么多,那这个模型的效果如何呢?首先上文章开头的梗图:效果还不错,再来看看其他梗图的效果以及与之探究终极哲学Why
mPLUG-Owl模型的多轮对话和知识迁移能力都很强,在一些纯文本case上的表现感觉可以媲美GPT4。对于一些知识性很强的图文问答,表现凶猛,具有很强的推理能力。其视觉模型也明显好于其他同类型模型。但该模型的“梗图”理解能力在某些场合下还是稍逊于GPT-4。虽然正确的理解了笑点,但错误地将VGA插头识别为了USB插头。