国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的,阿里这就开源了。不过最大的qwen2-vl 72b 没有开源,只开源了比较小规模的 2b 和 7b。
qwen2-vl 基于 qwen2 打造,相比 qwen-vl,它具有以下特点:
- 读懂不同分辨率和不同长宽比的图片:qwen2-vl 在 mathvista、docvqa、realworldqa、mtvqa 等视觉理解基准测试中取得了全球领先的表现。
- 理解20分钟以上的长视频:qwen2-vl 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
- 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,qwen2-vl 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
- 多语言支持:为了服务全球用户,除英语和中文外,qwen2-vl 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
模型架构上值得注意的内容:
- qwen2-vl 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比,qwen2-vl 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。
- 架构上的另一重要创新则是多模态旋转位置嵌入(m-rope)。传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 m-rope 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun299487.html