阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

pu8个月前科技689

阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。

据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。

官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。

此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集 “试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

相关文章

《长安三万里》票房破11亿 追光动画打破魔咒

【】7月23日消息,据灯塔专业版实时数据,截至7月23日9时34分,影片《长安三万里》票房突破11亿。 据灯塔专业版实时数据,截至7月22日11时54分,2023年暑期档(6月1日-8月31日)总票...

吴泳铭接替张勇出任阿里云代理董事长与CEO

【】9月11日消息,阿里巴巴在港交所发布“阿里巴巴集团宣布阿里云智能集团主席与首席执行官变更”公告。 公告称,阿里巴巴已于今日完成领导层交接,由蔡崇信接任本公司董事会主席及吴泳铭接任公司首席执行官及...

阿里云2024财年Q1 经调整EBITA利润3.87亿元

【】8月10日消息, 阿里巴巴集团公布2024财年Q1业绩。阿里云收入增长4%至251.23亿元,经调整EBITA利润增长106%至3.87亿元。 阿里巴巴集团董事会主席兼CEO、阿里云智能集团董事...

阿里云换帅之后

距离上次大模型闭门会“西溪论道”还没过多久,张勇宣布了辞职,虽然但是,多少还是让人觉得突然。 毕竟当时,他还在聊ToB创业者现在和未来的压力,谈阿里云的定位和以后的规划,那时他是阿里云的董事长兼CE...

阿里又有大动作:阿里云不再分拆 盒马上市暂缓 马云减持

【】11月17日消息,高调宣布旗下业务分拆上市仅半年,阿里的计划又变了,多项业务有大动作。 11月16日,阿里发布2024财年第二季度财报,披露许多关键信息,其中最受关注的是,不再推进云智能集团完全...

阿里云张勇:AI云服务需求非常旺盛

新浪科技讯8月10日晚间消息,阿里巴巴集团公布新一季度业绩,阿里云收入增长4%至251.23亿元,经调整EBITA利润增长106%至3.87亿元。 财报显示,阿里云本季度收入增长主要受到存储、网络和...