阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

：2024年09月02日：智東西

分享到：

智東西8月30日消息，阿里通義千問于昨日開源新一代視覺語言模型Qwen2-VL。其中，Qwen2-VL-72B在大部分指標(biāo)上都達(dá)到了最優(yōu)，刷新了開源多模態(tài)模型的最好表現(xiàn)，甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源...

編譯 | Vendii

編輯 | 漠影

智東西8月30日消息，阿里通義千問于昨日開源新一代視覺語言模型Qwen2-VL。其中，Qwen2-VL-72B在大部分指標(biāo)上都達(dá)到了最優(yōu)，刷新了開源多模態(tài)模型的最好表現(xiàn)，甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。

據(jù)官方博客文章介紹，Qwen2-VL基于Qwen2打造，相比第一代Qwen-VL，Qwen2-VL具有以下特點：

1、能讀懂不同分辨率和不同長寬比的圖片：Qwen2-VL在多個視覺理解基準(zhǔn)測試中取得了全球領(lǐng)先的表現(xiàn)，其中包括但不限于考察數(shù)學(xué)推理能力的MathVista、考察文檔圖像理解能力的DocVQA、考察真實世界空間理解能力的RealWorldQA、考察多語言理解能力的MTVQA。

2、能理解20分鐘以上的長視頻：Qwen2-VL可理解長視頻，并將其用于基于視頻的問答、對話和內(nèi)容創(chuàng)作等應(yīng)用中。

3、能夠操作手機和機器人的視覺智能體：借助復(fù)雜推理和決策的能力，Qwen2-VL可集成到手機、機器人等設(shè)備，根據(jù)視覺環(huán)境和文字指令進行自動操作。

4、多語言支持：除英語和中文外，Qwen2-VL現(xiàn)在還支持理解圖像中的多語言文本，包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等。

通義千問團隊以Apache 2.0協(xié)議開源了Qwen2-VL-2B和Qwen2-VL-7B，并發(fā)布了Qwen2-VL-72B的API。開源代碼已集成到Hugging Face Transformers、vLLM和其他第三方框架中。

GitHub項目地址：https://github.com/QwenLM/Qwen2-VL

一、媲美GPT-4o！多個指標(biāo)刷新最好表現(xiàn)，3種規(guī)模模型開源

通義千問團隊從6個方面來評估Qwen2-VL分別在72B、7B、2B三種規(guī)模上的視覺能力，包括復(fù)雜的大學(xué)水平問題解決、數(shù)學(xué)能力、文檔和表格的理解、多語言文本圖像的理解、通用場景問答、視頻理解、視覺智能代理（Visual AI Agent）能力。

整體來看，Qwen2-VL-72B在大部分指標(biāo)上都達(dá)到了最優(yōu)，甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。

具體而言，該模型在文檔理解方面優(yōu)勢明顯，僅在復(fù)雜的大學(xué)水平問題解決方面和GPT-4o還有差距。同時，Qwen2-VL 72B也刷新了開源多模態(tài)模型的最好表現(xiàn)。

▲Qwen2-VL-72B模型能力分?jǐn)?shù)比較（圖源：通義千問團隊官方博客文章）

在7B規(guī)模上，Qwen2-VL同樣支持單圖、多圖、視頻的輸入，在更經(jīng)濟的規(guī)模上也實現(xiàn)了有競爭力的性能表現(xiàn)。

比如，Qwen2-VL-7B在DocVQA考察的文檔理解能力，以及MTVQA考察的多語言文本圖片理解能力都處于SOTA水平。在AI領(lǐng)域，SOTA模型通常是指在特定任務(wù)或數(shù)據(jù)集上性能表現(xiàn)最優(yōu)的模型。

▲Qwen2-VL-7B模型能力分?jǐn)?shù)比較（圖源：通義千問團隊官方博客文章）

除此之外，通義千問團隊還提供了一個更小的2B規(guī)模的模型，以此支持移動端的豐富應(yīng)用。Qwen2-VL-2B具備完整圖像視頻多語言的理解能力，特別在視頻文檔和通用場景問答方面，相較同規(guī)模模型優(yōu)勢明顯。

▲Qwen2-VL-2B模型能力分?jǐn)?shù)比較（圖源：通義千問團隊官方博客文章）

二、手寫字體、公式代碼、網(wǎng)頁截屏、視頻影像……多場景識別理解不在話下

在官方博客文章列舉的多個模型能力案例中，Qwen2-VL覆蓋了廣闊的應(yīng)用場景：能識別手寫文字、圖中文字，能轉(zhuǎn)寫數(shù)學(xué)公式、多種語言文字，能解數(shù)學(xué)幾何題、LeetCode編程題，能讀懂不同分辨率和不同長寬比的圖片，能用特定格式輸出答案，還能對視頻內(nèi)容進行總結(jié)和解讀。

1、準(zhǔn)確識別圖中文字，輕松轉(zhuǎn)寫數(shù)學(xué)公式

對于下圖列舉出來的手寫文字、融合在圖像中的文字，Qwen2-VL都能準(zhǔn)確地識別出對應(yīng)的語種和文字內(nèi)容（圖中分別涉及到葡萄牙語、中文）。對于下圖右下角，Qwen2-VL不只能識別出具體的數(shù)字，還能識別出各個數(shù)字對應(yīng)的盒子的顏色。

▲Qwen2-VL能夠準(zhǔn)確識別圖中的文字（圖源：通義千問團隊官方博客文章）

對于下圖左半邊中涉及到的復(fù)雜數(shù)學(xué)公式，Qwen2-VL可以輕松地用Markdown格式轉(zhuǎn)寫出來。對于下圖右半邊中涉及到的中文、日語、韓語、西班牙語、葡萄牙語、愛爾蘭語、英語、德語、波蘭語、希臘語、越南語、蒙古語、俄語、印地語、斯瓦希里語，Qwen2-VL也能一字不落地轉(zhuǎn)錄出來。

▲Qwen2-VL能夠準(zhǔn)確轉(zhuǎn)錄圖中的復(fù)雜公式和多語種（圖源：通義千問團隊官方博客文章）

2、理解現(xiàn)實世界信息，準(zhǔn)確輸出問題答案

對于數(shù)學(xué)平面幾何題目、LeetCode平臺的編程題目、1792×14400尺寸的技術(shù)文檔截圖，Qwen2-VL也能識別理解并回答用戶的提問。

▲Qwen2-VL能夠解決的各種問題（圖源：通義千問團隊官方博客文章）

Qwen2-VL還能基于天氣預(yù)報軟件的截屏、網(wǎng)頁搜索結(jié)果的截屏、Linux官方檔案庫的截屏等等抓取用戶需要的信息，用特定格式（如表格、段落編號方式、JSON格式的數(shù)組）輸出。

▲Qwen2-VL回答支持多種格式（圖源：通義千問團隊官方博客文章）

3、總結(jié)視頻要點，解讀視頻內(nèi)容

此外，除了靜態(tài)圖像，Qwen2-VL還能進行視頻內(nèi)容分析。它能夠總結(jié)視頻要點、即時回答相關(guān)問題，并維持連貫對話，幫助用戶從視頻中獲取有價值的信息。

比如下圖中，用戶上傳了一段2分57秒的視頻，并讓Qwen2-VL描述這段視頻，描述的內(nèi)容非常詳細(xì)且準(zhǔn)確。然后用戶提問了視頻中人物穿著的衣服的顏色，Qwen2-VL也給到了符合視頻內(nèi)容的回答。

▲Qwen2-VL能夠識別視頻，并圍繞該視頻回答相應(yīng)問題（圖源：通義千問團隊官方博客文章）

三、實時數(shù)據(jù)檢索+實時環(huán)境交互，或?qū)⑴鲎渤龈嗫赡苄?/strong>

據(jù)官方博客文章介紹，Qwen2-VL在作為視覺代理方面展現(xiàn)出潛力，能初步利用視覺能力實現(xiàn)一些自動化工具的調(diào)用和交互。

視覺代理（Visual Agent）通常指的是一種AI系統(tǒng)，它能夠處理和理解視覺信息（如圖像或視頻），并在此基礎(chǔ)上進行決策或執(zhí)行任務(wù)。

Qwen2-VL支持函數(shù)調(diào)用，使其能夠利用外部工具進行實時數(shù)據(jù)檢索，比如航班狀態(tài)、天氣預(yù)報、包裹追蹤。

▲Qwen2-VL根據(jù)用戶提供的航班信息調(diào)用“weather_hour24”工具查詢天氣狀況（圖源：通義千問團隊官方博客文章）

通義千問團隊還初步做了一些簡單的探索，讓模型能夠更像人一樣和環(huán)境交互。“使得Qwen2-VL不僅作為觀察者，而是能有代替人做更多的執(zhí)行者的可能。”官方博客文章寫道。

在以下視頻中，Qwen2-VL可以直接代替人類操作手機。

▲Qwen2-VL進行視覺交互并自主操作手機（圖源：通義千問團隊官方博客文章）

以及以下視頻中，Qwen2-VL能根據(jù)識別到的場上信息和提示詞描述進行“24點”游戲的決策，并且取得了勝利。

▲Qwen2-VL進行視覺交互并完成紙牌游戲（圖源：通義千問團隊官方博客文章）

結(jié)語：語言能力已經(jīng)遠(yuǎn)遠(yuǎn)不夠！模型正在卷向多模態(tài)

隨著AI技術(shù)的飛速發(fā)展，語言模型曾一度成為技術(shù)競爭的焦點，但自2023年3月15日OpenAI發(fā)布了能夠讀圖的GPT-4后，多模態(tài)模型的戰(zhàn)鼓也是越敲越響。模型不再局限于處理單一的文本數(shù)據(jù)，而是通過整合圖像、視頻、音頻等多種信息源，展現(xiàn)出更為強大的認(rèn)知和理解能力。

視覺語言模型是多模態(tài)模型領(lǐng)域內(nèi)的一個重要細(xì)分方向。這些模型通過結(jié)合計算機視覺與自然語言處理技術(shù)，在圖像理解、生成及跨模態(tài)交互等領(lǐng)域展現(xiàn)出巨大潛力。它們可以被應(yīng)用于視覺問答（VQA）、圖像分類、目標(biāo)檢測、圖像分割等多種任務(wù)，未來有望在醫(yī)療診斷、機器人技術(shù)等領(lǐng)域內(nèi)實現(xiàn)更加廣泛的應(yīng)用。

來源：GitHub

[我要糾錯]
[ 編輯：宋聰喬 &發(fā)表于江蘇 ]

關(guān)鍵詞：編譯 Vendii 編輯東西 8月

來源：本文內(nèi)容搜集或轉(zhuǎn)自各大網(wǎng)絡(luò)平臺，并已注明來源、出處，如果轉(zhuǎn)載侵犯您的版權(quán)或非授權(quán)發(fā)布，請聯(lián)系小編，我們會及時審核處理。
聲明：江蘇教育黃頁對文中觀點保持中立，對所包含內(nèi)容的準(zhǔn)確性、可靠性或者完整性不提供任何明示或暗示的保證，不對文章觀點負(fù)責(zé)，僅作分享之用，文章版權(quán)及插圖屬于原作者。

點個贊

0

踩一腳

0

上一篇 2024科學(xué)家精神領(lǐng)航開學(xué)第一課，聽賈陽講述科技與中國...

下一篇晉江文學(xué)城痛批“部分博主偷多部小說喂AI”：無恥囂張...

最新文章

∇“有志青年”講述別樣人生，助力青年群體探索人生多元可能
∇習(xí)近平向全國廣大青年致以節(jié)日祝賀
∇養(yǎng)老變享老，河北方舟醫(yī)養(yǎng)中心二期正式運營，新增800張床位
∇聯(lián)袂推動人工智能賦能教育創(chuàng)新！山大與科大訊飛簽署戰(zhàn)略合作協(xié)議
∇一個產(chǎn)業(yè)教授、一個校友，山東化工職業(yè)學(xué)院兩杰出人才成全國勞模
∇《老齡康養(yǎng)服務(wù)品牌評價通則》在京正式發(fā)布！力明學(xué)院參編
∇濰坊市濰城區(qū)鄉(xiāng)村振興學(xué)院在山東經(jīng)貿(mào)職業(yè)學(xué)院成立
∇耶魯4連冠！新航道AF國際藝術(shù)教育濟南再創(chuàng)藤校神話
∇課堂變身“脫口秀”！這堂特殊的法制課讓學(xué)生解鎖法律知識新體驗
∇讓普通學(xué)子走向世界舞臺：山東師大附中國際部的“逆襲”育人法則

報考信息教育動態(tài) 繽紛校園教育百科招聘會省內(nèi)大學(xué) 資料下載學(xué)生兼職教育培訓(xùn) 房屋租賃學(xué)生跳蚤組團行動互動問答

您在閱讀：阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

最熱文章
更多>>

●德州多名學(xué)生傷亡車禍后續(xù)：...03-04

●多次摸胸、下體頂臀部……高...07-21

●女大學(xué)生去山區(qū)支教卻遭強奸...07-17

●上萬中國人正在菲律賓被“奴...08-29

●某地區(qū)試點“五四制”改革：...02-19

●完虐，南京特長生考試難上天...05-20

●借貸寶不雅照疑泄露大量女生...12-01

教育百科
更多>>

●報效祖國建功西部丨從“象牙...05-03

●實習(xí)支教“馬拉松”青春接力...05-03

●“雙千”計劃解鎖高質(zhì)量就業(yè)...04-30

●依法依規(guī)厘清校園安全責(zé)任邊...04-30

●看懂AI“樹洞”背后的情感需...04-30

●教師悅讀成長計劃｜王婭萍：...04-30

●山東教育者手記｜孫殿勤：快...04-29

相關(guān)新聞

●山東交通職業(yè)學(xué)院將黨支部扎...05-03

●泰安市醫(yī)師協(xié)會、力明學(xué)院共...05-03

●山東特殊教育職業(yè)學(xué)院信息技...05-03

●山東教育者手記｜王煥濤：夾...05-03

●教師悅讀成長計劃｜李新朝：...05-03

●山東教育者手記｜高新超：教...05-03

●教師悅讀成長計劃｜趙晶晶：...05-03

免费在线a视频-免费在线观看a视频-免费在线观看大片影视大全-免费在线观看的视频-色播丁香-色播基地

阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

一、媲美GPT-4o！多個指標(biāo)刷新最好表現(xiàn)，3種規(guī)模模型開源

二、手寫字體、公式代碼、網(wǎng)頁截屏、視頻影像……多場景識別理解不在話下

三、實時數(shù)據(jù)檢索+實時環(huán)境交互，或?qū)⑴鲎渤龈嗫赡苄?/strong>

結(jié)語：語言能力已經(jīng)遠(yuǎn)遠(yuǎn)不夠！模型正在卷向多模態(tài)

[ 編輯：宋聰喬 &發(fā)表于江蘇 ]

關(guān)鍵詞：編譯 Vendii 編輯東西 8月

您在閱讀：阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

最熱文章

教育百科

相關(guān)新聞

聯(lián)系我們

用戶服務(wù)

客戶服務(wù)

網(wǎng)站公告

媒體我們

微信公眾號

新浪微博

全國統(tǒng)一熱線： 025-81550000

免费在线a视频-免费在线观看a视频-免费在线观看大片影视大全-免费在线观看的视频-色播丁香-色播基地

阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

一、媲美GPT-4o！多個指標(biāo)刷新最好表現(xiàn)，3種規(guī)模模型開源

二、手寫字體、公式代碼、網(wǎng)頁截屏、視頻影像……多場景識別理解不在話下

三、實時數(shù)據(jù)檢索+實時環(huán)境交互，或?qū)⑴鲎渤龈嗫赡苄?/strong>

結(jié)語：語言能力已經(jīng)遠(yuǎn)遠(yuǎn)不夠！模型正在卷向多模態(tài)

[ 編輯：宋聰喬 &發(fā)表于江蘇 ]

關(guān)鍵詞： 編譯 Vendii 編輯 東西 8月

最新文章

您在閱讀：阿里開源視覺大模型Qwen2-VL：可理解20分鐘長視頻，性能比肩GPT-4o

最熱文章

教育百科

相關(guān)新聞

聯(lián)系我們

用戶服務(wù)

客戶服務(wù)

網(wǎng)站公告

媒體我們

微信公眾號

新浪微博

全國統(tǒng)一熱線： 025-81550000

關(guān)鍵詞：編譯 Vendii 編輯東西 8月