高馬爾
一個信息發佈的網站

7B模型搞定AI視頻通話,阿裏最新開源炸場,看聽説寫全模态打通,開發者企業免費商用

今天小編(郜萌運)要和大家分享的是7B模型搞定AI視頻通話,阿裏最新開源炸場,看聽説寫全模态打通,開發者企業免費商用,歡迎閲讀~

深夜重磅!阿裏發布并開源首個端到端全模态大模型——

通義千問 Qwen2.5-Omni-7B,來了。

僅靠一個一體式模型,就能搞定文本、音頻、影像、視頻全模态,并實時生成文本和自然語音。

堪稱 7B 模型的全能冠軍。

你的 iPhone 搭載的很可能就是它!

現在打開 Qwen Chat,就能直接和它實時進行視頻或語音互動:

話不多説,先來看一波能力展示。

在大街上同它視頻通話,它能正确識别周圍環境,按照你的需求為你推薦餐館:

走進廚房,它又化身 " 智能菜譜 ",一步步指導你變成大廚:

在多模态任務 OmniBench 評測中,Qwen2.5-Omni 表現刷新記錄拿下新 SOTA,遠超谷歌 Gemini-1.5-Pro 等同類模型。

在單模态的語音識别、翻譯、音頻理解、影像推理、視頻理解、語音生成任務中,Qwen2.5-Omni 的全維度表現也都優于類似大小的單模态模型以及閉源模型。

在 seed-tts-eval 語音生成基準中,Qwen2.5-Omni 展現出與人類水平相當的語音合成能力。

這意味着 Qwen2.5-Omni-7B 能很好地和世界進行實時互動,甚至能輕松識别音視頻情緒。

再來敲重點:

Qwen2.5-Omni-7B 一開源,網友直呼這才是真正的 OpenAI(doge)。

網友紛紛表示可以直接拿來裝到智能眼鏡上了:

這可能是智能眼鏡的完美模型。

7B 模型的新紀錄!

目前,在 Qwen Chat 上即可體驗該模型支持的 AI 語音和視頻通話功能。

更多實例,一起來看 ~

實測效果驚豔

首先,Qwen2.5-Omni-7B 能勝任免費的數學家教。

它能像人類老師一樣,看到題目、聽懂問題,并且一步一步耐心講解。

更復雜的論文它也看得懂。

只需共享螢幕,然後将論文從上至下滑動," 給它看一遍 "。

它就能通俗解釋論文内容。

比如 PPT、網頁資料等,也能找它做講解。

而且它還有一定藝術見解,比如可以陪着你畫畫,然後給出指導建議。

或者聽你演奏的音樂,給出更好的改進建議。

我們還進行了一手實測,在 Qwen Chat 上每天可使用語音和視頻聊天 10 次。

實測中,模型能很好地理解商品界面和優惠政策。

響應速度也很快,并且會引導人類繼續問下去、很有耐心。

需要注意的是,當前視頻通話還只是 Beta 測試版,每次通話限時 3 分鍾。

Hugging Face 的產品負責人 Jeff Boudier 也第一時間上手試玩。

模型的英文能力一樣出眾,而且它不僅回答看到了杯子,還細致描述了杯子上的笑臉花紋。

首創 Thinker-Talker 雙核架構

目前官方已放出 Qwen2.5-Omni 技術 Blog 和論文。

Qwen2.5-Omni 采用通義團隊首創的全新架構——Thinker-Talker 雙核架構

其中,Thinker 就像 " 大腦 ",負責處理和理解來自文本、音頻、視頻等多模态的輸入信息,生成高層語義表征以及對應的文本内容。

Talker 則更像 " 嘴巴 ",以流式的方式接收由 Thinker 實時輸出的語義表征與文本,并流暢地合成離散語音 tokens。

具體來説,Thinker 基于 Transformer 解碼器架構,融合音頻 / 影像編碼器進行特征提取。

而 Talker 采用雙軌自回歸 Transformer 解碼器設計,在訓練和推理過程中直接接收來自 Thinker 的高維表征,并共享 Thinker 的全部歷史上下文信息。因此,整個架構作為一個緊密結合的單一模型運行,支持端到端的訓練和推理。

與此同時,團隊還提出了一種新的位置編碼算法 TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding  (位置嵌入)融合音視頻技術

TMRoPE 編碼多模态輸入的三維位置信息,即多模态旋轉位置嵌入(M-RoPE),并結合絕對時間位置,通過将原始旋轉嵌入分解為時間、高度和寬度三個部分實現。

另外值得一提的是,從技術層面來看,Qwen2.5-Omni 和一般的視頻 / 語音理解模型以及其相應的視頻 / 語音對話的 AI 功能,也有本質性區别。

在傳統語音理解大模型的人機互動場景裏,一般運用 ASR(Automatic Speech Recognition,自動語音識别)技術,把人類語音轉換為文字文本,随後将其交給大語言模型處理,最終生成的内容借助 TTS(Text-to-Speech,語音合成)技術轉化為語音反饋給用户。

而視頻理解模型是基于圖片、視頻進行大模型理解,并以文字形式輸出反饋。

這兩種模型均屬于相互獨立的單鏈路模型。在一些 AI 應用中,甚至會串聯多個模型來實現類似功能,如此一來,鏈路變得更長,效率大打折扣。

Qwen2.5-Omni-7B 的特點在于,它原生支持視頻、圖片、語音、文字等多模态輸入,并能原生生成語音及文字等多模态輸出

也就是説,一個模型就能通過 " 看 "、" 聽 "、" 閲讀 " 等多種方式來綜合思考。

所以 Qwen2.5-Omni 得以在一系列同等規模的單模态模型權威基準測試中,拿下最強全模态性能,在語音理解、圖片理解、視頻理解、語音生成等領網域的測評分數,均領先于專門的音頻(Audio)或視覺語言(VL)模型。

搶先看到 Apple Intelligence?

一個月前,阿裏公開确認與蘋果合作,宣布通義千問将為國行 iPhone 用户提供 AI 功能,此消息一經披露,便在科技圈引發熱議。

而這次 Qwen2.5-Omni 開源,就是奔着端側部署來的,7B 尺寸使其具備直接嵌入手機的可行性,仿佛提前看到了 Apple Intelligence,讓大家看到多模态大模型上手機都能有哪些效果。

不只是蘋果,據量子位了解,這種端側部署能力已吸引超 90% 國產手機品牌接入通義千問,包括 OPPO、vivo、榮耀、傳音等,還有眾多汽車品牌、AI 硬體產品選擇與之攜手。

為啥都選通義千問?

梳理通義千問的最新發展動态,答案便不難理解。

首先,通義千問 Qwen 目前已穩居全球最大 AI 大模型族群。

僅在最近一個月的時間裏,就接連推出了一系列具有競争力的模型:推理模型 Max 旗艦版 QwQ-Max-Preview、視頻生成模型 Wan 2.1、推理模型 QwQ-32B、視覺語言模型 Qwen2.5-VL-32B-Instruct ……

實際上,2023 年至今,阿裏通義團隊已累計開源 200 多款模型,涵蓋從 0.5B 到 110B 全尺寸範圍,模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模态領網域,應用場景也極為豐富。

在海内外開源社區中,通義千問 Qwen 衍生模型數量更是一路飙升,現已超過 10 萬,超越 Llama 系列。

根據 Hugging Face 在 2 月 10 日發布的最新全球開源大模型榜單,排名前十的開源大模型無一例外,全部是基于通義千問 Qwen 開源模型二創的變體模型。

其次,阿裏巴巴通過開源等一系列積極舉措,成功構建起一個豐富且活躍的大模型生态。

阿裏不僅将開源進行到底,更向大模型公司提供了全方位的服務支持,其中包括算力資源以及開發工具等,阿裏雲已成為中國大模型領網域的公共 AI 算力底座。

截至 2025 年 2 月中旬,阿裏魔搭社區 ModelScope 的模型總量已超 4 萬個,服務超 1000 萬開發者。

那麼通義千問 Qwen 團隊下一步要幹啥?

期待聽到您的反饋,并看到您使用 Qwen2.5-Omni 開發的創新應用。

在不久的将來,将着力增強模型對語音指令的遵循能力,并提升音視頻協同理解能力。還将持續拓展多模态能力邊界,發展全面的通用模型。

感興趣的友友不如一起來上手試試吧 ~

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo 體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于7B模型搞定AI視頻通話,阿裏最新開源炸場,看聽説寫全模态打通,開發者企業免費商用就分享完了,您有什麼想法可以聯系小編(郜萌運)。