今天小編(衛青柏)要和大家分享的是Manus引爆智能體復現潮!DeepSeek已被整合,項目擠滿開源榜,海外大V排隊求碼,歡迎閱讀~
Manus 背後公司名為 " 蝴蝶效應 ",真的帶火了整個智能體賽道——
開源復現潮出現了,商業閉源產品也卷起來了。
目前進度最快的兩個項目,都是在 Manus 發布的第 0 天發布了復現代碼。
除了之外,另一個開源項目OWL 已經把 DeepSeek 模型整合到多智能體協作框架中。
OWL 來自國内開源社區CAMEL-AI團隊。
OWL 最新提交的結果在智能體測試基準 GAIA 的驗證集上排名平均分第 3,在開源項目中排第 1。
其 Level 1 分數81.13同樣超過了 OpenAI 的 Deep Research,與 Manus 曬出的86.5已經非常接近。
雖然 Level 2 和 Level 3 分數還有差距,不過 CAMEL-AI 團隊的李國豪在交流群中表示,有信心刷爆。
今日的 GitHub 熱榜上,大多是 Agent 相關的項目和工具庫,老牌 Agent 項目 MetaGPT 與 AutoGPT 雙雙被頂到前排。
Camel-AI、OpenManus 所使用的代碼庫 browser-use 也現身,此外金融、編程等領網域的垂直智能體也備受關注。
與此同時,有人注意到 Claude 團隊推出的模型上下文協定 MCP不是已經有小半年了麼,為什麼突然每個人都在讨論它?
原來是每個人都想知道如何造一個 Manus,而 MCP 是一種有效的實現途徑呀。
Manus 火到海外
再來看看 Manus 本尊的進展。
官方社交媒體賬号被短暫禁封後現已恢復,稱将發布更多演示和更新。
Manus 這個產品也成功火到了國外,方法很簡單:發邀請碼。
除了給海外大 V 單獨發之外,Manus 聯創季逸超還與抱抱臉 CEO 取得聯系,公開分享 100 個碼,見者有份,先到先得。
兩人的交流中季逸超談到 Agent 能力可能更多的是對齊問題而不是基礎能力問題,基礎模型被訓練為 " 無論任務有多復雜,都一次性回答所有問題 ",而 " 只需對代理軌迹進行一點後期訓練,就可以立即產生顯著的變化 "。
(順便碼不用去試了,半夜就搶光了。)
海外用戶得到碼之後的劇情和這邊差不多,有不少試用之後被驚豔到的,變成 " 自來水 " 的。
并且海外用戶的付費意願确實要強一些,畢竟比起 OpenAI 兩萬美元一個月的博士級智能體總是要便宜許多。
很多人拿到 Manus 做的第一件事,都是讓他收集自己的資料,編寫并部署個人主頁。
其中 Rowan Cheung 表示 Manus 收集到關于他的個人信息 100% 準确且是最新的。
類似的任務還有日本網友讓 Manus 部署一個介紹他自己的網站。
他分享了體驗中的一個細節:雖然 Manus 可以自己完成所有任務,但如果在執行過程中給出意見,它也可以靈活地改變計劃并執行,就好像真的再給人下達指令一樣。
更復雜的編程類任務還有制作一個 javascript 的飛行遊戲。
也有人把它當做 Deep Research 類工具,尋找租房信息只花了不到 10 分鍾時間。
主要的抱怨集中在速度有些慢,以及沒有碼。
One More Thing
作為 Manus 出圈的副作用之一,GAIA 基準測試正在成為智能體類產品必争之地。
GAIA 由 Meta AI、HuggingFace 和 AutoGPT 團隊推出,圖靈獎得主 Yann LeCun 和 HuggingFace 首席科學家 Thomas Wolf 參與,旨在解決現有大語言模型基準測試被快速突破、難以評估新模型的問題。
GAIA 測試由 450+ 具有明确答案的復雜問題組成,分為三個難度級别,考驗智能體系統的工具使用能力以及自主性。
Level 1:通常解題步驟不超過 5 步,且不需要工具,或最多使用一種工具。如簡單的信息檢索和處理,任何優秀的語言模型都可以完成。
Level 2:需要在 5-10 步之間完成,并且需要組合使用不同工具。如 " 根據附件 Excel 檔案計算當地快餐連鎖店食品(不含飲料)的總銷售額 "。
Level 3:面向近乎完美的通用 AI 助手,要求 AI 能夠執行任意長度的復雜動作序列,使用多種工具,并具備廣泛的世界知識和信息獲取能力。
如 " 在 2006 年 1 月 21 日 NASA 的每日天文圖片中有兩名宇航員,截至 2023 年 8 月,找出較小宇航員所在 NASA 宇航員小組中在太空停留時間最短的宇航員及其停留時間 ",解答這類問題需要綜合網絡搜索、信息篩選、知識推理等多種能力。
人類在 Level 2、和 Level 3 上的成功率分别是92% 和 87.3%,測試推出時最先進的語言模型 GPT-4 得分為 9.7% 和 0。
此外 GAIA 排行榜分為測試集(Test)和驗證集(Validation)兩項,其中驗證集是公開數據,測試集為私有數據,測試集的含金量更高一些。
目前測試集排行榜中,h2oGPTe Agent(來自 H20.ai)、Trase Agent(來自 Trase Systems)兩個商業閉源系統的 Level 2 分數與 Manus 公布分數(70.1%)接近。
Manus 團隊公布的 Level 3 分數為 57.7%,領先幅度比較大。
ImageNet數據集與競賽開啟了深度學習浪潮之後,每個時代都有自己的當紅榜單指引着最前沿技術的發展。
在 BERT 時代是語言理解基準CLUE、SpuerCLUE。
随後 ChatGPT、Claude、Gemini 已經刷爆了考驗各學科知識的MMLU、以及用戶用腳投票的ChatBot Arena大模型競技場。
o1/r1/QwQ 類推理模型正在比拼數學(AIME、FrontierMath)、博士級别理科題(GPQA)、編程 / 軟體工程能力(Codeforces、SWE-bench、LiveCodeBench)。
智能體刷 GAIA,似乎正在成為行業最新共識。
或者不久以後,可以期待一下 AgentArena 智能體競技場?
OpenManus
https://github.com/mannaandpoem/OpenManus
OWL
https://github.com/camel-ai/owl
GAIA Bencmark
https://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983
關于Manus引爆智能體復現潮!DeepSeek已被整合,項目擠滿開源榜,海外大V排隊求碼就分享完了,您有什麼想法可以聯系小編(衛青柏)。