作者:路世明
Manus的出現(xiàn),激起了科技與資本市場的雙重震蕩,一時間AIAgent相關(guān)概念股集體大漲,阿里、谷歌、微軟等科技巨頭密集發(fā)布智能體研發(fā)計劃......
而在這場熱潮的背后,是AI技術(shù)從“被動應(yīng)答”向“主動執(zhí)行”的范式躍遷。
盡管市場的評價褒貶不一,但不能否認(rèn),Manus的突破性在于,它首次驗證了通用型AIAgent在復(fù)雜場景下的商業(yè)化可行性。
傳統(tǒng)的大語言模型雖能生成文本,卻難以閉環(huán)執(zhí)行任務(wù),而Manus通過“規(guī)劃-驗證-執(zhí)行”的架構(gòu),將AI大模型的認(rèn)知能力轉(zhuǎn)化為生產(chǎn)力工具。
根據(jù)麥肯錫等多份權(quán)威報告,在多元化需求驅(qū)動下,AIAgent市場呈爆發(fā)式增長態(tài)勢,2024年全球AIAgent市場規(guī)模約為51億美元,預(yù)計2030年將飆升至471億美元,復(fù)合年增長率高達44.8%。
然而,這場“智能體浪潮”并非坦途。技術(shù)瓶頸與商業(yè)野心的碰撞,讓AIAgent的競爭既充滿想象力,又暗藏風(fēng)險。破壁之戰(zhàn)
本質(zhì)上,AIAgent的是具備人類思維范式的數(shù)字勞動力。
如果說聊天機器人還停留在“對話”階段,那么Agent則已經(jīng)開始“行動”。簡單來說,可以理解為一種更智能、更自主的AI應(yīng)用,它不僅能回答問題,還能執(zhí)行任務(wù)、完成交易。
它們可以被應(yīng)用于各種場景,如客戶服務(wù)、金融分析、軟件開發(fā)等,極大地提高了生產(chǎn)力和效率。
以大語言模型為“大腦”,AIAgent不僅能理解指令表層語義,更能捕捉隱含需求。例如用戶說“找性價比高的酒店”,Manus會結(jié)合季節(jié)、當(dāng)?shù)鼗顒拥壬舷挛耐评沓觥邦A(yù)算敏感型”或“體驗優(yōu)先型”需求。
而可以期待的是,隨著大模型在多模態(tài)能力上的持續(xù)突破,特別是多模態(tài)融合技術(shù)的迭代升級,AIAgent將能夠更精準(zhǔn)地解析并反饋用戶需求,逐步實現(xiàn)類人類的視聽感知與交互能力。
這將使得AIAgent可以應(yīng)用于更廣泛的領(lǐng)域,如醫(yī)療診斷、自動駕駛、智能安防等。
此外,Manus發(fā)布后,券商PPT、分析師路演火速上線,不完全統(tǒng)計顯示,中金、華泰、招商、中泰等數(shù)十家券商研究所進行了路演,其中有分析師上線了多場路演,路演內(nèi)容從技術(shù)原理、AI應(yīng)用、受益方向到落地場景、產(chǎn)業(yè)圈推演,內(nèi)容豐富。
當(dāng)然,在熱潮的背后,也有不同的聲音。不少業(yè)內(nèi)人士認(rèn)為,Manus屬于AIAgent初級的應(yīng)用,市場的反應(yīng)過大了。
事實也的確如此,AI會進一步拉平信息差,大量收集信息、整理資料的工作可以交給AI,但真正距離生成投資決策,無疑還有很長的路要走。
其中,最大的挑戰(zhàn)在于:AI幻覺的幽靈始終縈繞不去。技術(shù)瓶頸
AIAgent的競爭,入口為王。
當(dāng)掌握更多用戶流量的廠商,有望實現(xiàn)“流量-數(shù)據(jù)-使用體驗”的正向循環(huán),且隨著開源模型能力升級彌補大廠及中小廠技術(shù)代差,AI產(chǎn)品工程化能力,或拉開產(chǎn)品使用體驗差距。
可盡管展現(xiàn)出巨大的潛力,但AIAgent的爆發(fā)仍面臨多重障礙。從商業(yè)模式到技術(shù)瓶頸,從法規(guī)缺失到用戶認(rèn)知,每個環(huán)節(jié)都在考驗著行業(yè)的耐心。
首當(dāng)其沖的原因就在于,現(xiàn)有技術(shù)還無法有效地解決AI幻覺的問題。
以當(dāng)紅的Manus來說,雖然在GAIA基準(zhǔn)測試中取得了優(yōu)異成績,但在實際應(yīng)用中,仍存在一些不穩(wěn)定的情況。
GAIA基準(zhǔn)測試排名來源:ManusAIX平臺
有實測用戶反饋,在處理復(fù)雜任務(wù)時,Manus偶爾會出現(xiàn)任務(wù)執(zhí)行失敗或結(jié)果不準(zhǔn)確的問題。在進行股票數(shù)據(jù)分析時,Manus可能會因為數(shù)據(jù)接口的臨時故障或數(shù)據(jù)格式的細(xì)微變化,導(dǎo)致分析結(jié)果出現(xiàn)偏差。
再以O(shè)penAI的GPT4.5來說,毫無疑問,這是目前最強的大語言模型。但在SimpleQA基準(zhǔn)測試中,GPT-4.5的準(zhǔn)確率為62.5%,幻覺率為7.1%,盡管這一成績要遠(yuǎn)優(yōu)于GPT-4o、OpenAIo1和o3-mini等模型,但是依然存在著相當(dāng)高的幻覺率。
而這種幻覺,在金融、醫(yī)療等高風(fēng)險領(lǐng)域,任何一點誤差,都可能引發(fā)系統(tǒng)性風(fēng)險。
假設(shè)某醫(yī)療診斷Agent,其誤判罕見病案例的概率為3%,客若應(yīng)用于千萬級用戶群體,那么潛在誤診人數(shù)將高達30萬。
除了幻覺,緊接著的是數(shù)據(jù)孤島與通用能力的矛盾。
AIAgent的效能高度依賴場景數(shù)據(jù),例如金融風(fēng)控需要實時交易數(shù)據(jù),而醫(yī)療診斷依賴患者病史庫,數(shù)據(jù)割裂會導(dǎo)致通用型Agent難以跨領(lǐng)域遷移。
最后是倫理與監(jiān)管的滯后性。AIAgent的自主決策涉及隱私泄露、責(zé)任歸屬等倫理問題,比如調(diào)用用戶健康數(shù)據(jù)、自動駕駛事故等等,而全球監(jiān)管框架尚未成熟。
由此可見,AIAgent的破局路徑需從技術(shù)、生態(tài)與監(jiān)管三端協(xié)同推進。而未來,誰能率先突破技術(shù)瓶頸并構(gòu)建合規(guī)生態(tài),毫無疑問,誰就將主導(dǎo)這場智能體時代的“諾曼底登陸”。
免責(zé)聲明:巨頭搶灘、資本沸騰 AI智能體如何跨越「幻覺」陷阱?文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng),版權(quán)歸其所有。
文章內(nèi)容不代表本站立場和任何投資暗示。加密貨幣市場極其波動,風(fēng)險很高,可能不適合所有投資者。在投資加密貨幣之前,請確保自己充分了解市場和投資的風(fēng)險,并考慮自己的財務(wù)狀況和風(fēng)險承受能力。此外,請遵循您所在國家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔(dān)任何責(zé)任。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM