梅濤2002年底就進(jìn)入了微軟,博士5年,他有3年半都在微軟度過。2006年他拿到博士畢業(yè)證后,繼續(xù)回到微軟工作,直到12年后才離開微軟亞洲研究院。
而在京東5年的經(jīng)歷,他確實(shí)學(xué)到了很多經(jīng)驗(yàn),彌補(bǔ)了自己從技術(shù)到產(chǎn)業(yè)化的不足。
春節(jié)前走的時候,梅濤很坦然的對劉強(qiáng)東說:“我待了5年,想出去做點(diǎn)事情!眲(qiáng)東也很贊同。在最近一次梅濤給劉強(qiáng)東回信中,他講述了最近公司的一些進(jìn)展,劉強(qiáng)東也對梅濤送上了由衷的恭喜。
如今大模型的大潮到了,梅濤也開啟了他的創(chuàng)業(yè)之路,成立了HiDream.ai 。梅濤告訴AI科技評論,HiDream.ai 要在基礎(chǔ)模型上超越Stable Diffusion最新版本,而在產(chǎn)品上則要趕超Midjourney。
在AIGC領(lǐng)域,做圖像生成的基礎(chǔ)模型中,開源的Stable Diffusion無疑是最好的,因?yàn)橛泻芏嗳藖碜鲐暙I(xiàn);而在產(chǎn)品上,由于Midjourney 最早通過社區(qū)用戶積累了獨(dú)有的用戶反饋,數(shù)據(jù)的輪子已經(jīng)轉(zhuǎn)起來了,同時配合高質(zhì)量數(shù)據(jù)集,形成了自己的競爭壁壘。
梅濤告訴AI科技評論,要對標(biāo)就要對標(biāo)最好的,這個領(lǐng)域要卷就要跟國外卷,直接做基礎(chǔ)模型底層的正面競爭。目前HiDream.ai 已經(jīng)在開發(fā)一個生成式視覺多模態(tài)基礎(chǔ)模型,該模型不僅能夠支持文生圖,還能支持文生視頻、圖生視頻以及文生 3D 等功能。
1
對標(biāo)MJ和SD,不在國內(nèi)卷AI科技評論:聽說你前段時間在找算力?
梅濤:前段時間是在找算力,那個時候確實(shí)比較辛苦一些,現(xiàn)在算力問題解決了,已經(jīng)在用了。
AI科技評論:你現(xiàn)在創(chuàng)業(yè)在哪個階段了?
梅濤:我是春節(jié)前兩天離開京東,三月初注冊了智象未來科技有限公司。
我們現(xiàn)在做的就是AIGC(人工智能生成內(nèi)容),主要是生成式多模態(tài)基礎(chǔ)模型以及其應(yīng)用,主要應(yīng)用會面向設(shè)計(jì)師來使用,例如游戲設(shè)計(jì)師、營銷設(shè)計(jì)師、繪畫設(shè)計(jì)師等。
在AIGC的路上,我們可以說是一路狂奔。三月注冊公司,四月中旬第一輪融資就結(jié)束了,五月初基本的算力資源和核心人員都已經(jīng)到位,六月底數(shù)據(jù)和模型的規(guī)模都已經(jīng)達(dá)到了60億,七八月份我們就會發(fā)布第一版產(chǎn)品。我們的辦公室也從亞運(yùn)村的一個百平米的公寓搬到了現(xiàn)在的中關(guān)村。
AI科技評論:目前很多創(chuàng)業(yè)者都在往應(yīng)用方面走,為什么要堅(jiān)持做一個基礎(chǔ)模型?
梅濤:因?yàn)槿绻麤]有基礎(chǔ)模型,就肯定沒有自己的核心壁壘;另外不自己做,就要用開源的模型或者調(diào)用別人的模型,就會相當(dāng)依賴別人的技術(shù)。
我們堅(jiān)持做一個底層的多模態(tài)基礎(chǔ)模型,并不一定要做很大,因?yàn)橐曈X領(lǐng)域生成式基礎(chǔ)模型參數(shù)能做到100 億就已經(jīng)很大了,目前最大也就是十幾億或者二、三十億。
從五月份到現(xiàn)在八個禮拜,我們已經(jīng)做到了60億規(guī)模,目前已經(jīng)上線了一款應(yīng)用了,不過還在內(nèi)測階段,想先在B端客戶推廣使用。
AI科技評論:在算法方面,你們目前能達(dá)到什么程度?
梅濤:ChatGPT這個模型它的天花板很高,今天它能做到 1750 億,未來它也能做到1萬億。因?yàn)樗哪P湍芰軓?qiáng),它能夠記住很多知識。當(dāng)前的視覺模型本身天花板比較低,現(xiàn)在我們給他喂很多的數(shù)據(jù),它也只能做到大概十幾個億的參數(shù)規(guī)模。
我們現(xiàn)在做的第一個事情是,給模型打很強(qiáng)的補(bǔ)丁,增強(qiáng)它的記憶能力,讓它能夠記住更多的信息。另外,我們會在算法層面做很多技術(shù)的改進(jìn),如encoder、decoder等。
如果今天讓我去做大語言模型,我覺得沒有機(jī)會,因?yàn)橥ㄓ玫拇笳Z言模型確實(shí)是大公司做更有優(yōu)勢。而視覺領(lǐng)域的多模態(tài)基礎(chǔ)模型,以及基于此的很多應(yīng)用對創(chuàng)業(yè)公司來說還是有很多機(jī)會的。
AI科技評論:國內(nèi)在圖片或者視頻領(lǐng)域大家其實(shí)拉不開差距,你為什么覺得有機(jī)會?
梅濤:所以我們不跟國內(nèi)比,直接對標(biāo)國外Midjourney和 Stable Diffusion,目前我們已經(jīng)把Stable Diffusion的最新版本甩在后面了,現(xiàn)在正在追趕Midjourney的最新版。
雖然我們起跑的時候晚了一點(diǎn),但是我們跑得很快。因?yàn)槲覀冇幸粋很強(qiáng)的團(tuán)隊(duì),剛好是十一個人,可以組成一支足球隊(duì),團(tuán)隊(duì)都是類似于像華為天才少年這樣級別的選手。而我自己本人在這個領(lǐng)域做了十幾年,我們勤奮、腦子也不笨,我相信我們公司以后會跑的越來越快、走的越來越穩(wěn)的。
AI科技評論:國內(nèi)幾乎沒有這樣說自己直接對標(biāo)這兩家公司,為什么敢把Midjourney和 Stable Diffusion作為對標(biāo)對象?
梅濤:我們對標(biāo)的是 Stable Diffusion這種基礎(chǔ)模型,以及Midjourney這樣的應(yīng)用。我們是國內(nèi)唯一一家愿意對標(biāo)Midjourney這種現(xiàn)象級產(chǎn)品的公司,而這個空間還是挺大的。
第一,Midjourney是一個小公司,但是它的數(shù)據(jù)其實(shí)很不錯,數(shù)據(jù)的輪子已經(jīng)轉(zhuǎn)起來了,行業(yè)壁壘已經(jīng)形成;
第二,Midjourney做文生圖,但這個領(lǐng)域也只是滿足專業(yè)設(shè)計(jì)師這個小眾群體 ,只是作為找尋靈感的工具,還沒有正式進(jìn)入設(shè)計(jì)師真正的工作流程;
我們的優(yōu)勢在于不僅做文生圖,還做文生視頻、圖生視頻、文生3D等,多種模態(tài)可以隨意切換,F(xiàn)在公司的能力還沒有被釋放出來,但是過去兩個月的實(shí)踐證明,在這么短的時間我們就快要追趕上Midjourney了。
我們要對標(biāo)最好的,而不是關(guān)在國內(nèi)的市場做淺層技術(shù)的內(nèi)卷,一定要走到全球,做Global Market Player。
AI科技評論:你們的產(chǎn)品打算什么時候推出?
梅濤:七八月份,我們也在內(nèi)測,想先在B端客戶內(nèi)部的設(shè)計(jì)師使用,然后再投到社區(qū)里傳播。因?yàn)樯墒紸I的產(chǎn)品一定是體驗(yàn)為主,就是用戶覺得好不好。舉例說你跟 ChatGPT 對話,如果把ChatGPT比喻成一個“高中生”,再來一個低版本的 GPT 3. 0,那你面對的就像一個“小學(xué)生”,你肯定就不太愿意跟他對話了。
所以我們一定要把產(chǎn)品打磨到很不錯的程度才會去公開發(fā)布;镜狡甙嗽路菥涂梢赃_(dá)到Midjourney V4版本的水平了,趕上它V5 版本甚至未來的V6版本估計(jì)得Q4左右。
AI科技評論:您現(xiàn)在做產(chǎn)品會不會結(jié)合Stable Diffusion和Midjourney的一些特點(diǎn)?
梅濤:Stable Diffusion和Midjourney就是其中兩道菜,并不是滿漢全席。而我們知道什么菜用什么組合,用什么佐料。
Stable Diffusion 本來是一個開源的模型,它有文字開源、圖片開源,并不是專一在某一個行業(yè)里