Neeva:構(gòu)建自有搜索索引,首批集成 AI 功能Neeva 的計劃來自一個簡單的想法:谷歌的商業(yè)模式已經(jīng)在拖累搜索引擎的進步。Ramaswamy 認為,從長遠來看,這種以廣告為基礎的模式必然導致搜索結(jié)果劣化。要想打造更好的搜索引擎,首先需要改變激勵措施。這種改變意味著不再以展示廣告為訴求,而是始終把用戶體驗放在第一位。這種新模式不需要讓用戶輸入查詢,也不需要幫廣告商收集用戶數(shù)據(jù)。其目標就是幫助人們找到自己想要的頁面,并避開途中的一切障礙。David Pierce 在一篇分析文章中指出:“從零開始構(gòu)建搜索引擎既困難又昂貴,因此很多人對此根本不感興趣。他們選擇以 10 到 25 美元的價格購買 Bing 提供的 1000 條數(shù)據(jù)搜索許可,再以此為基礎添加自己的功能和界面!倍 Neeva 對于徹底改革搜索技術(shù)有很多自己的想法,因此最終決定要控制底層數(shù)據(jù)。
Raghunathan 表示,“我們想要加快搜索速度、充實預覽內(nèi)容、提供首選網(wǎng)站、開放個人搜索選項,但這一切都遇到了困難。”Bing API 提供的鏈接并不支持這些額外功能,所以 Neeva 的思路就成了空想。如果真想打造一套更好的搜索引擎,那 Neeva 就必須得親自動手、從零起步。經(jīng)過兩年的構(gòu)建、訓練、完善、再訓練和再完善,Neeva 搜索引擎終于建立起完全自主的技術(shù)基礎。構(gòu)建自有搜索索引的一大優(yōu)勢就是,能給大語言模型收集到一組非常實用的訓練數(shù)據(jù)。Neeva 還是首批推出 AI 搜索助手(名為 NeevaAI)的公司之一,它能總結(jié)搜索結(jié)果,有時甚至直接在頁面頂端回答用戶的問題。Neeva 團隊還建立起了帶有更大圖像和比較信息的購物頁面,這里優(yōu)先參考了 Reddit 和 Quora 等平臺的結(jié)果。體育搜索也變成了漂亮的全屏記分牌。之所以這樣做,就是希望大家在搜索“布拉德·皮特 IMDb”或“WhatsApp Web 版”時,Neeva 的自動補全功能會直接將用戶帶入網(wǎng)站,壓根不需要中間的結(jié)果頁面。
Neeva 干凈、簡單,早期用戶紛紛表示這種不騙人看廣告的搜索引擎才是好引擎。但打造一款好產(chǎn)品和讓用戶喜歡上它完全是兩碼事。畢竟 Neeva 的使用體驗太不同了,用戶得放棄自己上網(wǎng)時最簡單、也最根深蒂固的習慣,才能適應這種全新設計?萍夹袠I(yè)一直有個原則,即人們不會愿意改變自己的使用習慣。Ramaswamy 在采訪中坦言,“我們面臨的最大障礙之一,確實就是扭轉(zhuǎn)用戶的固有習慣。人們忘記了谷歌的成功不僅僅是開發(fā)出了更好的產(chǎn)品。為了實現(xiàn)目標,我們必須做出一系列精準的分發(fā)決策。”據(jù)報道,谷歌每年向蘋果支付高達 150 億美元,為的就是能在各類蘋果設備的 Safari 瀏覽器中成為默認搜索引擎。谷歌同時也向 Mozilla 支付費用,借此成為 Firefox 瀏覽器中的首選搜索引擎。而這筆費用高達每年 4.5 億美元。谷歌還跟其他設備制造商和瀏覽器開發(fā)商有合作,甚至跟電信運營商也有類似的交易。據(jù)《華爾街日報》報道,三星曾在 2023 年短暫考慮結(jié)束與谷歌的交易,但由于各種原因而最終放棄,其中包括“可能對與谷歌間的廣泛業(yè)務關(guān)系產(chǎn)生影響”。谷歌的真正優(yōu)勢在于旗下的其它產(chǎn)品。Android 是目前全球最受歡迎的移動操作系統(tǒng),市場份額約占 78%。Chrome 則是最受歡迎的網(wǎng)絡瀏覽器,市場占比約 62%。
在這兩大平臺上,谷歌自然也成為不可撼動的默認搜索引擎。做搜索引擎,既復雜,又簡單搜索引擎是種神奇的事物——既復雜無比,又簡單純粹。實際上,搜索引擎所做的就是編譯網(wǎng)頁數(shù)據(jù)庫(即「搜索索引」),之后在每次收到查詢時瀏覽該數(shù)據(jù)庫,從中提取并交付質(zhì)量最高、相關(guān)度最強的一組頁面。但這過程中的每一步,都涉及著巨大的復雜性,需要做出一連串權(quán)衡。而權(quán)衡的核心有二:時間與金錢。即使創(chuàng)業(yè)者能建立一套不斷更新的數(shù)據(jù)庫,囊括互聯(lián)網(wǎng)上的數(shù)千億個頁面,但光是它產(chǎn)生的存儲和帶寬成本就足以讓地球上任何一家巨頭企業(yè)破產(chǎn)。這還不包括每天對數(shù)據(jù)庫執(zhí)行無數(shù)次檢索的成本。另外,搜索響應中的每一毫秒都非常重要——谷歌會在結(jié)果上方顯示每次查詢耗費的時間。
總而言之,創(chuàng)業(yè)者恐怕沒有足夠的時間逐個查看整個數(shù)據(jù)庫。此外,搜索引擎的構(gòu)建還要從一個基本哲學問題開始:什么叫高質(zhì)量網(wǎng)頁?創(chuàng)業(yè)者必須決定哪些分歧是合理的,而哪些信息屬于純粹的胡說八道,必須搞清廣告占比到多少才不會過度。那些由 AI 編寫且充斥著 SEO 垃圾的網(wǎng)站當然不好,但個人認真撰寫、且同樣充斥 SEO 垃圾的美食博客則還不錯。一旦完成了上述討論并設定出明確的邊界,那搜索引擎中就基本確定了需要保留的幾千個域名。其中包括 CNN 和 Breitbart 等新聞網(wǎng)站,Reddit、Stack Overflow 和 Twitter 的熱門討論板,維基百科和 Craigslist 等工具服務,YouTube 和 Amazon 等服務平臺,還有各類最頂級的食譜 / 體育 / 購物網(wǎng)絡。有時候,創(chuàng)業(yè)者可以跟這些網(wǎng)站洽談合作,以結(jié)構(gòu)化方式直接獲取數(shù)據(jù),不再單獨瀏覽各個頁面。值得一提的是很多大平臺都有專門的團隊,有時甚至愿意免費配合。之后就該放出爬蟲了。這些機器人能爬取給定網(wǎng)頁上的內(nèi)容,之后查找并跟蹤頁面上的各個鏈接、索引全部頁面內(nèi)容,就這樣完成鏈接、索引的查找與跟蹤循環(huán)。而每次爬蟲訪問一個頁面時,都會根據(jù)之前設定的高質(zhì)量網(wǎng)頁標準對其做評估。被認定為高質(zhì)量的內(nèi)容將被下載至某臺服務器上,于是搜索索引開始迅速膨脹。當然,爬蟲也不是在哪里都受歡迎。爬蟲每次打開網(wǎng)頁,都會給內(nèi)容提供商帶來帶寬成本,F(xiàn)在想象一下,一套搜索引擎每秒都會對網(wǎng)站上的各個頁面進行加載和保存,這樣的更新成本將很快超出提供商的承受能力。
因此,大多數(shù)網(wǎng)站都設置一個名為 robots.txt 的文件,用于定義哪些爬蟲可以訪問其內(nèi)容、哪些爬蟲不行,以及允許爬蟲爬取哪些 URL。從技術(shù)上講,搜索引擎完全可以不理會 robots.txt 上的規(guī)則,但這是 Web 結(jié)構(gòu)和文化中的一部分。幾乎所有網(wǎng)站都愿意接納谷歌和 Bing,因為它們帶來的可發(fā)現(xiàn)性已經(jīng)超過了帶寬成本。也有很多人會阻止特定的服務商,例如不希望亞馬遜爬取并分析他們的購物網(wǎng)站。其他人則制定一攬子規(guī)則:除了谷歌和 Bing 外,其余爬蟲概不接待。很快,爬蟲就會帶回相當廣泛的互聯(lián)網(wǎng)快照。接下來的工作就是針對搜索引擎可能收到的每條查詢,按順序?qū)θ宽撁孀雠琶。大家可以按主題對頁面做排序,這樣就能劃分成更小、更易于搜索的索引,而不是包羅萬象的龐然大物。簡單來講,就是本地結(jié)果與本地結(jié)果匹配,購物與購物匹配,新聞與新聞匹配。我們需要使用大量機器學習技術(shù)來收集特定頁面的主題和內(nèi)容,同時也離不開人工協(xié)助。此外,還會引入評分團隊,向他們展示查詢和結(jié)果,并要求他們從 0 到 10 為結(jié)果的真實性打分。有時候問題很明顯,如果有人搜索「Facebook」,但響應結(jié)果的第一條居然不是 facebook.com,那肯定不能接受。但大多數(shù)情況下,我們會合并來自大量輸入的評分,并將其饋送到索引和主題模型當中,之后不斷重復這個過程。到這里,問題才剛剛解決了一半。我們還得提高所謂“查詢理解”能力,也就是意識到搜索“巨石強森”和搜索“道恩·約翰遜”的人其實是想找同樣的信息。最終,我們將積累起一個龐大的同義詞和相似性庫,并據(jù)此重寫查詢以降低搜索難度。而且如谷歌所說,每天他們的引擎中都有 15% 的全新搜索,所以這場理解人們真實需求和擴充新知識的賽跑將永遠沒有終點。
一段時間之后,搜索引擎正式上線了,開始獲得更多人的關(guān)注、點擊和偏好。這里還有一項黃金標準:如果用戶在點擊鏈接后,不再立即搜索和點擊其他鏈接,就代表當前結(jié)果的質(zhì)量令人滿意。而另一方面,用戶們的點擊量越大,就越能了解他們真正想要的是什么。此外,運行搜索引擎還需要不斷在速度、成本和質(zhì)量三者中取得平衡。比如,當有人輸入“YouTube”并按下回車時,如果搜索整個數(shù)據(jù)庫會耗費太長時間、造成不必要的帶寬和存儲成本;如果保留一個容納整個互聯(lián)網(wǎng)的數(shù)據(jù)庫,不但存儲成本高昂,搜索速度也會太過緩慢;如果設定只顯示網(wǎng)絡上最受歡迎的 100 個網(wǎng)站,就能保證速度和成本,但會存在內(nèi)容不全面、質(zhì)量不可靠的情況。同時,各個網(wǎng)站本身也在不斷變化,搜索引擎的爬蟲和排名系統(tǒng)也要持續(xù)跟進。