為何矢量數據庫正當AI炒作達到高峰時刻

瞬息間,矢量數據庫成為了眾人矚目的焦點,這可從進入這一領域的初創公司數量以及投資者為爭取一杯羹而掏出的資本來判斷。大型語言模型(LLMs)的普及以及生成式人工智能(GenAI)運動為矢量數據庫技術的蓬勃發展創造了肥沃土壤。

儘管傳統的關聯數據庫,如Postgres或MySQL,很適合處理結構化數據——可以在行和列中整齊排列的預定義數據類型,但對於非結構化數據,如圖像、視頻、郵件、社交媒體帖子以及不符合預定義數據模型的任何數據,這種方式就不太適合。

另一方面,矢量數據庫以矢量嵌入的形式存儲和處理數據,這將文本、文檔、圖像和其他數據轉換為數字表示,捕捉不同數據點之間的意義和關係。這對於機器學習非常適用,因為數據庫按照每個項目相對於其他項目的相關程度進行空間存儲,這樣更容易檢索語意上相似的數據。

這對於LLMs特別有用,例如OpenAI的GPT-4,因為它使AI聊天機器人能夠通過分析之前類似的對話更好地理解對話的上下文。矢量搜索對於各種實時應用程序也有益處,例如在社交網絡或電子商務應用程序中進行內容推薦,因為它可以查看用戶搜索到的內容並立即檢索相似項目。

矢量搜索還可以幫助減少LLM應用中的「幻覺」,通過提供原始訓練數據集中可能不可用的附加信息。

矢量搜索初創公司Qdrant的首席執行官兼創始人安德烈·扎亞爾尼向TechCrunch解釋說:“如果沒有使用矢量相似性搜索,您仍然可以開發AI/ML應用程序,但您需要做更多的重新訓練和微調。當數據集龐大且需要一個能夠高效便捷地處理矢量嵌入的工具時,矢量數據庫就派上用場了。”

今年1月,Qdrant獲得了2800萬美元的融資,以利用增長帶來的機遇,使其成為去年增長最快的十大商業開源初創公司之一。而且,最近募集資金的矢量數據庫新創公司不僅僅是Qdrant — Vespa、Weaviate、Pinecone和Chroma去年共同籌集了2億美元,用於不同的矢量產品。

自年初以來,Index Ventures還帶領了一輪950萬美元的種子輪投資進入Superlinked,一個將複雜數據轉換為矢量嵌入的平臺。幾周前,Y Combinator(YC)公布了其2024年冬季批次,其中包括Lantern,這是一家為Postgres銷售託管矢量搜索引擎的初創公司。

此外,Marqo在去年年底籌集了440萬美元的種子輪資金,隨後在2月份迅速完成了1250萬美元的A輪融資。Marqo平臺提供了一整套的矢量工具,涵蓋矢量生成、存儲和檢索,讓用戶可以繞過像OpenAI或Hugging Face這樣的第三方工具,通過單一API提供所有功能。

Marqo的聯合創始人湯姆·哈默和傑西·N·克拉克以前曾在亞馬遜擔任工程角色,他們意識到了不同模態(如文本和圖像)之間需要進行語義靈活搜索的“巨大未得到滿足的需求”。這就是當他們決定在2021年離開亞馬遜創立Marqo時的情況。

Clark告訴TechCrunch說:“在亞馬遜從事視覺搜索和機器人技術工作時,我真正看到了矢量搜索 — 我一直在思考開展產品發現的新方式,這很快就會聚焦在矢量搜索上。”“在機器人技術中,我使用多模態搜索來搜索我們的許多圖像,以識別是否存在錯誤的東西,如軟管和包裹。否則這將是非常具有挑戰性的。”

企業進入

在ChatGPT和GenAI運動的喧囂中,矢量數據庫正迎來一個時刻,但它們並非每個企業搜索場景的解決方案。

Percona資料庫支持和服務公司的創始人彼得·賽策夫向TechCrunch解釋說:“專用數據庫往往完全專注於特定用例,因此可以為所需任務設計其架構,以及用戶體驗,相比之下,通用數據庫需要適應當前設計。”

專業化的數據庫可能在一個方面擅長,但在其他方面則不及其他數據庫,這就是為什麼我們開始看到像Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB這樣的“數據庫老將”加入矢量數據庫搜索功能,以及微軟的Azure、亞馬遜的AWS和Cloudflare這樣的雲服務提供商。

賽策夫將這一最新趨勢與十多年前JSON的情況進行了比較,當時Web應用程序變得更加普及,開發人員需要一種獨立於語言且易於人類閱讀和編寫的數據格式。在那種情況下,以文檔數據庫(例如MongoDB)的形式出現了一個新的數據庫類別,同時現有的關聯性數據庫也引入了JSON支持。

“我認為矢量數據庫可能會出現相同的情況,”賽策夫告訴TechCrunch。“那些構建非常複雜和大規模AI應用程序的用戶將使用專用的矢量搜索數據庫,而那些需要為現有應用程序構建一些AI功能的用戶可能更有可能在他們已經使用的數據庫中使用矢量搜索功能。”

但是,扎亞爾尼和他的Qdrant同事們押注說,完全建立在矢量之上的本地解決方案將提供所需的“速度、內存安全性和規模”,以應對矢量數據的激增,相比於將矢量搜索作為事後補救的公司。

扎亞爾尼說:“他們的宣傳重點是‘如果需要,我們也可以進行矢量搜索’,而我們的宣傳重點是‘我們以最佳方式進行先進的矢量搜索’。這一切都關乎專業化。我們實際上建議從您技術堆棧中已有的數據庫開始。但某一刻,如果矢量搜索是您解決方案的關鍵組件,用戶將面臨限制。”