對于生成式AI的所有閃光點,這個新時代最大的轉變可能深埋在軟件堆棧中。AI算法正在不易覺察地改變一個又一個數據庫。他們正在用復雜、自適應且看似更直觀的AI新功能顛覆傳統數據庫。
與此同時,數據庫制造商正在改變我們存儲信息的方式,以便更好地與人工智能模型配合使用。以下是隨著人工智能的普及,數據庫正在適應和改進的10種方式。
1、向量和嵌入
人工智能開發人員喜歡將信息存儲為長數字向量。過去,數據庫將這些值存儲為行,每個數字位于單獨的列中。現在,一些數據庫支持純向量,因此無需將信息分解為行和列。相反,數據庫將它們存儲在一起。一些用于存儲的向量有數百甚至數千個數字長。
此類向量通常與嵌入配對,嵌入是一種將復雜數據轉換為單個數字列表的模式。設計嵌入仍然是一門藝術,并且通常依賴于對基礎領域的了解。當嵌入設計良好時,數據庫可以提供快速訪問和復雜查詢。
Pinecone,Vespa,Milvus,Margo和Weaviate等一些公司正在建立專門存儲載體的新數據庫。像PostgreSQL這樣的數據庫正在將向量添加到他們當前的工具中。
2、查詢模型
向數據庫添加向量帶來的不僅僅是便利。新的查詢函數不僅可以搜索完全匹配項。它們可以定位“最接近”的值,這有助于實現推薦引擎或異常檢測等系統。將數據嵌入向量空間簡化了涉及與僅幾何距離的匹配和關聯的棘手問題。
Pinecone,Vespa,Milvus,Margo和Weaviate等向量數據庫提供向量查詢。一些意想不到的工具,如Lucene或Solr,也提供了相似性匹配,可以用大塊的非結構化文本提供類似的結果。
3、建議
新的基于向量的查詢系統感覺比我們過去的日子更加神奇。舊查詢將查找匹配項;這些新的人工智能數據庫有時感覺更像是在閱讀用戶的思想。他們使用相似性搜索來查找“接近”的數據項,并且這些數據項通常與用戶想要的內容非常匹配。這一切背后的數學可能就像在n維空間中找到距離一樣簡單,但不知何故,這足以提供意想不到的結果。這些算法長期以來一直作為完整的應用程序單獨運行,但它們正在慢慢地被折疊到數據庫中,在那里它們可以支持更好、更復雜的查詢。
甲骨文只是針對這個市場的數據庫的一個例子。Oracle長期以來一直提供各種模糊匹配和相似性搜索功能?,F在,它直接提供為在線零售等行業定制的工具。
4、索引范例
過去,數據庫構建簡單的索引,支持按特定列進行更快的搜索。數據庫管理員擅長使用聯接和過濾子句精心設計查詢,這些子句使用正確的索引運行得更快。現在,向量數據庫旨在創建有效地跨越向量中所有值的索引。我們剛剛開始弄清楚尋找彼此“鄰近”的向量的所有應用。
但這僅僅是個開始。當人工智能在數據庫上訓練時,它會有效地吸收其中的所有信息?,F在,我們可以用簡單的語言向AI發送查詢,AI將以復雜和自適應的方式進行搜索。
5、數據分類
人工智能不僅僅是向數據庫添加一些新結構。有時它會在數據本身內部添加新結構。一些數據可能會以一團糟的形式抵達,比如可能沒有注釋的圖像或很久以前某人寫的大塊文本。人工智能算法開始清理混亂,過濾掉噪音,并對混亂的數據集施加秩序。他們會自動填寫表格。他們可以對文本塊的情感基調進行分類,或者猜測照片中人臉的態度??梢詮膱D像中提取小細節,算法也可以學習檢測模式。他們正在對數據進行分類,提取重要的詳細信息,并創建定期、清晰描述的信息表格視圖。
亞馬遜網絡服務提供各種數據分類服務,將SageMaker等人工智能工具與Aurora等數據庫連接起來。
6、更好的性能
好的數據庫處理數據存儲的許多細節。過去,程序員需要花時間操心數據庫使用的各種參數和模式,以使它們高效運行。建立數據庫管理員的角色是為了處理這些任務。
這些更高級別的元任務現在正在自動化,通常是通過使用機器學習算法來理解查詢模式和數據結構。他們能夠監視服務器上的流量并制定計劃以適應需求。他們可以實時適應并學會預測用戶的需求。
甲骨文提供了最好的例子之一。過去,公司向管理數據庫的數據庫管理員支付高薪。現在,甲骨文稱其數據庫為自治數據庫,因為它們配備了復雜的人工智能算法,可以即時調整性能。
7、更清晰的數據
運行一個好的數據庫不僅需要保持軟件運行,還需要確保數據盡可能干凈且沒有故障。AI通過搜索異常、標記它們,甚至可能建議更正來簡化此工作負載。他們可能會找到客戶姓名拼寫錯誤的位置,然后通過搜索其余數據找到正確的拼寫。他們還可以學習傳入的數據格式并攝取數據以生成單個統一的語料庫,其中所有名稱、日期和其他詳細信息都盡可能一致地呈現。
Microsoft的SQL Server是與數據質量服務緊密集成的數據庫的一個示例,用于清理存在缺少字段或重復日期等問題的任何數據。
8、欺詐檢測
創建更安全的數據存儲是機器學習的特殊應用程序。有些人正在使用機器學習算法來尋找數據饋送中的異常情況,因為這些算法可以很好地表明欺詐。有人第一次深夜去自動取款機嗎?這個人曾經在這個大陸上使用過信用卡嗎?人工智能算法可以嗅出危險的行跡,并將數據庫變成欺詐檢測系統。
例如,Google的網絡服務提供了多種選項,用于將欺詐檢測集成到數據存儲堆棧中。
9、更嚴格的安全性
一些組織正在內部應用這些算法。AI不只是試圖針對使用模式優化數據庫;他們還在尋找可能表明有人闖入的不尋常案例。遠程用戶并非每天都會請求整個表的完整副本。一個好的人工智能可以聞到一些腥味。
IBM的Guardium Security 是與數據存儲層集成以控制訪問和監視異常的工具的一個例子。
10、合并數據庫和生成式AI
過去,人工智能與數據庫是分開的。當需要訓練模型時,數據將從數據庫中提取,重新格式化,然后輸入AI。新系統直接從現有數據訓練模型。這可以為大型作業節省時間和精力,在這些工作中,僅移動數據可能需要數天或數周的時間。它還簡化了DevOps團隊的生活,使訓練AI模型像發出一個命令一樣簡單。
甚至有人談論完全替換數據庫。他們不會將查詢發送到關系數據庫,而是直接將其發送到AI中,AI將神奇地回答任何格式的查詢。谷歌提供Bard,微軟正在推動ChatGPT。兩者都是取代搜索引擎的有力競爭者。他們沒有理由不能取代傳統的數據庫。
這種方法有其缺點。在某些情況下,人工智能會產生幻覺,并想出完全錯誤的答案。在其他情況下,他們可能會隨心所欲地更改其輸出的格式。
但是,當領域足夠有限并且訓練集深入完整時,人工智能可以提供令人滿意的結果。而且它不需要定義表格結構并強迫用戶編寫在其中查找數據的查詢。對于用戶和創建者來說,使用生成式AI存儲和搜索數據可以更加靈活。