久久精品国产一区二区电影,亚洲 小说 欧美 激情 另类,久久99精品久久久久久噜噜,人妻少妇av中文字幕乱码

當前位置:首頁 > 最新資訊 > 行業資訊

生成式AI時代下的企業,該如何充分挖掘數據價值?

在數字經濟迅猛發展的時代背景下,數據已經上升為核心生產要素,不僅有力促進了各行各業的創新轉型升級,更成為推動經濟增長的重要力量。

特別是近年來生成式AI快速發展,極大地改變了企業決策的方式和效率。而在這一過程中,數據作為智能的“燃料”,其質量和數量直接關系到生成式AI應用的性能和準確性,因此顯得越發重要。

在前不久舉辦的“無數據 不模型——生成式AI時代的數據基座”媒體溝通會上,亞馬遜云科技大中華區產品部總經理陳曉建介紹了數據在生成式AI時代的作用,以及亞馬遜云科技在數據基座構建方面的三大核心能力。

當前,生成式AI基礎模型的參數量與訓練所需數據量可以說是天文數字級別。以書籍為例,如果一本書按500KB算,現在的500T參數的模型已經有332億本,相當于現存每個人類擁有4本書。而且,這一趨勢仍將持續,未來將有越來越多的模型會需要更多的數據。

生成式AI時代下的企業,該如何充分挖掘數據價值?

如何打造差異化生成式AI應用?

現如今,隨著生成式AI的不斷發展,企業的關注點已不僅局限于基礎的大模型數據,而更加重視利用自身數據結合基礎大模型,從而打造差異化能力。

據陳曉建介紹,用企業自身的數據去差異化生成式AI應用,通過數據定制基礎模型的方式主要分為三大類:檢索增強生成(RAG)、微調和持續預訓練,這三種方式適用不同的應用場景。具體來看:

第一,RAG。企業可以將自身的知識庫、數據庫等與生成式AI模型相結合,在生成過程中實時檢索和利用企業內部的相關數據,從而提高生成結果的準確性、一致性和信息量。這個方法相對簡便。適用場景包括知識時效性、控制幻覺、用戶隱私數據保護、企業私域知識等。

第二,微調。微調使用與目標任務相關的數據對模型進行進一步訓練,以提高其在特定任務上的性能。微調的門檻介于預訓練和RAG兩者之間。適用場景包括角色理解、輸入理解、輸出格式控制等。

第三,持續預訓練。企業利用自身專有數據,如內部文檔、客戶記錄等對模型進行持續預訓練。這種持續預訓練門檻較高,成本較大,但是可以得到一個企業自身定制的行業大模型。適用場景包括理解行業領域知識/術語,以及用于嚴控數據合規等。

實際上,RAG、微調和持續預訓練需要的數據規模、數據來源和技術要求各不相同。例如,RAG和微調都需要處理相對較小的數據量,這些數據通常需要經過預訓練處理。換言之,可能需要將非結構化的數據轉化為結構化數據,以便大模型更好地理解數據格式。相比之下,持續預訓練處理的數據量從GB級到TB級,甚至更多,這些數據無須過多預處理,可將業務產生的原始非結構化數據直接輸入大模型進行持續訓練。

“亞馬遜云科技構建數據基座的三大核心能力涵蓋從基礎模型訓練到生成式AI應用構建的重要場景,能夠幫助企業輕松應對海量多模態數據,提升基礎模型能力,”陳曉建表示,“作為全球云計算的開創者和引領者,亞馬遜云科技正在幫助各個行業、各種規模的企業打造強健的數據基座,在確保用戶業務和數據安全的前提下,將數據的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。”

三大核心能力,充分發揮數據潛力

據了解,亞馬遜云科技構建數據基座的三大核心能力包括:模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力。

第一,模型微調和預訓練所需的數據處理能力。

在數據處理的過程中,企業需要解決三個核心問題:一是找到合適的存儲設備來承載海量的數據;二是需要有效的工具來進行原始數據到結構化數據的清洗和處理;三是對所有數據進行有效的編目管理,并確保數據的安全訪問。

在數據存儲方面,Amazon S3的容量,安全和功能都滿足微調和預訓練基礎模型對數據存儲上的要求: Amazon S3擁有超過200萬億個對象,平均每秒超過1億個請求。亞馬遜云科技上超過20萬個數據湖都使用了Amazon S3。

另外,亞馬遜云科技專門構建的文件存儲服務Amazon FSx for Lustre能夠提供亞毫秒延遲和數百萬IOPS的吞吐性能,能夠進一步加快模型優化的速度。LG AI Research使用Amazon FSx for Lustre 將數據分發到實例中來加速模型訓練,開發了自己的基礎模型 EXAONE,通過減少基礎設施管理和提高GPU擴展效率,降低了約35%的成本。

在數據清洗方面,Amazon EMR Serverless和Amazon Glue可以幫助企業輕松完成數據清理、去重、乃至分詞的操作,讓企業專注于生成式AI業務創新。其中,Amazon EMR serverless采用無服務器架構,易用使用,能夠預置、配置和動態擴展應用程序在每個階段所需的計算和內存資源;Amazon Glue是簡單、可擴展的無服務器數據集成服務,可以更快地集成數據,連接不同數據源并簡化相關的代碼工作。

在數據治理方面,Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據,不但能夠為多源多模態數據進行有效編目和治理,而且還提供簡單易用的統一數據管理平臺和工具,從而為用戶解鎖所有數據的潛能。

第二,將現有數據快速結合模型產生獨特價值的能力。

基礎模型具備諸多優點,并在多個層面上展現出了與人類智能相當甚至超越的能力。然而,基礎模型也存在一定的局限性,如缺乏垂直行業的專業知識,缺乏時效性,生成錯誤信息,以及用戶敏感數據的隱私合規風險。

RAG技術被普遍認為是實現數據與模型結合的主要途徑之一,該技術的關鍵是向量嵌入(vector embeddings),包括獲取特定領域數據源,通過分詞將其分解為token元素,通過LLM將這些token導出數值向量。

通過這一系列操作,人們成功將元素數據中內容關聯問題簡化為token元素間的距離計算問題。

RAG場景的核心組件就是向量存儲,現代應用程序需精準理解用戶需求并正確關聯產品或內容,這一需求廣泛存在于搜索、評論、購物車及產品推薦等交互框架中,這些框架又依賴于功能各異的數據庫,這使得數據庫成為實施RAG場景技術的理想平臺。

目前,亞馬遜云科技已經在八種數據存儲中添加了向量搜索功能,讓客戶在構建生成式 AI 應用程序時有更大的靈活性。

第三,有效處理新數據,助力生成式AI應用飛速發展的能力。

由于生成式AI對基礎資源有極高要求,數據處理過程中的調用模型環節可能非常耗時,給系統帶來成本壓力。

Amazon Memory DB內存數據庫通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。Amazon Memory DB能夠存儲數百萬個向量,只需要幾毫秒的響應時間,能夠以99%的召回率實現每秒百萬次的查詢性能。

此外,生成式AI應用程序需要快速占領市場。亞馬遜云科技通過提供無服務器數據庫服務和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業減少運維負擔和成本,消除性能瓶頸,使企業能夠專注于生成式AI業務創新。

“我們希望每一個企業在生成式AI時代借助亞馬遜云科技的服務打造堅實的數據基礎。這樣企業就可以高效安全地將海量的多模態數據和各種基礎模型結合在一起,創建出一系列具有獨特的價值的生成式AI應用程序并收到終端用戶的歡迎,進而產生更多的數據。這些新數據又會繼續提升模型的準確度,創造更好的用戶體驗,從而實現生生不息的正向生成式AI數據飛輪,帶動我們企業的業務走向成功。”陳曉建說道。

賦能客戶,把握生成式AI機遇

值得一提的是,店匠科技(Shoplazza)首席科學家謝中流和北京靈奧科技(Vanus)CEO厲啟鵬也分享了各自企業在生成式AI領域的實踐和經驗。

店匠科技是一家電子商務獨立站SaaS平臺,專注于幫助企業構建其專屬的在線商城,涉足電商領域兩大分支:集中式平臺電商與去中心化的獨立站電商。截至目前,店匠科技已服務超36萬家跨境電商客戶,覆蓋全球150多個國家。

謝中流指出,在生成式AI方面,店匠科技正在積極探索四大業務板塊。首先,在營銷素材生成方面,店匠科技推出了GenAI營銷素材創作平臺,能夠以分鐘級速度生成多樣風格的營銷素材,極大簡化從模特選擇、場景搭建到后期編輯的復雜流程。

其次,在AI建站方面,通過與用戶交互并運用如Amazon Bedrock的Claude3模型,結合Amazon RDS等工具,實現對客戶需求的即時理解與精準捕獲,進而自動生成和完善網站結構、設計風格與內容,極大地簡化了電商網站的搭建過程,使商家能夠快速啟動在線業務。

第三,在智能客服方面,鑒于日常咨詢中高度重復性問題占比高達69%,店匠科技運用Amazon Bedrock的Claude3模型及Amazon ElastiCache Redis技術,構建高效客服對話系統,不僅顯著縮短了解答時間,還降低了40%的客服成本,改善了用戶體驗。

第四,在推薦與搜索方面,面對多語言環境下的挑戰,店匠科技借助Amazon ElastiCache Redis等工具提升個性化推薦與搜索排序的效率與準確性,從而增強用戶體驗并推動銷售增長。

北京靈奧科技是一家面向全球市場的人工智能初創企業,主要使命是為企業構建AI Agent。目前,北京靈奧科技已推出Vanus Connect、Vanus AI以及VanChat三大產品,累計服務于全球超過30,000家企業。

厲啟鵬表示,Vanus整個基礎架構建立在亞馬遜云科技的Amazon Elastic Kubernetes Service(EKS)組件之上。借助EKS的彈性能力,VanChat智能助手可以根據業務流量進行平滑的彈性伸縮,從而幫助用戶應對高流量洪峰,同時降低成本。

“我們期待與亞馬遜云科技在數據庫優化、Zero-ETL數據預處理及Claude系列模型的深度應用等方面展開更緊密的合作,共同推動AI技術在企業應用中的深入發展。”

寫在最后:

生成式AI時代,數據是企業在激烈市場競爭中脫穎而出的關鍵。構建基礎模型離不開大規模高質量數據集支撐,而生成式AI的差異化優勢則來源于企業的專有數據。同時,隨著生成式AI應用的日益普及,如何高效管理和運用這些應用不斷產生的新數據,已成為企業必須面對和解決的課題。

猜你喜歡