導讀
近日,國家發改委、中央網信辦、工信部能源局同意粵港澳大灣區、成渝地區、長三角地區、京津冀地區啟動建設全國一體化算力網絡國家樞紐節點。
全國一體化算力網絡國家樞紐節點,是我國算力網絡的骨干節點。
為何我國這么重視算力網絡的建設呢?
這還要從算力網絡本身講起。
算力網絡想要解決什么問題
我們知道,小到個人手機、PC,大到超級計算機、數據中心,算力存在于我們生活的各個角落,成為基礎的核心資源之一。
然而,一方面,隨著當前算力的普及,算力的利用率卻在大幅下降。
有數據表明,各類算力終端的利用率甚至低于15%。
以PC為例,有的家庭擁有不止一臺PC,但是并不是每一臺PC都物盡其用,大部分時間是處于閑置狀態的。
而企業的私有數據中心、科研機構的超算中心,閑置率更甚。
另一方面,隨著技術的進步,物聯網正在走向成熟應用。
目前,智慧城市、智能家居等物聯網應用正在走向普及,萬物智能互聯產生的數據量越來越龐大,相應地,對計算資源及計算能力也提出了更高的要求。
云計算作為可以隨時獲取、按需使用、隨時擴展的軟硬件平臺,在一段時間內曾充分滿足了物聯網終端設備的資源期待,成為物聯網的主要支撐技術。
但市場和技術的發展,也使得物聯網終端的數量飛速增長,隨后增長的是對云上數據計算的需求。設備不斷產生實時數據,越來越多的數據集中在云端,而云計算數據中心的增長速度遠遠落后于數據處理需求的增速。
終端設備能夠從云端獲取的內存、CPU和帶寬等計算、通信資源開始捉襟見肘,造成目前市場上智能終端設備數據處理實時性不足,且難以支撐人工智能等計算需求較大的全新數據處理技術。
這就導致,即便對于很多科學研究人員及企業研發人員來說,算力仍然是一個“奢侈品”:不僅獲取成本高,而且使用門檻也很高。
比如,在計算流體力學(Computational Fluid Dynamics,CFD)領域中,一個發動機葉片的仿真就需要1000核計算1周的時間,當前的算力平臺顯然無法支撐發動機全量的仿真計算。
而為了建設能滿足要求的算力平臺,可能需要一兩年甚至更長的時間。對很多機構來說,建設自己的算力平臺,無論是時間成本還是財務成本,都難以承受。
這表明,單靠傳統的云計算已經不能滿足物聯網發展多樣化、智能化的需求,于是,以邊緣計算為代表的新一代分層算力網絡架構應運而生。
所謂邊緣計算,是相較于集中部署、離用戶側較遠的云計算而言的,是一種更加強調在靠近客戶業務端來部署計算能力的平臺,可以實現高效的本地處理。
分層算力網絡架構的核心,是將數據處理過程分散于網絡架構中各個層級的設備中,而不是集中于網絡中心的云計算數據中心。
不過,盡管從云計算服務向邊緣計算領域擴展已成為業界一種重要的發展思路,但在具體操作時,卻存在一個規模與成本之間的悖論。
在傳統云計算的商業模式中,規模效應是非常關鍵的。云計算服務商需要通過不斷擴展云計算池,以及通過集中化建設、定制化設備使用、智慧化運營等手段,來共享各類基礎設施,降低數據中心PUE(Power Usage Effectiveness,能耗使用效率),從而減少單位算力的建設成本和維護成本,才能在激烈的市場競爭中取得優勢地位。
據不完全統計,超大型算力資源池的單位算力成本只有普通算力池的10%~30%。因而,云市場中頭部效應非常明顯,如國內排行第一的云服務商約占50%的市場份額,并呈現越大越強的態勢。
但在強調分布式的邊緣計算領域,節點的規模嚴重受限。
絕大多數邊緣計算節點處于靠近用戶的網絡邊緣位置,分布在各種各樣的環境中,如電信運營商的接入機房、電力企業的變電站、小區物業的空閑房間等。這些節點空間受限,能容納的算力資源有限,不具備持續擴展的潛力,因此通過規模效應來降低成本是不可能的。
從維護機制上來看,云計算節點由于設備高度集中,可以采用大量的智慧化運營手段。例如,可利用機器人進行機房巡檢,這樣可以大幅度減少人力成本,提高運營效率。
然而,這樣的方案并不適用于邊緣計算節點。在眾多離散的邊緣機房中,部署大量的智能化運營系統的效益非常低,投入的成本甚至高于機房能容納的設備成本。同時,這些智能化運營系統自身還需要精細的運維工作,其出問題的頻率甚至高于機房中其他類型的設備。
在短期內,利用大量人工進行日常巡檢工作是面對大量邊緣機房時的唯一解決方案。這也是某些云計算服務商和電信運營商的運維人員在數量上相差多個數量級的一個重要的原因。
因此,在涉及大量邊緣計算節點的邊緣計算中,采用類似云計算節點的建設和運營模式是不可取的,這就需要一種新的商業模式與技術體系,讓更多方參與到算力資源的提供與交易過程中來。
好在,隨著5G、全光網(網絡傳輸和交換過程全部通過光纖實現)、SDN(Software Defined Network,軟件定義網絡)等網絡技術的發展,網絡已經不再是瓶頸,能夠按需將用戶和資源池連接在一起。
于是,在新技術的支持下,解決方案應運而生:將算力資源信息通過網絡進行分發,在算力資源提供方與算力消費方之間搭建一個交易平臺,這就是算力網絡。
算力網絡≠云網融合
可能有人覺得,所謂的算力網絡,不就是當下正在搞的云網協同(也有云網融合、云網一體等叫法)嘛?
其實兩者還是有區別的。
從資源匹配的角度來看,算力網絡與云網協同都可以做到將算力資源信息與網絡資源信息匹配,以實現多類資源的聯合優化。
例如,在現有的云網協同方案下,用戶可以先選擇一個云服務節點,再根據云服務節點與用戶接入節點之間的網絡情況選擇最佳路徑;也可以根據網絡情況,選擇適合的云服務節點,再選擇連接路徑。粗略看來,算力網絡所做的事情也相差不大,但云網協同和算力網絡兩者在本質上卻有很大的差異。
云網協同的核心在于以云為中心,網絡連接應該根據云服務的特點進行調整,也稱為“網隨云動”。常見做法有以下兩種,一是網絡將能力開放給云管系統,由云管系統統一調度算力資源、存儲資源和網絡資源等;二是由云管系統將網絡訴求發送給網絡控制單元,如網絡協同編排器等,由網絡控制單元根據云業務訴求來調度網絡。顯然,其關鍵是先選定云服務,再確定網絡連接。所以一個云服務商可以連接多個網絡,甚至可以利用SD-WAN(Software-Defined WAN,軟件定義廣域網)等技術實現跨不同網絡運營商的跨域連接。
而算力網絡則是從另外一個角度來解決問題的。算力池將自身空閑的算力資源信息發送給網絡控制面,然后通過網絡控制面(集中式控制器或分布式路由協議)分發這些算力信息。當收到用戶的業務需求后,即可通過分析路由表中記錄的網絡信息與算力信息來選擇最合適的算力池與網絡路徑。顯然,算力網絡需要先選定網絡,再選擇算力池(云計算服務節點或者邊緣計算服務節點)。
如果可選的網絡服務商只有一家,云服務商/算力提供方也只有一家,那么云網協同與算力網絡沒有太大的差異。但在現實中,網絡服務商有多家,云服務商/算力提供方就更多了,這時云網協同與算力網絡的差異就相當大了。
在云網協同方案中,用戶先選定云服務商,甚至選定具體的云資源池或邊緣計算節點,然后可以在多個網絡服務商中選擇最適合的網絡連接產品與最優的網絡路徑。而在算力網絡方案中,則需要先確定網絡服務商,然后根據業務對時延等指標的要求,結合網絡情況從多個算力資源中選擇最合適的算力節點。
簡而言之,云網協同是“一云多網”,而算力網絡則是“一網多云(算)”。
算力網絡,我們還要等多久
不過,盡管算力網絡的前景值得期待,從2019年至今,業界對算力網絡的研究也有近三年的時間,但不得不說,當前算力網絡的發展還處于初級階段。
算力網絡并不是簡單地將算力信息放到網絡中分發,它還需要與算力交易、網絡訂購等業務關聯起來,形成一個體系架構,才能解決兩個層面的問題:一是資源關聯,根據用戶的訴求將算力資源、網絡資源等進行有機的整合,以滿足用戶多樣化的需求;二是資源交易,讓用戶能夠根據自己對業務的要求及能夠承擔的成本,在算力交易平臺上購買最適合的算力資源與網絡資源。
因此,算力網絡體系要能包含諸多主體,如算力消費方、算力提供方、網絡運營方、算力網絡交易平臺、算力網絡控制面等。
算力網絡體系內容,圖片來源@網絡
同時,算力網絡要想實現落地應用,也需要多個技術領域的進一步突破。
中國移動提出的算力網絡技術圖譜,圖片來源@網絡
目前,算力網絡的研究工作主要圍繞以下幾個方面展開。
(1)算力度量。目前計算資源的衡量缺少一個統一且簡單的度量單位,因此如何評估不同類型算力資源的大小成為一個亟需解決的難題。
(2)信息分發。信息分發即如何將算力等資源信息通過網絡控制面廣而告之。
(3)資源視圖。如何給每個用戶生成以其為中心的資源視圖,讓其可以智能選擇最佳資源組合也是需要關注的內容。
(4)可信交易。由于算力網絡中的各類資源歸屬不同所有者,算力網絡作為一個中間平臺,需要考慮如何確保資源交易真實有效且可溯源。
這其中,包括算力度量等在內的算力網絡底層基礎技術,并未實現真正的突破,所以從算力網絡概念的提出到真正的成熟推廣,估計還需要至少5年的時間。
總而言之,算力網絡固然值得我們關注,但還需冷靜看待,這也是我們看待其他新技術應有的態度:既不忽視,也不盲從。
參考資料:
雷波,陳運清,等.邊緣計算與算力網絡:5G+AI時代的新型算力平臺與網絡連接[M] .北京:電子工業出版社,2020.11