DePin賽道的落地應用展示:Utility AI容器雲使用報告

2023-12-25 22:12:15

DePin ,是 Decentralized Physical Infrastructure Networks(中心化物理基礎設施網絡) 的簡稱。DePin 概念核心在於利用代幣激勵用戶部署硬件設備,以提供真實世界的商品與服務或數字資源例如算力、存儲和網絡帶寬等。據 Messrai 報道,目前整個賽道估值大概在 90 億美金左右,到 2028 年有望增長到 3.5 萬億美金的規模。

目前符合 DePin 概念的項目也有不少,其中主打分布式 AI 算力調度的 UtilityNet(以下簡稱 Utility)經過一年來的發展,在近期剛剛推出基於 TPU(AI 專用加速芯片)和相關智算服務器構建的 AI 容器雲測試平臺。感興趣的 AI 开發者通過 Utility 官方 Twitter 账號公布的郵件地址,可以申請參與 Utility AI 容器雲的測試,以此獲得一定的 AI 雲算力進行大模型的部署和推理。這些雲算力背後的芯片和設備都是由參與目前封閉測試期的 Utility 礦工提供的。

Utility 創新的提出了一個全新的 Proof Of ComputationIntegrity(簡稱 POCI,中文翻譯為“可信計算”)共識機制,通過 AI 專用芯片內部的安全引擎模塊,結合鏈上的加密學原理,讓芯片能夠自我證明,從而達到不損耗算力就可以獲得激勵的目的。因為過去流行的 POW 共識把設備算力在挖礦過程中都已經消耗殆盡了,這顯然跟 DePin 理念是衝突的,算力被挖礦消耗掉,就無法流轉給真正的需求方。因此,Utility 這套創新 POCI 共識為其 Token 真正的實現算力從礦工到租用者之間的流轉提供了現實的解決方案。

作為一名 AI 开發者,已關注 Utility 這個項目一段時間,在通過官方通道申請並試用了測試版的 Utility AI 容器雲之後,為大家分享一下相關的試用報告。

基於 Utility 去中心化的挖礦激勵原理,Utility AI 容器雲的使用界面設計了礦工管理端與芯片用戶端,區分不同的用戶與操作邏輯,使得 Utility AI 容器雲平臺中不同類型的用戶可以出色地協調配合,以完成算力從礦工到算力租用者之間的流轉。

一、 Utility AI 容器雲礦工管理端

1.礦工管理端說明

Utility AI 容器雲礦工管理端具有獨立的訪問入口頁面,當前測試版訪問地址為 https://cloud.utlab.io/admin/#/ ,登錄頁面如下:

2.平臺監控

Utility AI 容器雲的監控架構為 NodeExporter+ Prometheus +Grafana,面向對象為集群監控和訓練任務監控,以 Grafana 網頁的形式展示。NodeExporter 可以收集到節點的各種資源信息,使用情況,並且以 prometheus 支持的數據格式存儲與本地文件。Prometheus 以 Pull 的形式,將每個節點的 NodeExporter 服務的本地數據收集匯聚到其中心數據庫。Grafana 網頁前端服務啓動前配置好 Prometheus 的數據庫 API 調用路徑,定時請求 Prometheus 的數據指標,就可向礦工動態地展示集群和平臺中所有 AI 芯片用戶正在運行的任務的指標數據的圖表。

集群監控

集群監控以 Grafana 網頁的形式內嵌於管理端網頁內。

如下圖,【登錄管理網絡端/集群監控】展示了集群信息:

3.資源管理

Utility AI 容器雲礦工管理端支持對平臺硬件資源進行便捷管理。平臺資源管理模塊可以分為服務器節點、系統資源、自定義資源、資源規格、資源池。

節點

節點即服務器,平臺底層集群系統在啓動的時候會自動發現已經組成集群的服務器,發現其各種屬性。如 IP、Hostname、所賦予的標籤、是否 Ready 的狀態、擁有何種資源等詳情信息。

如下圖,【登錄礦工管理端/資源管理/節點】展示了系統自動發現的節點列表:

資源

從物理上看,所有資源都組裝於服務器節點,並由平臺系統自動發現,即是系統資源。系統資源有各種名字,各種區分形式,它可以根據各種邏輯劃分。

如下圖,【登錄礦工管理端/資源管理/資源】展示了自動發現的系統資源列表:

為了方便管理、友好展示、感性利用,平臺設計了自定義資源功能,礦工可根據不同的邏輯將已有的系統資源重新定義為一種新的自定義資源。

如下圖,【登錄礦工管理端/資源管理/資源/自定義資源】可根據系統資源增加自定義資源--TPU 1684 或者 TPU 1684 X(1684 系列是 AI 芯片名稱):

資源規格

為了更好地向用戶展示平臺所擁有的資源還有更好地統計用戶使用資源的情況。平臺將服務器上組裝的不同種類的資源歸為一個組,這種將資源歸為組的功能即是資源規格。管理員定義好資源規格的名字,用戶就可感性地從資源規格名字中獲取資源的信息,選擇自己想要的資源組用於運行自己的任務。

如下圖,【登錄管理網頁端/資源管理/資源規格】可根據所有資源創建資源規格(4 CPU-2 GB-2 TPU 1684):

資源池

資源池用於隔離集群的服務器資源。縱向看,資源以服務器節點為粒度。橫向看,資源又以資源規格為粒度。服務器節點面向管理員,資源規格面向用戶。自然地,如果要更好地將資源與用戶解耦與隔離,需要一個資源池的概念。資源池將資源邏輯地重新分割,Utility AI 容器雲以服務器節點為粒度,將資源以服務器節點的形式整體劃分到不同的資源池,不同的資源池可以綁定到用戶群組。以這樣的形式,可以很好地將集群的資源隔離,不同的資源可分配給不同的用戶群。

如下圖,【登錄礦工管理端/資源管理/資源池】系統自帶的默認資源池初始化包含所有資源節點,也可根據不同業務邏輯點擊按鈕創建新的資源池:

礦工管理端支持對平臺硬件資源進行便捷管理。平臺資源管理模塊可以分為服務器節點、系統資源、自定義資源、資源規格、資源池。

4.機時管理

礦工可以根據 UNC/機時的價格設定租用各種 AI 芯片費用,當算力租賃用戶購买了芯片租用訂單,AI 芯片容器任務啓動時間开始,平臺會扣取相應的機時。平臺按照資源規格設置單價 UNC/機時,計費規則如下:

AI 芯片容器任務機時 = 子任務 1 機時 + 子任務 2 小時 + ... + 子任務 n 機時

子任務機時 = 副本 1 機時 + 副本 2 機時+ ... + 副本 n 機時

副本機時 = 資源規格 * (副本運行終止時間 - 副本運行起始時間)

機時管理包括機時列表,充值記錄和消費記錄

用戶機時列表


二、 AI 容器雲芯片用戶端

1. 用戶使用說明

Utility AI 容器雲芯片用戶端的訪問地址為 https://console.utlab.io/utnetai/ ,登錄頁面如下:

2. 概覽

概覽頁用於展示不同狀態的訓練任務的個數信息,剩余機時信息,消費及充值記錄信息,同時向用戶提供快速創建 Jupyter notebook,算法,訓練任務,任務模板,算法,數據集,鏡像功能。

3. 模型开發

Jupyter notebook 管理

Jupyter notebook 管理提供在线編程環境,用來調試、運行和保存算法以支撐後續的模型訓練。該模塊支持开源的 JupterLab,用戶需要提前制作包含 Jupyterlab 程序的鏡像。用戶可以創建、打开、啓動、停止、刪除 notebook,用戶在 JupterLab 裏編輯算法將會自動保存

創建 notebook

點擊創建按鈕,選擇相應算法、鏡像、數據集(可選)和資源,可在「高級設置」中選擇任務數,點擊確定創建 notebook。

打开 notebook

點擊打开按鈕,彈出懸浮窗,選擇對應子任務,打开 notebook

本次嘗試部署 ONNX 模型,該模型從清華 GLM-6 B 轉換而來,相關推理在 Nvidia Tesla A 100 40 G 上部署成功,現嘗試在申請到的官方給到 4 CPU 2 G + 1 顆 1684 x 芯片的 infer 容器環境推理,如下圖

之後上傳好模型經過編譯後目錄已經確定,嘗試在 notebook 中打开,並成功加載目錄和控制臺,不得不說在該容器中的體驗和傳統 AI 工程師工作流幾乎吻合,可以見得該容器雲專業性和投入,這裏要給 UtilityNet 團隊點個贊,兼容 Jupiter 的全套環境對於需要 plot 監控和專業輸出的开發者實在太友好了。在 notebook 中,可以看到目錄中相關加載如圖

接下來進入容器控制臺,體驗幾乎完美,可能因為申請試用的服務器集群在亞洲的原因,所以延時基本和之前採購的 AWS 香港服務器差不多。因為編譯好的緣故,我們直接用 Pytho n3運行,dev 0 就是分配到的那張 SC 7 三芯 BM 1684 X 卡中屬於我的第一顆芯片,通過命令指定並運行,短暫延時後成功推理,因此單卡可以並行三個 ChatGLM,通過分發到三個用戶提供並行體驗,讓我們對 BM 1684 x 在 UtilityNet 的廣泛場景充滿期待,相關測試可以參考下圖

停止 notebook

最後,點擊停止按鈕,停止 notebook,結束體驗和機時。

三、總結

通過全流程體驗,從申請容器,到分配到2C PU 4 G 單芯 1684 x 容器,到部署編譯在 infer 環境中,到 notebook 便捷展开 Jupiter,到控制臺文件目錄和 GLM 的成功推理,整個流程無比絲滑,對相關 AI 开發者和算力使用者非常友好。不得不對如此強大的容器雲未來能夠开源和一鍵部署在 UtilityNet 的算力提供商節點充滿無限期待,對官方明年 2-3 月份的公开測試網和分布式算力的未來也更加肯定了信心。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

推薦文章

BTC波動率 : FOMC會議

關鍵指標 (香港時間 9 月 19 日凌晨 12 點 -> 中午 12 點): BTC/USD 現...

星球日報
5 14小時前

HTX成長學院:美聯儲降息50基點將會帶來哪些影響?

一、引言 2024 年 9 月 19 日,美聯儲宣布將聯邦基金利率下調 50 個基點至 4.75%...

星球日報
5 14小時前

預售超14萬部,速覽新一代Web3智能手機Solana Seeker

9 月 19 日,Solana Labs 旗下的 Solana Mobile 在新加坡的 TOKE...

星球日報
5 14小時前

深入分析World Liberty Financial的價值:特朗普競選經費劣勢下的新選擇

作者 : @Web3Mario(https://x.com/web3_mario) 摘要 :首先祝...

馬裏奧看Web3
5 14小時前

聚焦TOKEN2049:沉寂已久的加密市場有哪些新看點?

原文整理: flowie, ChainCatcher 9 月 18 日,Web3 最受矚目的年度峯...

星球日報
5 14小時前

DePIN專題報告:超過370個代幣上线,Helium用戶突破11萬大關

DePIN Helium | Glow | Livepeer | IoTeX | TADA E V...

星球日報
5 14小時前