A16Z:面對天價算力,AI开發者如何突破困境?
原文由Guido Appenzeller, Matt Bornstein, and Martin Casado撰寫
EMC愛好者編譯整理
天價模型:高成本與高時間
-
底層的算法問題在計算上非常復雜且困難,因而AI的基礎設施本身就很昂貴。
-
不過對於Transformer來說,人們可以估計特定大小的模型將消耗多少計算和內存。因此,選擇合適的硬件成為下一個考慮因素。
-
按照傳統CPU的速度,在不利用任何並行架構的情況下,執行單個 GPT-3 的推理操作將需要花費 32 小時。這種速度顯然是不行的。
-
生成式 AI 需要對現有的 AI 基礎設施進行大量投資。訓練像 GPT-3 這樣的模型,是人類有史以來計算量最大的任務之一。雖然GPU越來越快,开發者們也找到了優化訓練的方法,但AI的快速擴張抵消了這兩種影響。
AI基礎設施:自己建造還是花錢买?
內部自建&外部設施
-
像OpenAI、Hugging Face、和Replica這樣的托管模型服務,允許創始人快速搜索產品與市場的契合度,無需管理底層基礎設施或模型。
-
這些服務的定價是基於消費的,因此它通常也比單獨搭建運行的基礎設施便宜。
-
另一方面,訓練新基礎模型或構建垂直集成的AI初創公司,無法避免直接在GPU上運行自己的模型。因為模型實際上是產品,團隊正在尋找“模型-市場契合度”;控制訓練和推理才能實現某些功/或大規模降低邊際成本。無論哪種方式,管理基礎架構都可以成為競爭優勢的來源。
雲VS數據中心
-
大多數情況下,雲是最適合構建AI基礎設施的地方。
-
例外情況:
(1)運營規模非常大的情況下,運行自己的數據中心可能更劃算。每個地方或許價格不一,但开支通常> 5000 萬美元/年。
(2)雲提供商無法提供您需要的特定硬件,例如未廣泛使用的 GPU 類型,以及異常的內存、存儲或網絡要求。
如何選擇雲服務提供商?
-
價格:特定硬件上的算力是一種商品。雖然我們期望價格統一,但事實並非如此。在價格規模的頂端,大型公共雲根據品牌聲譽、經過驗證的可靠性以及管理各種工作負載的需求收取溢價。較小的專業AI提供商能提供較低的價格,要么通過運行專用數據中心(例如Coreweave)或套利其他雲(例如Lambda Labs)。
-
可用性:人們普遍認為前三大雲服務供應商可用性最前,不過許多初創企業發現事實未必如此。大型雲有很多硬件,但也需要滿足大量的客戶需求, 例如Azure是ChatGPT的主要主機,並且不斷增加/租賃容量以滿足需求。與此同時,英偉達致力於在整個行業中廣泛提供硬件,包括為新的專業提供商分配硬件。
-
計算交付模型:由於尚未解決GPU虛擬化的問題,今天的大型雲僅提供具有專用GPU的實例。專用 AI 雲提供其他模型,例如容器或批處理作業,這些模型可以處理單個任務,而不會產生實例的啓動和拆卸成本。如果您對這種模型感到滿意,它可以大大降低成本。
-
網絡互連:對於模型訓練而言,選擇提供商時主要考慮網絡帶寬。需要節點之間具有專用結構的集群(例如 NVLink)來訓練某些大型模型。對於圖像生成AI而言,出口流量費用也可能是一個主要的成本驅動因素。
如何選擇GPU?
-
訓練與推理:訓練大型模型是在機器集群上完成的,每臺服務器最好有許多 GPU、大量 VRAM 以及服務器之間的高帶寬連接。許多型號在 NVIDIA H100 上最具成本效益,但截至今天很難找到,而且通常需要一年以上的長期投入。而今NVIDIA A100 可以運行大多數模型訓練,也容易接觸到,但對於大型集群,可能還需要長期投入。
-
內存要求:大語言模型的參數計數太高,往往需要H100或A100,但是較小模型(例如穩定擴散)所需要的VRAM要少得多。雖然A100仍然很受歡迎,不過許多初創公司已开始使用A10,A40,A4000,A5000和A6000,甚至RTX卡。
-
硬件支持:目前A16Z的調研結果裏,絕大多數工作負載都在 NVIDIA 上運行,但少數公司已經开始嘗試其他供應商,例如谷歌TPU以及英特爾的Gaudi2,模型性能通常高度依賴於這些芯片的軟件優化可用性。
-
延遲網絡要求:通常,延遲敏感度較低的工作負載(例如,批處理數據處理)可以使用功能較弱的 GPU,將計算成本降低多達 3-4 倍。另一方面,面向用戶的應用程序通常需要高端卡來提供實時用戶體驗。優化模型通常是必要的,以使成本達到可管理的範圍。
模型優化策略
-
適用於廣泛模型的策略:
(1)使用較短的浮點表示(即 FP16 或 FP8 與原始 FP32)或量化(INT8、INT4、INT2)可實現加速,通常與比特的減少呈线性關系。
(2)修剪神經網絡,通過忽略低值的權重來減少權重的數量。
(3)另一組優化技術解決了內存帶寬瓶頸(例如,通過流式模型權重)。
-
針對於特定模型的策略:Stable Diffusion在推理所需的VRAM量方面取得了重大進展。
-
針對於特定硬件的優化:NVIDIA的TensorRT包括許多優化,但僅適用於NVIDIA硬件。
-
調度AI任務的調度可能會帶來性能瓶頸,也可能帶來提升。將模型分配給 GPU 以最大程度地減少權重交換,為任務選擇最佳 GPU(如果有多個 GPU)以及通過提前批處理工作負載,可最大程度地減少停機時間。
成本如何演變?
-
過去幾年間,模型參數和 GPU 計算能力呈指數級增長。
-
人們普遍認為,最優參數數量與訓練數據集的大小之間存在關系。今天最好的大語言模型是在Common Crawl(45億個網頁的集合)上進行訓練的。
-
轉錄視頻或音頻內容等想法也橫空出世,但尚未形成規模。目前尚不清楚我們是否可以獲得比已經使用的數據集大 10 倍的非合成訓練數據集。
-
GPU 性能將繼續提高,但速度也會放緩。摩爾定律仍然完好無損,允許更多的晶體管和更多的內核,但功率和I輸入/ 輸出正在成為限制因素。
-
算力需求仍會增加。即使模型和訓練集的增長放緩,人工智能行業的增長和人工智能开發人員數量的增加也將推動對更多、更快的GPU的需求。
-
LLM的培訓成本在今天可能看起來像一條護城河,不過Alpaca以及Stable Diffusion這樣的开源模型已經表明,這些市場還處於早期階段,可能會迅速變化。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
博鏈財經
文章數量
738粉絲數
0