IOSG Ventures：從硅到智能，詳解人工智能訓練與推理技術棧

2024-08-06 16:08:29

人工智能的迅猛發展基於復雜的基礎設施。AI 技術棧是一個由硬件和軟件構成的分層架構，它是當前 AI 革命的支柱。在這裏，我們將深入分析技術棧的主要層次，並闡述每個層次對 AI 开發和實施的貢獻。最後，我們將反思掌握這些基礎知識的重要性，特別是在評估加密貨幣與 AI 交叉領域的機會時，比如 DePIN（去中心化物理基礎設施）項目，例如 GPU 網絡。

1.硬件層:硅基礎

在最底層是硬件，它為人工智能提供物理計算能力。

CPU（中央處理器）：是計算的基礎處理器。它們擅長處理順序任務，對於通用計算非常重要，包括數據預處理、小規模人工智能任務以及協調其他組件。
GPU（圖形處理器）：最初設計用於圖形渲染，但因其能夠同時執行大量簡單計算而成為人工智能的重要組成部分。這種並行處理能力使 GPU 非常適合訓練深度學習模型，沒有 GPU 的發展，現代的 GPT 模型就無法實現。
AI 加速器：專門為人工智能工作負載設計的芯片，它們針對常見的人工智能操作進行了優化，為訓練和推理任務提供了高性能和高能效。
FPGA( 可編程陣列邏輯 )：以其可重編程的特性提供靈活性。它們可以針對特定的人工智能任務進行優化，特別是在需要低延遲的推理場景中。

2. 底層軟件:中間件

AI 技術棧中的這一層至關重要，因為它構建了高級 AI 框架與底層硬件之間的橋梁。CUDA、ROCm、OneAPI 和 SNPE 等技術加強了高級框架與特定硬件架構之間的聯系，實現了性能的優化。

作為 NVIDIA 的專有軟件層，CUDA 是該公司在 AI 硬件市場崛起的基石。NVIDIA 的領導地位不僅源於其硬件優勢，更體現了其軟件和生態系統集成的強大網絡效應。

CUDA 之所以具有如此大的影響力，是因為它深度融入了 AI 技術棧，並提供了一整套已成為該領域事實上標准的優化庫。這個軟件生態構建了一個強大的網絡效應：精通 CUDA 的 AI 研究人員和开發者在訓練過程中將其使用傳播到學術界和產業界。

由此產生的良性循環強化了 NVIDIA 的市場領導地位,因為基於 CUDA 的工具和庫生態系統對 AI 從業者來說變得越來越不可或缺。

這種軟硬件的共生不僅鞏固了 NVIDIA 在 AI 計算前沿的地位，還賦予了公司顯著的定價能力，這在通常商品化的硬件市場中是罕見的。

CUDA 的主導地位和其競爭對手的相對默默無聞可以歸因於一系列因素,這些因素創造了顯著的進入壁壘。NVIDIA 在 GPU 加速計算領域的先發優勢使 CUDA 能夠在競爭對手站穩腳跟之前建立起強大的生態系統。盡管 AMD 和 Intel 等競爭對手擁有出色的硬件，但他們的軟件層缺乏必要的庫和工具，並且無法與現有技術棧無縫集成，這就是 NVIDIA/CUDA 與其他競爭對手之間存在巨大差距的原因。

3. 編譯器:翻譯者

TVM( 張量虛擬機 )、MLIR( 多層中間表示 ) 和 PlaidML 為跨多種硬件架構優化 AI 工作負載的挑战提供了不同的解決方案。

TVM 源於華盛頓大學的研究，因其能夠為各種設備 ( 從高性能 GPU 到資源受限的邊緣設備 ) 優化深度學習模型而迅速獲得關注。其優勢在於端到端的優化流程，在推理場景中尤為有效。它完全抽象化了底層供應商和硬件的差異，使得推理工作負載能夠在不同硬件上無縫運行，無論是 NVIDIA 設備還是到 AMD、Intel 等。

然而，在推理之外，情況變得更加復雜。AI 訓練的硬件可替代計算這一終極目標仍未解決。不過,在這方面有幾個值得一提的倡議。

MLIR，Google 的項目，採用了更基礎的方法。通過為多個抽象級別提供統一的中間表示，它旨在簡化整個編譯器基礎設施，以針對推理和訓練用例。

PlaidML，現在由 Intel 領導，將自己定位為這場競賽中的黑馬。它專注於跨多種硬件架構 ( 包括傳統 AI 加速器之外的架構 ) 的可移植性，展望了 AI 工作負載在各類計算平臺上無縫運行的未來。

如果這些編譯器中的任何一個能夠很好地集成到技術棧中，不影響模型性能，也不需要开發人員進行任何額外修改，這極可能威脅到 CUDA 的護城河。然而，目前 MLIR 和 PlaidML 還不夠成熟，也沒有很好地集成到人工智能技術棧中，因此它們目前並不會對 CUDA 的領導地位有明顯威脅。

4. 分布式計算:協調者

Ray 和 Horovod 代表了 AI 領域分布式計算的兩種不同方法，每種方法都解決了大規模 AI 應用中可擴展處理的關鍵需求。

由 UC Berkeley 的 RISELab 开發的 Ray 是一個通用分布式計算框架。它在靈活性方面表現出色，允許分配機器學習之外的各種類型的工作負載。Ray 中基於 actor 的模型極大簡化了 Python 代碼的並行化過程，使其特別適用於強化學習和其他其他需要復雜及多樣化工作流程的人工智能任務。

Horovod，最初由 Uber 設計，專注於深度學習的分布式實現。它為在多個 GPU 和服務器節點上擴展深度學習訓練過程提供了一種簡潔而高效的解決方案。Horovod 的亮點在於它的用戶友好性和對神經網絡數據並行訓練的優化，這使得它能夠與 TensorFlow、PyTorch 等主流深度學習框架完美融合，讓开發人員能夠輕松地擴展他們的現有訓練代碼，而無需進行大量的代碼修改。

5. 結束語:從加密貨幣角度

與現有 AI 棧的集成對於旨在構建分布式計算系統的 DePin 項目至關重要。這種集成確保了與當前 AI 工作流程和工具的兼容性，降低了採用的門檻。

在加密貨幣領域，目前的 GPU 網絡，本質上是一個去中心化的 GPU 租賃平臺，這標志着向更復雜的分布式 AI 基礎設施邁出的初步步伐。這些平臺更像是 Airbnb 式的市場，而不是作為分布式雲來運作。盡管它們對某些應用有用，但這些平臺還不足以支持真正的分布式訓練，而這是推進大規模 AI 开發的關鍵需求。

像 Ray 和 Horovod 這樣的當前分布式計算標准，並非為全球分布式網絡設計，對於真正工作的去中心化網絡，我們需要在這一層上开發另一個框架。一些懷疑論者甚至認為，由於 Transformer 模型在學習過程中需要密集的通信和全局函數的優化，它們與分布式訓練方法不兼容。另一方面，樂觀主義者正在嘗試提出新的分布式計算框架，這些框架可以很好地與全球分布的硬件配合。Yotta 就是試圖解決這個問題的初創公司之一。

NeuroMesh 更進一步。它以一種特別創新的方式重新設計了機器學習過程。通過使用預測編碼網絡 (PCN) 去尋找局部誤差最小化的收斂，而不是直接去尋找全局損失函數的最優解，NeuroMesh 解決了分布式 AI 訓練的一個根本瓶頸。

這種方法不僅實現了前所未有的並行化，還使在消費級 GPU 硬件 ( 如 RTX 4090) 上進行模型訓練成為可能，從而使 AI 訓練民主化。具體來說， 4090 GPU 的計算能力與 H 100 相似，但由於帶寬不足，在模型訓練過程中它們未被充分利用。由於 PCN 降低了帶寬的重要性，使得利用這些低端 GPU 成為可能，這可能會帶來顯著的成本節省和效率提升。

GenSyn，另一家雄心勃勃的加密 AI 初創公司，以構建一套編譯器為目標。Gensyn 的編譯器允許任何類型的計算硬件無縫用於 AI 工作負載。打個比方，就像 TVM 對推理的作用一樣，GenSyn 正試圖為模型訓練構建類似的工具。

如果成功,它可以顯著擴展去中心化 AI 計算網絡的能力，通過高效利用各種硬件來處理更復雜和多樣的 AI 任務。這個雄心勃勃的愿景，雖然由於跨多樣化硬件架構優化的復雜性和高技術風險而具有挑战性，但如果他們能夠執行這一愿景，克服諸如保持異構系統性能等障礙，這項技術可能會削弱 CUDA 和 NVIDIA 的護城河。

關於推理：Hyperbolic 的方法，將可驗證推理與異構計算資源的去中心化網絡相結合，體現了相對務實的策略。通過利用 TVM 等編譯器標准，Hyperbolic 可以利用廣泛的硬件配置，同時保持性能和可靠性。它可以聚合來自多個供應商的芯片 ( 從 NVIDIA 到 AMD、Intel 等 )，包括消費級硬件和高性能硬件。

這些在加密 AI 交叉領域的發展預示着一個未來，AI 計算可能變得更加分布式、高效和可訪問。這些項目的成功不僅取決於它們的技術優勢，還取決於它們與現有 AI 工作流程無縫集成的能力，以及解決 AI 從業者和企業實際關切的能力。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

IOSG Ventures：從硅到智能，詳解人工智能訓練與推理技術棧

1.硬件層:硅基礎

2. 底層軟件:中間件

3. 編譯器:翻譯者

4. 分布式計算:協調者

5. 結束語:從加密貨幣角度

評論

從Treasure到Sharpnel，Web3初創項目燒光融資邁入寒冬

Matrixport市場觀察：短期市場情緒波動劇烈，BTC暫守79k支撐位

一個偉大的創始人應該是什么樣？深度側寫 Paradigm 聯創 Matt Huang

布局新一輪上行周期，加密VC都在押注哪些項目？

跨越鴻溝｜與何一對談Web3 如何從極客文化走向大衆共鳴

從幣安的發展看加密金融的新趨勢

星球日報