探索在人工智能中的Web3案例

2024-03-25 16:03:06

動機與挑战

當前的人工智能領域由中心化、封閉源和寡頭壟斷的科技巨頭所主導。少數幾家公司控制着最高性能的模型,這在很大程度上是由於極端集中化的力量促進了模型的开發和推斷。

創建一個機器學習模型通常包括三個主要階段:預訓練、微調和推斷。這些階段對於开發出一個強大且准確的模型,能夠很好地泛化到新的、未見過的數據,至關重要。

預訓練階段

在預訓練階段,模型訓練於一個大型的、通用的數據集。該數據集與最終模型要執行的任務無關,而是旨在幫助模型學習各種特徵和模式。例如,在語言模型的情況下,這可能涉及從大量的文本語料庫中學習語言結構、語法和廣泛的詞匯。這裏的目標是开發一個對將要處理的數據的基本結構有很好理解的模型,無論是文本、圖像還是其他形式的數據。

在預訓練階段存在一些集中力量:

  1. 數據收集和排序 - 預訓練階段的關鍵是從各種來源(包括文獻、數字文章和專業數據庫)匯總大量數據集。行業巨頭,如谷歌,歷來利用用戶生成的內容來打造無與倫比的高效模型,這種做法如今仍在繼續,微軟和 OpenAI 等實體通過獨家聯盟和專有平臺獲取頂級數據。這些能力的集中在少數幾家公司內,導致了人工智能行業的明顯集中化。

    此外,依賴專有數據集進行模型訓練引入了重要的倫理考慮和延續偏見的風險。 AI 算法本質上是從基礎數據中得出操作範式的,並由此產生內在的偏見,從而很容易被嵌入和復制。 這種情況強調了在开發過程中進行細致審查和道德監督的必要性,確保模型反映公平和有意的模式和關聯。

  2. 資源需求 - 已經確定,模型的效果與訓練數據的數量呈對數增強關系,這表明受益於最廣泛的 GPU 計算周期的模型通常表現最好。 這種動態在預訓練階段引入了一個重要的集中化影響,由主要的科技和數據公司所擁有的規模經濟和生產力優勢推動。 這一趨勢在行業巨頭 OpenAI、谷歌、亞馬遜、微軟和 Meta 的主導地位中顯而易見。這些公司擁有並運營着全球大多數的數據中心,並且可以獲得 NVIDIA 最新、最先進的硬件設備。

微調階段

模型經過預訓練後,進行微調。在這個階段,模型會在一個較小的、特定任務的數據集上進行進一步訓練。目的是調整模型在預訓練過程中學習到的權重和特徵,使其更適合當前的具體任務。這可能涉及教授語言模型理解醫學術語,或訓練圖像識別模型區分不同種類的鳥類。

微調階段使模型能夠專注並提高在對終端用戶感興趣的任務上的性能。再次,在微調階段中存在一些集中力量,其中最重要的是封閉源模型和可驗證性。

在微調階段,模型的參數被細化和設置,塑造其功能和性能。主流趨勢是朝着專有的人工智能模型發展,比如 OpenAI 的 GPT 系列和 Google 的 Gemini,這意味着這些模型的內部運作和參數並未公开。因此,當用戶請求推理時,他們無法驗證回復是否真的來自他們認為正在互動的模型。

這種缺乏透明度可能會對用戶造成不利影響,特別是在信任和可驗證性至關重要的情況下。例如,在醫療領域,人工智能模型可能會幫助診斷疾病或推薦治療方法,但醫生無法確認模型推斷的來源和准確性,可能會導致不信任甚至誤診。如果醫療專業人員無法確定 AI 的建議是基於最可靠和最新的模型,後果可能直接影響患者的護理和結果,強調了 AI 部署中透明度和問責制的重要性。

推理階段

推理階段是模型實際應用的階段。此時,模型已經經過訓練和微調,准備好對新數據進行預測。在 AI 模型的情況下,這可能意味着回答問題、翻譯語言或提供推薦。這個階段是將訓練好的模型應用於實際問題的階段,通常也是模型價值實現的階段。

在推理階段,導致集中化的因素有:

  1. 訪問: 中心化的前端用於 AI 模型訪問可能會帶來風險,可能會使用戶無法訪問 API 或推理。當少數實體控制這些門戶時,他們可以自行決定出於各種原因拒絕訪問重要的人工智能服務,包括政策變化或爭議。這種集中化突出了需要採取分散化的方法,以確保更廣泛、更具彈性的對人工智能技術的訪問,減輕審查和訪問不平等的風險。

  2. 資源需求: 在人工智能中進行推理的成本,特別是對於需要大量計算資源的任務,成為技術行業內的一種集中力量。高推理成本意味着只有具有大量財力的大公司才能負擔得起規模化運行先進的人工智能模型。這種財務壁壘限制了較小實體或個人开發者利用尖端人工智能技術的全部潛力。

    因此,這一局勢越來越被少數強大的參與者所主導,抑制了競爭和創新。這種中心化不僅影響了人工智能發展的多樣性,還限制了對人工智能好處的獲取,僅局限於一小部分資金充裕的組織,從而在技術生態系統中造成了重大不平衡。

在中心化的人工智能領域中,出現了一些反復出現的主題,特別是關於 Web2 公司的演變。最初作為开放網絡成立的這些實體,通常會將焦點轉向最大化股東價值。這種轉變經常導致他們關閉網絡,調整算法以阻止外部鏈接,這通常與用戶的最佳利益相悖。

這種公司激勵與用戶需求不一致的情況通常發生在組織成熟並獲得外部資金的時候。事實上,我們已經在 OpenAI 身上看到了這種現象,它最初是一個非營利組織,旨在使人工智能的使用普及化,這說明行業中的重心轉變可以如何顯現。這很容易歸咎於這些個別公司,但我們認為這反映了科技行業內部集中力量引發的系統性問題,這種集中力量往往導致公司激勵與廣泛用戶需求之間的不一致。

可能的未來:人工智能與 Web3

加密世界為人工智能提供了一個基礎,使得信息和價值的交流變得無縫、开放和安全。區塊鏈技術提供了一個清晰和可追溯的系統,用於管理交易和記錄數據。在加密貨幣和人工智能的交匯處,出現了許多機會,兩個領域可以相互增強和從對方的能力中受益。

激勵對齊

分散計算在模型开發的預訓練和微調階段具有重要價值。基礎模型通常需要大量的 GPU 計算周期,通常在集中的數據中心中運行這些過程。分散的物理基礎設施網絡(DePIN)可以提供分散的、無需許可的計算訪問。通過加密貨幣的經濟激勵,軟件可以自主地補償硬件使用,無需中央治理實體。這使得網絡的用戶能夠控制網絡,調整激勵機制,並確保數據和模型提供者得到足夠的補償。

可驗證性

當前的人工智能基礎設施主要傾向於專有模型,用戶需要信任推理提供者通過指定模型執行查詢並生成合法的輸出。在這個背景下,密碼學證明系統成為了一項關鍵技術,提供了一種在區塊鏈上驗證模型輸出的機制。該過程使用戶能夠提交查詢,推理提供者使用約定的模型進行處理,隨後生成一個帶有加密證明的輸出。這個證明作為可驗證的證據,證明查詢確實通過指定的模型進行了處理。

這些舉措的主要目標是將繁重的計算任務轉移到鏈下環境,同時確保結果可以在鏈上進行驗證。這種方法不僅減輕了區塊鏈上的計算負擔,還通過提供不可變的證據來引入透明度和可信度的層次,證明了鏈下計算的准確性和完成性。

將這些密碼學證明納入 AI 模型驗證過程中,解決了與閉源 AI 系統相關的幾個關鍵問題。它減輕了不透明或未經驗證的計算風險,增強了計算過程的完整性,並促進了用戶和推理提供者之間基於信任的關系。此外,這種方法與更廣泛的去中心化和透明系統的趨勢相一致,呼應了區塊鏈技術的基本原則。

可組合性

去中心化金融和區塊鏈網絡的主要優勢之一就是它們所能實現的可組合性。可組合性允許在 DeFi 中廣泛使用“貨幣樂高”,即將不同的協議和輸出組合在一起,以創建新的應用程序。盡管這種模塊化性引入了新的風險形式到系統中,但也簡化了开發者的應用开發,增加了創新和开發速度,並能夠提供更簡便的用戶體驗和便利。

類似於加密貨幣為金融產品提供了可組合性,它也將為人工智能網絡和應用程序創造可組合性,通過作為一個無需許可和無需信任的層級,人工智能模塊可以在其上構建並獨立工作,同時與其他模塊保持互聯,形成能夠提供各種服務的網絡。通過區塊鏈網絡效應和加密貨幣,去中心化的人工智能項目和應用可以相互連接,完成人工智能的整體架構。

例如,可以使用 Akash 或 Filecoin 預處理的數據來使用 Marlin、Gensyn 或 Together 訓練模型。經過微調後,這些訓練好的模型可以通過 Bittensor 響應用戶查詢(推理)。盡管看起來更復雜,但最終用戶只需與一個前端進行交互,而开發人員和應用程序則可以通過構建在不同的堆棧和應用程序之上獲益。

通過分散式網絡實現的組合性的另一個重要方面是數據組合性。隨着用戶對擁有自己生成的數據越來越感興趣,並要求能夠在不同的人工智能協議之間攜帶數據,他們將要求他們的數據不受限於封閉的環境。分散化和开源的 AI 應用程序使數據可移植。

數據保護

分散計算,結合外部數據和隱私解決方案,為用戶提供了更多對其數據的自主權,使其成為比集中式對應方案更具吸引力的選擇。特別是,像完全同態加密(FHE)這樣的方法,允許在不需要先解密數據的情況下對加密數據進行計算。

通過 FHE,可以使用加密的數據集來訓練機器學習模型,從而在整個訓練過程中保持數據的隱私和安全。這提供了一個端到端的安全解決方案,具有強大的加密保證,允許在邊緣網絡中進行保護隱私的模型訓練,並允許开發能夠保護用戶隱私並利用先進的人工智能能力的人工智能系統。

FHE 的作用擴展到在雲環境中安全地運行加密數據上的大型語言模型。這不僅保護用戶的隱私和敏感信息,還增強了在具有固有隱私的應用程序上運行模型的能力。隨着人工智能在各個領域的整合,尤其是金融等敏感領域,對於像全同態加密這樣能夠防止潛在信息泄露的技術的需求變得至關重要。

自動升級能力

AI 可以用於根據一系列的變化和條件來維護、更新和自動升級智能合約。例如,AI 可以在協議方面使用,根據風險和其他市場條件的變化來調整風險參數。一個常見的例子是貨幣市場。貨幣市場目前依賴外部組織或 DAO 決策來調整借貸資產的風險參數。AI 代理可以簡化更新和升級特定參數,與人類和 DAO 組織相比,這將是一個明顯的改進,因為人類和 DAO 組織可能會慢而低效。

分散式人工智能的挑战

分散式人工智能面臨一系列挑战,特別是在平衡密碼學的开源性與人工智能的安全問題以及人工智能的計算需求方面。在密碼學中,开源對於確保安全至關重要,但在人工智能領域,公开模型或其訓練數據會增加其遭受對抗性機器學習攻擊的風險。利用這兩項技術开發應用程序面臨着重大的挑战。 此外,人工智能在區塊鏈中的應用,如基於人工智能的套利機器人、預測市場和決策機制,引發了公平性和操縱性的問題。 人工智能有潛力提高這些領域的效率和決策能力,但存在着人工智能無法完全把握人類驅動的市場動態細微差別的風險,從而導致意想不到的後果。

另一個令人擔憂的領域是將人工智能用作加密應用程序的界面。雖然人工智能可以幫助用戶在復雜的加密貨幣世界中導航,但它也存在風險,比如容易受到對抗性輸入的影響,或者導致用戶過度依賴人工智能做出重要決策。此外,將人工智能整合到區塊鏈應用的規則中,如 DAO 或智能合約,存在着風險。對抗性機器學習可能會利用人工智能模型的弱點,導致被操縱或不正確的結果。確保人工智能模型准確、用戶友好且免受操縱是一個重大挑战。

此外,將人工智能與零知識證明或多方計算相結合不僅計算密集,而且還面臨諸如高計算成本、內存限制和模型復雜性等障礙。零知識機器學習(zkML)的工具和基礎設施目前仍處於不發達狀態,這個領域缺乏熟練的开發人員。這些因素導致了在 zkML 能夠在適合消費品的規模上實施之前需要大量的工作。

小結

在保持區塊鏈的去中心化精神和確保人工智能系統可靠性的同時,平衡去中心化和信任尤其重要,特別是在人工智能使用可信硬件或特定數據治理模型的情況下。在本文的下一部分中,我們將深入探討能夠支持分散式人工智能的技術以及 Marlin 基礎設施在實現這一目標中的關鍵作用。

第二部分:實施技術概述

在本文的前一部分中,我們探討了集中式人工智能的缺點以及 Web3 如何緩解這些問題。然而,在鏈上運行模型是不可能的,因為需要支付極高的 Gas 費用。試圖增加底層區塊鏈的計算能力將增加驗證者的節點要求,這可能會降低去中心化,由於小型的家庭驗證者將會面臨困難。

在接下來的章節中,我們將介紹一些在 Web3 中進一步發展人工智能所必需的流行工具和技術,即零知識證明(ZKPs)、全同態加密(FHE)和可信執行環境(TEEs)。

ZKP 和 ZKML

零知識證明(ZKP)對於人工智能和 Web3 特別重要,因為它們可以提高擴展性和隱私保護。它們允許在鏈下進行計算,然後在鏈上進行驗證(驗證計算),這比在區塊鏈的所有節點上重新執行計算要高效得多,從而減輕了網絡負載並支持更復雜的操作。zkML 可以使 AI 模型在鏈上環境中運行。這確保了這些鏈下計算的輸出是可信且經過驗證的。

此外,zkML 可以驗證機器學習過程的特定方面,例如確認某個特定模型用於進行預測,或者某個模型是在特定數據集上進行訓練的。zkML 還可以用於驗證計算過程。例如,它允許計算提供商通過可驗證的證據證明他們已經使用了正確的模型處理數據。這對於依賴去中心化計算提供商(如 Akash)並希望確保計算的准確性和完整性的开發人員尤為重要。

zkML 對於需要在其數據上運行模型但希望保持數據私密性的用戶也很有用。他們可以在自己的數據上執行模型,生成證明,並隨後驗證正確模型的使用,而不會損害數據的隱私性。

FHE

如前所述,完全同態加密(FHE)允許直接在加密數據上進行計算,而無需先解密。該技術在人工智能領域有重要應用,特別是在機器學習和敏感數據處理方面。

FHE 的主要應用之一是使用加密數據集進行機器學習模型的訓練。這種方法確保數據在整個訓練過程中保持加密和安全。作為結果,FHE 提供了一種全面的安全解決方案,從機器學習流程的开始到結束都能保持數據的隱私。這在邊緣網絡中尤為重要,數據安全和隱私至關重要,並且與集中式數據中心相比,計算資源通常更有限。

利用全同態加密技術可以开發出既保護用戶隱私又能充分利用人工智能先進能力的系統。通過確保數據在存儲和處理過程中保持加密,全同態加密(FHE)提供了強大的密碼保證,防止未經授權的訪問和數據泄露。這在處理敏感信息的場景中尤為重要,例如醫療應用中的個人數據或機密的財務記錄。

全同態加密(FHE)將其實用性擴展到雲環境中大型語言模型的運行。通過使這些模型能夠處理加密數據,全同態加密(FHE)確保用戶隱私和敏感信息得到保護。隨着越來越多的人工智能應用在雲環境中部署,數據安全成為一個重要問題,這種能力變得越來越重要。在需要嚴格保密的領域,如法律、醫療和金融行業,能夠在加密數據上安全運行模型的能力增強了人工智能的適用性。

全同態加密(FHE)解決了保護敏感數據免受潛在信息泄露和未經授權訪問的關鍵需求。在那些數據隱私不僅僅是偏好而是法規要求的領域,全同態加密(FHE)提供了一種在不損害數據安全和合規標准的情況下利用人工智能的方法。

TEE

可信執行環境(TEEs)在訓練和執行人工智能推理方面具有顯著優勢,特別是在安全保證、隔離、數據隱私和保護方面。由於 TEE 作為安全的隔離環境,它們為數據和計算提供了強大的安全性和完整性。
第一個主要好處是提高了安全保障的保證。 TEEs 專門設計用於對抗具有廣泛可信計算基礎(TCBs)的系統中的漏洞,這些基礎包括操作系統內核、設備驅動程序和庫。由於其較大的攻擊面,這些組件更容易受到攻擊。通過提供安全的執行環境,TEE 可以保護關鍵應用程序,即使主機操作系統被入侵,也能保持隔離區內軟件的完整性和機密性。

另一個關鍵優勢是隔離。在隔離區內,代碼和數據被安全存儲,並且僅限於隔離區內的代碼才能訪問。這種設計防止了外部訪問,包括來自其他虛擬機或超級監視器的訪問,從而保護免受物理攻擊和來自其他虛擬機的威脅。

TEE(可信執行環境)有助於遠程驗證過程,以驗證軟件是否在真實的 TEE 內執行。這一功能對於確保在隔離區內運行的軟件的真實性和完整性至關重要。它使得遠程實體與可信執行環境之間建立了信任,確保軟件及其執行環境是安全的,並且沒有被篡改。

最後,TEE 在數據保護方面表現出色。TEE 的硬件實現的安全特性保護計算的機密性和完整性。這包括對代碼和數據(如密鑰)進行安全配送到隔離區內。TEE 還建立了可信通信通道,用於檢索計算結果和輸出,確保數據在隔離區內的整個生命周期中保持安全。這些特性使得 TEE 成為訓練人工智能和執行人工智能推理的理想環境,特別是在需要高水平安全和數據完整性的應用程序中。

Marlin Oyster

Marlin Oyster 是一個供开發人員部署自定義計算任務或服務於可信執行環境的开放平臺。類似於英特爾的 SGX 和 AWS 的 Nitro Enclaves。通過 Oyster,开發者可以在隔離環境中執行代碼,並確保主機或其中的任何其他應用程序都無法改變可信執行環境中的計算的完整性。除了可信執行環境(TEE)提供的計算完整性和機密性保證外,Oyster 平臺還提供額外的好處:

  1. 正常運行時間: Oyster 通過一種監控協議確保應用程序的可用性,對於停機時間進行懲罰,並將任務重新分配給正常運行的節點。這種機制確保了在 Oyster 上部署的开發人員為最終用戶提供持續的應用功能和活力。

  2. 無服務器: 類似於 AWS Lambda,Oyster 的無服務器框架允許开發人員在不專門租用特定節點的情況下部署應用程序。开發人員通過僅支付其應用程序的運行時間來節省成本並減少管理开銷。

  3. 網絡: Oyster 隔離區預先配備了網絡功能,促進了在隔離區內建立安全的 TLS 連接。這一功能使得能夠執行外部 API 查詢並操作具有暴露端點的服務,增強了應用程序與互聯網的集成。

  4. 中繼: Oyster 通過中繼合約支持將計算密集型任務轉移到鏈下環境進行處理。這些智能合約使得在 Oyster 上執行功能成為可能,確保可靠的結果和基於事件的響應,從而優化鏈上資源的使用。

基准

在 zkML 框架和 TEE ML(Oyster)之間的基准比較中,性能指標表明 Oyster 的效率更高。具體而言,Oyster 框架在所有測試的機器學習模型中展示出明顯更低的總計算時間。

對於 Iris 數據的普通最小二乘模型,zkML 框架(RisQ)需要超過 32 秒進行證明和驗證,而 Oyster 只需 0.047 秒完成任務。同樣,在相同數據集上,神經網絡使用 zkML(EZKL 框架)對於 500 個輸入的總時間超過了 212 秒,而 Oyster 只需要 0.045 秒。這個處理時間上的顯著差異表明 Oyster 在這些情況下效率更高。

在 MNIST 數據集上,LeNet 模型進一步加深了這一觀察。EZKL 的 zkML 框架需要 60 秒的驗證和證明時間,而 Oyster 僅需要 0.056 秒。即使 DDKang 的 zkML 框架表現比 EZKL 更好,總時間約為 3.33 秒,但仍然不及 Oyster 的 0.056 秒。

總體而言,數據顯示,與測試的 zkML 框架相比,Oyster 為機器學習任務提供了更高效的解決方案。它更快的計算時間表明,對於提供的基准測試,Oyster 可以在顯著較少的處理時間內處理相同的任務,從而在效率和速度方面更具優勢。

為了廣泛採用可驗證的、去中心化的人工智能,離鏈加密驗證系統必須超越執行簡單任務,如普通最小二乘計算。所需的關鍵進展是處理更復雜任務的能力,具體而言,是通過流行的 LLMs 高效地運行提示。這需要提高計算能力、算法效率和可擴展性,以處理現代 LLMs 的復雜和資源密集型需求,從而在分散的框架內實現更復雜和多樣化的人工智能應用。zkML 框架仍處於初級階段,目前階段它們處理這些提示的能力受到嚴重影響,因為生成 zk 證明是一項計算密集型任務。

盡管尚未展示 zkML 協議處理 LLMs 的提示,但可以合理地假設 Oyster 的可信 TEE 和這些 zkML 框架之間的處理時間差異至少與之前討論的示例一樣顯著。使用 Marlin 的 Oyster,可以建立各種 LLMs 的基准測試結果:

評估計數:響應中的標記數量; 評估持續時間:生成響應所花費的納秒時間

GPT2 -XL 在 Oyster 內部的基准測試結果:

隔離區配置: 12 CPU, 28 GB 內存( c6a . 4xlarge

提示語:以太坊是由社區運營的技術

結果:“以太坊是由社區運營的技術,使互聯網能夠正常運行。就像 Linux 對計算機的影響一樣,以太坊將賦予互聯網在未來的功能。”

生成輸出所花費的時間: 22.091819524765015

每秒標記數: 1.6295624703815754 秒

第二部分:結論

人工智能技術的發展和分發越來越被一小部分擁有先進硬件和復雜模型的大型企業所主導。這種集中程度引發了對審查制度、固有偏見以及驗證人工智能系統的完整性和公平性的擔憂。相比之下,加密貨幣的基本原則——即無需許可和抵制審查——為實現人工智能技術的民主化提供了一條途徑。

區塊鏈技術的去中心化和开源性使得去中心化人工智能能夠與中心化對手競爭。這是通過 DePINs、加密證明和使用公私鑰對等機制實現的,這些機制共同確保了人工智能的安全、透明和公平的發展和使用。為了實現去中心化人工智能的全部潛力,尤其是在區塊鏈生態系統中,需要一個強大的鏈下計算基礎設施。這對於高效、准確和可驗證地處理復雜的人工智能任務至關重要。

目前,可信執行環境(TEE)成為滿足這一要求的最可行解決方案。 TEE 為代碼提供了一個安全且隔離的執行空間,保護正在處理的數據的機密性和完整性。這使得它們成為區塊鏈上用於 AI 應用所需的鏈下計算的最佳選擇。隨着領域的發展,像 zkML、FHE 技術的進步以及可信執行環境(TEE)的增強對於去中心化人工智能生態系統克服當前的限制至關重要。這一進展將促進更加开放、可訪問和安全的人工智能領域,與加密社區的去中心化理念相一致。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

推薦文章

加密市場新引擎:揭祕AI Agent全景圖

AI Agent 正以前所未有的速度重塑加密市場格局。這種新一代智能助手已經超越了簡單的問答功能,...

星球日報
2 2小時前

加密AI的2025年十大預測:總市值達1500億美元,99%的AI Agent都會消亡

作者: Teng Yan , 研究員(專注於Crypto x AI ) 編譯:Felix, PAN...

2 2小時前

Gate.io推出GateLive Space,探索實時加密對話空間

作為集互動、學習、交易於一體的加密直播平臺,GateLive 已成為用戶了解市場的重要渠道。202...

星球日報
2 2小時前

Multicoin Capital續篇:加密世界永恆不變的敘事

本文來自 | Multicoin Capital 編譯|Odaily星球日報( @ Od a il...

星球日報
2 2小時前

1月20日臨近,給特朗普就職典禮“上貢”的加密公司有哪些?

來源:Decrypt 編譯:比推 BitpushNews 在重金參與 2024 年大選之後,美國加...

2 2小時前

OSL交易時刻:比特幣短期回調引發市場波動,長期增長預期仍存

1.市場觀察 關鍵詞:ETH、ETF、BTC 近期,受美元走強和美國國債收益率上升影響,比特幣從1...

2 2小時前