騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

2023-03-15 15:03:00

OpenAI 的 AIGC（Generative AI）的火爆讓更多的加密行業用戶接觸到這項技術。隨着用戶越來越熟悉它，他們能夠認識到它的潛力。AIGC 降低了創意表達的門檻，使普通人能夠通過制作符合專業標准的作品來展示他們的想象力和創造力。

我們的基礎模型擁有超過 4000 億個參數，允許用戶生成範圍廣泛的內容，或訓練他們自己的模型以涵蓋任何主題或風格。

2023年开始，AIGC开啓了人機共生時代。AIGC 不僅變得更快、更便宜，而且由於其更快、更廣泛的學習，在某些情況下甚至比手動創建的更好。每一個需要原創創意的行業，從社交媒體到遊戲，廣告到行業咨詢，編碼到建築和平面設計，產品設計到法律文件，市場營銷到銷售，都將被重塑，一些重復性的工作可能會被生成式AI完全取代. 隨着人機共生繼續滲透到許多行業，它們將在人與機器之間緊密的創造力迭代循環中蓬勃發展，在廣泛的市場中解鎖更好、更快和更便宜的創造。人機共生的愿景是輔助決策、數據分析、體力勞動等任務，將人類解放出來，專注於需要人類創造力和判斷力的更高層次的任務和活動。生成式人工智能將使創造和決策的邊際成本降至零，產生巨大的勞動生產率和經濟價值——以及相應的市場價值。

AIGC是一種利用人工智能生成內容的技術。2015年成為行業轉折點，在此之前AIGC主要是生成文本和語音。此後，AIGC不斷拓展，涵蓋了文字、語音、圖像、視頻、3D等新領域，在創意、行為、表現、理解、個性化等方面具有巨大優勢。最早的 AIGC 模型是生成對抗網絡（GAN）。

GAN的基本原理其實很簡單。這裏我以生成圖片為例進行說明。假設我們有兩個網絡，G（生成器）和 D（鑑別器）。顧名思義，G 是一個生成圖像的網絡。它接收隨機噪聲 z 並通過該噪聲生成圖像，表示為 G(z)。D 是一個判別網絡，用於確定圖像是否“真實”。它的輸入參數是x，表示一幅圖像，輸出D(x)表示x是真實圖像的概率。如果為1，表示100%是真實圖像，如果輸出為0，表示不可能是真實圖像。在訓練過程中，生成器網絡 G 的目標是生成盡可能真實的圖像以欺騙鑑別器網絡 D。另一方面，D 的目標是將 G 生成的圖像與真實圖像區分开來。這樣，G和D就形成了一個動態的“博弈過程”。這場比賽的結果如何？在理想狀態下，G 能夠生成足夠“具有欺騙性”的圖像 G(z)。對於D，很難判斷G生成的圖像是否真實，所以D(G(z)) = 0.5。至此，我們的目標就達到了：我們得到了一個可以用來生成圖像的生成模型G。

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

GAN 和傳統的自然語言理解模型的缺點是它們在結構化創造力和聯想方面的能力有限，這導致它們缺乏令人印象深刻的應用。

在2020年，OPENAI开發了跨模態預訓練深度學習模型GPT（Generative Pre-Training Transformer）及其變體CLIP（Contrastive Language-Image Pre-Training）並开源。CLIP 模型能夠通過首先收集 40 億個未處理的圖像+文本對的數據集和預訓練來完成任務，從而將文本與圖像相關聯。它使用對比學習目標進行訓練：分別對圖像和文本（其中文本是一個完整的句子）進行編碼，然後計算它們之間的余弦相似度，然後對圖像的每一行或文本的每一列進行分類，找到匹配的正例例子。每張圖片有 32,768 個文本候選，是 SimCLR 的兩倍，反例數量的增加也是性能不錯的原因之一。預測也很簡單：找一個圖像分類數據集，將標籤轉換為自然語言，比如“dog”可以轉換為“a photo of a dog”。然後使用預訓練的編碼器對標籤和圖像進行編碼，然後計算相似度。

整個過程可以概括為：輸入一張圖片，預測數據集中 32768 個隨機抽取的文本片段中的哪一個與數據匹配。由於文本描述不是特定類別，零樣本學習可以用於各種圖像分類任務。零樣本學習是一種遷移學習，例如，對斑馬的描述可能是“馬輪廓+虎皮毛+熊貓黑白”以生成新類別。一個典型的監督分類器可以正確分類馬、老虎和熊貓的圖像，但是如果它遇到一張它以前沒有學過的斑馬照片，它就無法分類。然而，由於斑馬與已經分類的圖像有共性，可以推斷它屬於這個新類別。

所以想法是設置更細粒度的類別作為屬性，以便在測試集和訓練集之間建立聯系。例如，將馬的特徵向量轉換為語義空間，其中每個維度代表一個類別的描述，比如[有尾巴1，馬的輪廓1，有條紋0，黑白0]，熊貓將是 [有尾巴 0，馬的輪廓 0，有條紋 1，黑色和白色 1]。這樣，通過為斑馬定義一個向量並比較輸入圖像的向量與斑馬向量之間的相似度，我們可以確定輸入圖像是否為斑馬。

因此，CLIP模型有兩個優點：

一方面，它同時進行自然語言理解和計算機視覺分析，實現圖文匹配。

另一方面，為了有足夠的標記良好的“文本圖像”用於訓練，CLIP模型廣泛使用來自互聯網的圖片，這些圖片通常具有各種文本描述，成為CLIP的天然訓練樣本。據統計，CLIP模型已經從互聯網上收集了超過40億條“文本-圖像”訓練數據，使CLIP能夠進行圖像和文本匹配，並作為各種自然語言處理和計算機視覺應用的基礎，例如 AIGC 系統，它允許用戶輸入文本並生成圖像或視頻。

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

由於GPT和CLIP的开源，Denoising Diffusion模型迅速成熟並得到實施。真正讓文字生成圖像的AIGC，隨着Dalle-2、Midjourney、Stable Diffusion等應用的推出，在2022年下半年為大衆所熟知。

擴散模型的思想來自非平衡熱力學。具有定義的擴散步驟（當前狀態僅取決於先前狀態）的馬爾可夫鏈被真實數據中的隨機噪聲緩慢擾動（正向過程），然後學習反向擴散過程（逆向過程）以構造從噪聲中提取所需的數據樣本。

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

正向過程是一個連續注入噪聲的過程，隨着時間的推移，加入的噪聲不斷增加。根據馬爾可夫定理，噪聲注入後的當前時刻與前一時刻的相關性也與要加入的噪聲有關（是前一時刻的影響更大還是加入的噪聲影響更大）。隨着前向過程在時間上向前推進，噪聲或隨機事件的影響可能會變得更加顯着，因為开始時一點點噪聲都有影響，後面需要加入越來越多的噪聲。

逆過程從一個隨機噪聲开始，逐漸恢復出沒有噪聲的原始圖像——去噪和實時數據生成。這裏，我們需要知道整個數據集，所以我們需要學習一個神經網絡模型（目前主流的是U-net+attention結構）來逼近這些條件概率，運行反向擴散過程。

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

未來

毫無疑問，未來是光明的

我們看到了AIGC充滿活力的應用，也知道了方向。當你看到機器產生復雜的功能代碼或優秀的圖像時，你不得不承認，人機共生的時代終於到來了，機器在我們的工作和創作中起着基礎性的輔助作用。

或許在不久的將來，我們就能寫出心中想象的神話世界；打印出我們能想到的任何東西；在影院觀看我們自己制作的電影；讓全世界的玩家都沉浸在我們制作的電子遊戲中，獲得良好的遊戲體驗。在短短的幾年時間裏，AIGC 從一個小型的开源架構迅速訓練到一個擁有數千億參數的大型模型。如果我們繼續以這種發展速度發展，並遵循大型模型的摩爾定律，這些未來主義場景可能會變得觸手可及。

領投機構

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

創始團隊

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

JP.crypto

Web3前沿動態社區，專注於項目投研與價值投資。加入我們獲取更多項目信息。

推特：https://twitter.com/Crytpojp_JP

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

評論

馬斯克再度出手時隔三年重現激光眼造型

狗狗幣價格展望：10億美元資金湧入後的DOGE能否觸及10美元大關？

全新區塊鏈項目ATM2.0版成功發布創新機制引領幣圈新風尚

BNB Chain 的 meme Summer$FOUR傳承 CZ “4” 文化

幣安發錢了 BNB HODLer 空投首發「Banana Gun」幣價飆升創新高

下周能破新高？

DeFi之光

騰訊領投的 AIGC 是什么 前有chatGPT 巨頭聞風而來

評論

馬斯克再度出手 時隔三年重現激光眼造型

狗狗幣價格展望：10億美元資金湧入後的DOGE能否觸及10美元大關？

全新區塊鏈項目ATM2.0版成功發布 創新機制引領幣圈新風尚

BNB Chain 的 meme Summer$FOUR傳承 CZ “4” 文化

幣安發錢了 BNB HODLer 空投首發「Banana Gun」 幣價飆升創新高

下周能破新高？

DeFi之光

騰訊領投的 AIGC 是什么前有chatGPT 巨頭聞風而來

馬斯克再度出手時隔三年重現激光眼造型

全新區塊鏈項目ATM2.0版成功發布創新機制引領幣圈新風尚

幣安發錢了 BNB HODLer 空投首發「Banana Gun」幣價飆升創新高