起底 DeepSeek,為什么 DeepSeek 偏愛沒有工作履歷的年輕人?

2025-01-29 00:01:14

最近一段時間,接連出現的DeepSeek V3,R1讓美國的AI研究員,創業者和投資人們开始Fomo。這一場盛宴,甚至可以和ChatGPT在2022年年底問世一樣讓人驚訝。

憑借DeepSeek R1的徹底开源(HuggingFace可免費下載模型進行本地推理)和極低的價格(是OpenAI o1的1/100的價格),DeepSeek在短短5天時間內,登上了美區Apple AppStore的冠軍。

那么,這家神祕的,由一家中國量化公司所孵化出來的AI新勢力,究竟源自何方?

我第一次聽說DeepSeek,還是在2021年,當時,在達摩院工作時,隔壁組的天才少女,一年發表8篇ACL(自然語言處理頂會)的北大碩士羅福莉,離職加入了幻方量化(High-Flyer Quant)。當時大家都非常好奇,非常掙錢的量化公司,為何要招募AI領域的人才: 難道幻方也需要發paper么?

當時,據我所知,幻方招募的AI研究員大多是各自為战,找一些前沿的方向進行探索,其中最核心的方向當屬大模型(LLM)以及文生圖模型(當時的OpenAI Dall-e)相關。

時間轉眼來到了2022年底,幻方逐漸开始吸納越來越多的頂級AI人才(大部分是清華北大的在校生)。在ChatGPT的刺激下,讓在AI領域積累多年的幻方CEO梁文鋒下定決心要進軍通用人工智能領域了: “我們建了一個新公司,從語言大模型开始,後邊也會有視覺等。”

是的,這個公司就是DeepSeek,在2023年初,以智譜,月之暗面,百川智能等為代表的六小龍公司逐步走勢舞臺中央,在熱鬧繁華的中關村和五道口中間,DeepSeek的存在感很大程度上被這些熱錢擊中的公司奪走了"注意力"(Attention)。

因此,在2023年,作為一個純研究機構,沒有明星創始人的DeepSeek(如李开復的零一萬物,楊植麟的月之暗面,王小川的百川智能等)很難獨立從市場上融資。因此,幻方決定剝離DeepSeek,並全資資助DeepSeek的开發。在2023年這個烈火烹油的時代,沒有風險投資公司愿意為DeepSeek提供資金,一是DeepSeek裏面大多是剛畢業的PHD們,沒有非常有知名度的頂級研究員坐鎮,二是因為資本退出遙遙無期。

在充滿噪音和浮躁的環境下,DeepSeek开始書寫其在AI探索上的一個個故事:

我很早期的時候認識一些DeepSeek的研究員,主要是研究AIGC方向的,如2024年11月發布的Janus的作者以及DreamCraft3D的作者,其中還有一位幫助我優化過最新的論文 @xingchaoliu。

根據我的發現,我認識的研究員們大多是非常年輕,基本都是在讀博士生或者畢業3年以內的。

其中,這些人大都是在北京地區讀研究生或者博士的學生,在學術方面有着極強的造詣: 多為發表了3-5篇頂會論文的研究員。

我問過DeepSeek的朋友,為什么梁文峯只招募年輕人?

他們給我轉了幻方CEO梁文峯的話,其原話如下:

DeepSeek團隊的神祕面紗讓人們好奇:它的祕密武器是什么?外媒說, 這一祕密武器是“年輕天才”,他們足以與財力雄厚的美國巨頭展开競爭。

在AI行業,聘請經驗豐富的老將是常態,許多中國本土的AI初創公司更傾向於招聘資深研究人員或擁有海外博士學位的人才。 然而,DeepSeek卻反其道而行,偏愛沒有工作履歷的年輕人。

一名曾與DeepSeek合作的獵頭透露,DeepSeek不招資深技術人員,“工作經驗在3-5年已經是最多的了,工作超8年的基本就pass了。”梁文鋒在2023年5月接受36氪採訪時也表示,DeepSeek的大多數开發人員要么是應屆畢業生,要么是剛开始從事人工智能職業的人。他強調: “我們的核心技術崗位大多由應屆畢業生或具有一兩年工作經驗的人擔任。”

沒有工作履歷,DeepSeek是如何選人的? 答案是,看潛力。

梁文鋒曾說, 做一件長期的事,經驗其實沒那么重要,相比之下基礎能力、創造性和熱愛等更重要。 他認為,或許目前世界排名前50的頂尖AI人才還不在中國, “但我們能自己打造這樣的人。”

這個战略讓我想起了OpenAI的早期策略,OpenAI在2015年底成立的時候,Sam Altman的核心思路就是找年輕有野心的研究員,因此,除了總裁Greg Brockman和首席科學家Ilya Sutskever以外,剩下四個核心創始技術團隊成員(Andrew Karpathy,Durk Kingma,John Schulman,Wojciech Zaremba)都是應屆的博士畢業生,分別畢業於斯坦福大學,荷蘭阿姆斯特丹大學,加州伯克利分校以及紐約大學。

從左到右: Ilya Sutskever(前首席科學家),Greg Brockman(前總裁),Andrej Karpathy(前技術負責人),Durk Kingma(前研究員),John Schulman(前強化學習團隊負責人)以及Wojciech Zaremba(現任技術負責人)

這種"幼狼战略",已經讓OpenAI嘗到了甜頭,孵化出了如GPT之父Alec Radford(相當於民辦三本畢業),文生圖模型DALL-E之父Aditya Ramesh(NYU本科生),以及GPT-4o的多模態負責人,三屆奧賽金牌得主Prafulla Dhariwal等。讓成立初期,拯救世界計劃並不明確的OpenAI,在年輕人的橫衝直撞中,生生的撞开了一條生路,將OpenAI從DeepMind身邊的無名小卒,成長為巨擘。

梁文峯正是看到了Sam Altman這個成功的战略,才堅定的選擇了這條路,不過,不同於OpenAI等待了7年時間才見到了ChatGPT。梁文峯的投入,用了2年多就見到了成效,可謂是中國速度。

在DeepSeek R1的文章中,其各項指標驚人的優異。但也引發了大家的懷疑: 有兩個疑點,

由於算力的限制和MoE的復雜性,這讓只用500萬美元就一次成功的DeepSeek R1看着有些可疑,但是,無論你對R1的態度是頂禮膜拜其“低成本奇跡”,還是質疑其“華而不實”,都無法忽視其功能性創新的炫目。

BitMEX聯合創始人 Arthur Hayes 發文表示: DeepSeek崛起是否會導致全球投資者質疑美國超卓主義?美國的資產價值是否被嚴重高估?

斯坦福大學教授吳恩達在今年的達沃斯論壇公开表示: "我對 DeepSeek 的進展印象深刻。我認為他們能夠以非常經濟的方式訓練模型。他們最新發布的推理模型,非常出色……‘加油’!"

A16z的創始人, Marc Andreessen 表示,"Deepseek R1 是我見過的最令人驚嘆、最令人印象深刻的突破之一——而且作為开源,它是給世界的一份深刻的禮物。"

2023年站在舞臺角落的DeepSeek,終於在2025年,農歷春節前,站上了世界AI之巔.

作為Argo的技術开發者和AIGC研究者,我將Argo裏面的重要功能進行了DeepSeek化: 作為一個工作流(workflow)系統,粗糙的原始工作流生成工作,Argo是用DeepSeek R1進行的。此外,Argo將LLM內置為標准的DeepSeek R1,並選擇拋棄閉源昂貴的OpenAI模型,原因是Workflow系統通常包含大量的Token消耗和上下文信息(平均>=10k token),這就導致了如果使用高價的OpenAI或Claude 3.5,Workflow的執行成本非常昂貴,在web3用戶沒有得到真正的價值捕獲之前,這種提前透支的花銷,是一種對產品的傷害。

隨着DeepSeek越來越好,Argo會和DeepSeek為代表的中國力量進行更密切的合作: 包括不限於Text2Image/Video接口的中國化,LLM的中國化。

在合作方面,Argo將會在未來邀請DeepSeek的研究員分享技術成果,並為頂級AI研究員提供grants,為web3投資人和用戶了解AI進展,提供助力。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

評論

推薦文章

對沖基金巨頭Elliott警告:川普吹大加密泡沫!崩盤無法避免「恐引爆災難」

自 川普去年 11 月勝選以來,加密貨幣市值大幅上漲,原因是他承諾將讓美國成為「全球比特幣超級大國...

James
3 2小時前

Plume Network整合Fireblocks打通機構級DeFi與RWA收益通道

專為區塊鏈數字資產運營提供企業級解決方案的 Fireblocks 平臺與 Plume Networ...

星球日報
3 2小時前

山寨幣投資指南:從“礦難廢墟”到“黃金礦脈”

2018年深冬,我在青海戈壁灘考察某光伏電站。零下20度的寒風裏,總工程師指着成片停擺的光伏板說:...

3 2小時前

現實世界資產 (RWA) 代幣化機制的技術解析

代幣化的現實世界資產(RWAs)是記錄在區塊鏈上的數字代幣,代表對實體或無形資產的所有權或法律權利...

星球日報
3 2小時前

馬斯克效應:Musk It 是否會成為下一個爆發的 MEME 幣?

阿聯酋迪拜,2025 年 1 月 31 日,Chainwire 根據《財富》雜志近期的一篇文章,...

3 2小時前

對衝基金巨頭 Elliott:白宮正在吹大加密泡沫,或造成嚴重破壞

作者:比推BitpushNews Mary Liu 知名對衝基金 Elliott 警告稱,美國白宮...

3 2小時前