♦ 本篇文章轉載自 蓝橡树 。若有侵害著作權,請速告知,我們將盡速移除 ♦
2025/1/27
2024年末,一位年輕的科技創業者火了。
近日,中國科技行業因一位85後青年登上《新聞聯播》而徹底沸騰。
作為AI初創公司深度求索(DeepSeek)的創始人,他罕見現身某場國家級高規格座談會,並在現場發言。
發言照片隨即在各大社交平臺瘋轉。
所有人都在好奇:這位年輕人到底分享了哪些可能影響全球科技未來走向的深度見解?
他就是將開源模型做到全球第一、性價比力壓估值1570億美元的獨角獸OpenAI的“浙大天才”——梁文鋒。
他和DeepSeek曾在一夜之間引爆矽谷,震驚全球,而他們開發的大模型 “DeepSeek-V3” 也被海外稱作“來自東方的神秘力量”。
01
讓硅谷失色的中國團隊
2024年,斯坦福在大模型評測中納入DeepSeek-V3。其技術白皮書顯示: 綜合表現接近GPT-4,但成本僅為後者的1/20。(據SemiAnalysis推測GPT-4成本約1.1億美元)
“這也太不科學了!”評論區裡某矽谷工程師的驚歎瞬間炸開。
更不可思議的是, DeepSeek只用了2048張H100的GPU集群(同行平均約需要1.6萬張),用時也僅花了53天!
外媒評價道:“DeepSeek-V3的性價比優勢,標誌著中國AI公司首次在基礎層創新上威脅矽谷主導地位。”
而看到DeepSeek背後的團隊,矽谷更是站不穩了——
事實上,網上關於創始人梁文峰的報導非常有限,他17歲考上浙大之前的經歷,就像一片空白,查不到公開資料。
根據《人物》雜誌報導,梁文峰2002年考入浙大電子資訊工程專業,常常泡在實驗室研究機器視覺,甚至自費購買零件組裝設備。
他的一位校友回憶:“當時AI在國內還是冷門領域,他卻堅信這是未來,連畢業論文都聚焦於低成本攝像機的演算法優化。”在大模型聞所未聞的時代,他就已經自學成才,成為一位“建模達人”了。
據披露,這支讓矽谷色變的核心團隊,主要是由兩類人組成:
一類是頂尖高校的“學術深耕者”:多位核心成員來自浙大、中科大等國內高校的AI實驗室,他們在自然語言處理、強化學習等領域的論文被ICML、NeurIPS等頂會收錄;
另一類是產業界的“技術實用派”:包括從華為、阿裡轉型而來的工程師,擅長將學術成果轉化為工業級應用。
此前因為雷軍「天價招人」而大火的95後AI天才少女羅福莉,她被挖出曾經是DeepSeek的成員,參與研發了達模型DeepSeek V2。
任憑梁文鋒再低調,他的鋒芒再也藏不住了。
02
"不敢"的基因,從商業到教育
梁文峰在2024年DeepSeek的開發者大會上說:“我的父親是一名小鎮數學老師,他從不問我考試排名,只問‘今天解決了什麼問題’——這種對解題本能的呵護,是我後來敢於挑戰技術無人區的底氣。”
在DeepSeek杭州總部的展示廳裡,陳列著一台90年代的“飛躍牌”收音機——那是梁文峰初中時拆裝過37次的實驗品。邊上的標籤寫著:
所有偉大的創新,都始於對現狀的“不合理”拆解。
在接受自媒體《暗湧》的記者採訪時,梁文峰說:“過去三十多年IT浪潮裡,我們基本沒有參與到真正的技術創新裡。我們已經習慣摩爾定律從天而降,躺在家裡18個月就會出來更好的硬體和軟體。
但其實,這是西方主導的技術社區一代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽視了它的存在。
“創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢。”
Chatgpt出來時,整個國內對做前沿創新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應用吧。
這種“不敢”的基因,正在從商業領域滲透到教育。
記得去年我在上海某學校旁聽“AI創新課”,看到觸目驚心的一幕:當學生試圖修改代碼,老師立刻制止:“你們會搞壞系統!照著教材調用API就行。”
同一時間,在美國MIT媒體實驗室裡,學生被鼓勵拆解GPT-4代碼,2024年有17%的AI頂會論文,源於此類“破壞性試驗”。
梁文峰在2023年世界人工智慧大會上演講直指痛點:“過去我們總說中國AI落後美國1-2年,但真正的差距是原創與模仿的差距。”
當我們還在教孩子調用API時,矽谷的中學生已在用PyTorch重構transformer。
這種反差讓我想起兩個中美家庭,一個普通的夜晚:
在矽谷Palo Alto,15歲的華裔男孩在車庫苦苦鑽研大模型,父親雖看不懂代碼,卻默默升級了網路頻寬。並在深夜端來一碗雲吞面:“你爺爺說廣東人最敢闖,別輸給老家人啊。”
而在北京海澱,某重點中學學生用大模型幫視障同學開發導航工具,卻被母親嗤之以鼻:“競賽拿獎才是正經事!做這些事情能申藤校嗎?”
“我們這一代人的思維包袱確實太重了。”一位曾反對兒子參加機器人社團的父親懺悔說,他的孩子後來考上加州理工,卻在入學三個月後抑鬱休學:“他說感覺自己像台被預設好路徑的掃地機器人,永遠在別人畫的框裡打轉。”
或許這就是教育的悖論:當我們拼命給孩子安裝“成功模組”時,真正的創新者卻在笨拙地拆解自己。
作為家長,我們不需要懂transformer架構或Scaling Law,但至少要守護好孩子眼中那簇“敢”的火光。
當他說要造會飛的汽車,別急著計算藤校錄取率,先問:“需要爸爸幫你找鈦合金材料嗎?”
當她在作業本上畫滿外星代碼,別怒吼“好好寫作業”,不如說:“媽媽看不懂,但覺得特別酷。”
03
給錯誤留一扇門
在深夜的DeepSeek杭州總部,一群工程師正在複盤一場“代價60萬美元的事故”:12張H100因非常規參數設置超載損壞,但他們的討論焦點卻是GitHub頁面:
“這是我們第47篇開源技術避坑指南,下載量3287次,19個國家開發者提交了改進建議。”
在DeepSeek的文化手冊裡,寫著一條反常識規則:“所有失敗實驗必須產生兩份資產——一份內部技術報告,一份全球開發者可複用的開源指南。”
後來,2023年的資料清洗事故催生了《多語言語料預處理標準》,被團隊稱為“錯誤副產品”。
該標準被LlamaIndex、Hugging Face等12個社區引用,並列入斯坦福CS324課程“資料處理”案例庫。
“我們不是在為錯誤買單,而是在投資認知基礎設施。”
創始人梁文鋒在2024中國人工智慧大會上,指著一塊燒毀的GPU晶片說:“就像這片矽晶體,它的物理壽命結束了,但催生的安全協議正在保護多個研究機構的訓練集群。”
但我們的教育,通常只會歌頌成功,逃避失敗。
曾有位矽谷華裔母親,為讓女兒進入天才班投入巨大財力,卻因孩子偷偷參加一場幾乎沒有勝算的辯論大賽,勃然大怒:“你知道斯坦福錄取率只有4%嗎?有時間不如多刷幾套題!”
事實證明,很多看似錯誤的嘗試,恰恰是創新的溫床。或許,我們應該允許孩子“多犯一些錯誤”,給錯誤更大的寬容。
其實,學習中最寶貴的不是正確答案,而是讓每個錯誤找到其歷史座標。
04
重新定義優秀:在廢墟上點燃野火
公開報導顯示,DeepSeek的招聘原則和梁文峰的創業理念高度一致。
- 首先,拒絕“唯學歷論”,據不完全統計,2023年錄取的工程師中,有11%來自非985/211院校;
- 其次,強調“動手能力”,網傳面試時會要求候選人現場優化一段開原始程式碼;
- 同時,獨特的“算力自由”政策:網傳成員無需審批即可調用千卡級GPU集群,這一機制曾幫助團隊在3天內完成關鍵模型的壓力測試。
他招募的工程師可能沒有光鮮的履歷,但有人會為優化一個演算法連續鏖戰三年,也有人把調試模型當作解謎遊戲。
重新審視一下我們傳統教育中的評價體系:當孩子癡迷于“非主流”領域時,我們是否有勇氣像梁文鋒一樣,讓他們“隨意調用GPU集群”般地盡情探索?
頂尖人才從來不是被篩選出來的,而是被“允許瘋狂”的環境滋養出來的。
這讓我想起在某個精英家長聚會上,聽到的一個似乎很像段子,但卻真正發生過的一段對話——
李太太率先說:“我兒子在約翰霍普金斯修雙學位,教授說他是十年一遇的天才!”
張總不甘示弱:“我女兒16歲發了SCI,學校還要給她立雕像呢!”
只有角落裡的陳先生輕輕說:“我女兒用了三年時間,在非洲村莊搭了12座太陽能AI農場。雖然沒什麼獎項,但上個月她收到了 Google的實習邀請……”
父母的托舉,希望培養出怎樣的孩子?我相信大家應該有自己的判斷了吧。
結語
作為父母和教育者,我們或許無法預知孩子將來能有多大的成就。但至少可以做到:
當孩子說“我想用AI改變世界”時,不要再回答“先考上清華再說”。真正的教育,從相信每一個“不可思議”開始。
真正的教育者,不需要給出所有答案,只要在孩子說“我想改變世界”時,能輕聲回應——
“去吧,記得回家吃飯。”
※本文部分內容由Deep Seek生成※
♦ 專文屬作者個人意見,文責歸屬作者,本報提供意見交流平台,不代