中國AI模型為什麼能追平，以及憑什麼可能超越

发布于： 2026-04-19

這份中美AI競爭最權威報告，並沒說出全部真相
心智觀察所

前幾天，史丹佛大學人本人工智慧研究院（HAI）發布的《2026年AI指數年度報告》，是目前全球最具系統性和數據密度的AI領域綜合評估文獻之一。這份長達數百頁的年度報告，涵蓋了從研發管線、技術性能到經濟影響、公共政策的全景圖譜，其數據來源橫跨Epoch AI、OpenAlex、GitHub、Hugging Face、Cloudscene等多個獨立數據庫，分析框架嚴謹、引用鏈條完整，在學術圈和政策圈的影響力毋庸置疑。

然而，正因其權威性，對它的批判性閱讀才更為重要。

報告在中美AI競爭這一核心議題上提出了一個標誌性判斷—— “中美AI模型性能差距已實質性閉合”（The US-China AI model performance gap has effectively closed，如下圖）。簡單說，就是差距已經可以忽略了。

這個結論本身並無問題，甚至可以說是對當下事實的準確描述。但問題在於，報告圍繞這一結論所構建的論證結構，存在若干邏輯上的不周延之處；而更關鍵的是，這份報告受限於其方法論框架和數據覆蓋範圍，對“中國AI模型為什麼能追平，以及憑什麼可能超越”這個問題，留下了大量未被講透的空間。

先看報告的核心論點。報告以LMArena的Elo評分體係作為中美模型表現比較的主要標尺。數據顯示，2025年2月，DeepSeek-R1以1400分一度逼平美國頂尖模型o1的1405分，差距僅0.4%；截至2026年3月，Anthropic的Claude Opus 4.6以1503分領先中國最佳模型Dola-Anthropic的Claude Opus 4.6以1503分領先中國最佳模型Dola-Seed-2.0 Preview 12.7%，的差距。報告據此得出「差距閉合」的判斷，邏輯上是站得住腳的。但這裡存在著一個方法論層面的深層問題：Arena排行榜本身的可靠性正在被質疑。

報告本身也引用了Singh等人2025年的研究，指出Arena的排名可能部分反映的是對平臺本身的適應性優化，而非模型的通用能力。如果評價標尺本身可能存在系統性偏差，那麼基於該標尺得出的「差距閉合」結論，其置信度就需要打一個折扣——但報告在表述上並未對此做出充分的限定。更深層的問題在於，Arena的Elo評分本質上測量的是「使用者偏好」而非「客觀能力」。

使用者在盲測中選擇偏好的輸出，這種評估方式自然偏向流暢性、風格化和指令遵從度，而非推理深度、專業準確度或長鏈任務完成率。中國模型在這些軟性維度上的進步是真實的，但如果我們關注的是AI在科學發現、工程實踐和複雜決策中的實際效用，Arena並不是最合適的衡量工具。

報告在專業領域基準測試如SWE-bench、FrontierMath、CorpFin等上的數據呈現，主要以模型名稱排列而非按國別分組，這使得讀者難以直觀地判斷中美模型在這些更硬核的評估維度上的相對位置。這不是一個疏忽，而是一種分析框架上的選擇，但這種選擇客觀上遮蔽了中國模型在多個專業領域已經進入第一梯隊。

還有一個容易被忽略的邏輯問題存在於報告對「透明度」的論述中。報告在第一章一再強調，美國前沿實驗室如OpenAI、Anthropic、Google正變得越來越不透明——訓練程式碼、參數量、資料集規模、訓練時長等關鍵資訊不再公開揭露。

報告將此視為阻礙外部研究者復現和審計的障礙，這一判斷完全正確。但報告沒有追問的是：這種不透明對中美比較本身又意味著什麼？當美國模型的訓練計算量只能透過間接方法估算，而中國模型如DeepSeek-V3反而公開了詳細的訓練資訊時，報告圖表中「美國模型訓練計算量遠高於中國」的視覺印象，實際上可能部分來自估算方法對不透明模型的高估。

報告在腳註中提到Epoch AI對訓練計算量的估算方法包括“基於硬體規格推算”和“基於基準性能反推”，這些間接方法對於未披露資訊的模型存在較大的不確定性區間。但在正文的圖表呈現中，美國模型和中國模型的數據點被放在同一坐標系中，未做任何不確定性標註，給讀者造成了一種精確對比的錯覺。

接下來看報告在研發管線分析中的邏輯鏈條。

第一章詳細追蹤了「顯著AI模型」的國別分佈，2025年美國發表50個、中國發表30個。這個數據來自Epoch AI的人工遴選資料庫，篩選標準包括「前沿性突破」、「歷史意義」、或「高引用率」等。報告也承認這並非所有AI模型的普查，而是一種基於專家判斷的策展。問題在於，Epoch AI作為一個主要由西方學術圈運作的資料庫，其對「顯著性」的判斷標準是否對中國模型存在系統性的低估？

中國的AI模式生態如魔搭社群、百度飛槳等活躍於國內平台，而非Hugging Face或GitHub的項目，這些模式在Epoch AI的篩選網路中天然處於低可見度的位置。報告在開源軟體部分也坦承，中國開發者大量使用Gitee和GitCode等國內平台，而這些平台的數據並未被納入分析——報告甚至在腳註中明確標註了這一點。這意味著，「美國50個vs中國30個」這一看似清晰的數量對比，實際上可能建立在不對稱的數據收集基礎之上。報告的誠實之處在於它沒有掩飾這一局限，但其不足之處在於它沒有對這一局限的潛在影響做出定量或定性的修正。

在算力和基礎設施維度上，報告提供了一個極具衝擊力的數據點：美國擁有5427個數據中心，是排名第二的德國（529個）的十倍以上，中國僅449個。但報告自己也提醒，資料中心的數量並不等於計算容量或使用率。

事實上，中國的資料中心建設採用了與美國截然不同的集約化模式——更少但更大、更集中、更以AI訓練優化的超大規模設施。騰訊、阿里巴巴、位元組跳動的智算中心單體算力密度，在全球範圍內處於領先水準。將「資料中心數量」作為AI基礎設施實力的代理指標，其實質是用美國的基礎設施範式去度量中國的基礎設施投入，這在方法論上是有偏差的。

報告在論述中國AI發展時，也遺漏了幾個關鍵的結構性優勢。第一是效率路徑的典範意義。 DeepSeek-V3的訓練碳排放量僅597噸二氧化碳當量，而同期美國模型Grok 4高達72816噸，兩者相差超過120倍。報告將此數據呈現在環境影響章節中，但並未與中美競爭敘事打通。

事實上，DeepSeek-R1引入的GRPO訓練方法，透過對比一組生成輸出而非依賴獨立評審模型來訓練推理能力，所代表的不僅僅是一種技術創新，而是一種資源約束驅動的效率範式。在晶片禁令的壓力下，中國模型被迫走向用更少資源做更多事的路徑，而這種路徑一旦走通，其可擴展性反而可能超過美國式的暴力堆算力模式。報告承認DeepSeek-R1的發布引發了美國科技股超過一兆美元的市值波動，但對這種效率優勢的長期戰略意義缺乏深入分析。

在應用落地的速度和規模方面，報告提到中國Apollo Go在2025年完成了1100萬次完全無人駕駛出行，同比增長175%，而美國Waymo的周出行量約45萬次。簡單換算，Apollo Go的年化行程量是Waymo的約四到五倍。但報告將此數據點放在了自動駕駛技術進展的敘述中，而非中美競爭分析的框架內。類似的遺漏也出現在工業機器人安裝量（報告在摘要中提到中國領先但未在前兩章展開）、AI在製造業和供應鏈中的滲透率等維度上。

中美AI模型的碳排放

中國AI的比較優勢，很大程度上不在於「模型能力的峰值」而在於「從模型到產品到大規模部署」的全鏈條速度，而這恰恰是當前報告的分析框架——以基準測試和論文計量為核心——難以捕捉的。

有關開源生態的策略縱深，報告記錄了一個值得深思的數據趨勢：在Hugging Face的模型下載份額中，美國開發者的佔比從2020年的超過70%下降到2025年的不足25%，而中國開發者和「無國別標註」用戶的份額持續上升。阿里巴巴的Qwen系列、DeepSeek系列、智譜的GLM系列，在全球開源社群的影響力已經與Meta的Llama形成了正面競爭。

報告在組織維度的數據中顯示，2025年阿里巴巴發布了11個顯著模型，僅次於OpenAI的19個和Google的12個，超過了Anthropic和Meta。但報告並未將此趨勢放進中美競爭的分析框架中討論其戰略含義：中國企業正通過開源模型在全球範圍內建立開發者生態和技術標準影響力，“模型數量”和“基準評分”之外的一種全新競爭維度正在形成。這種透過開源輸出技術影響力的路徑，與中國在5G標準制定中的經驗一脈相承，但報告對此完全沒有觸及。

除此之外，報告詳細記錄了一個引人注目的趨勢：流入美國的AI研究人員自2017年以來下降了89%，僅過去一年就下降了80%。但報告在人才部分的資料來源Zeki並不涵蓋中國，這意味著我們看到了美國人才吸引力的衰退，卻無法看到中國人才池的擴張。中國每年培養的STEM博士數量已超過美國，且中國在全球高被引AI論文Top 100中的份額從2021年的33篇增長到2024年的41篇，首次逼近美國的46篇。清華大學在Epoch AI的累積顯著模型榜中與史丹佛並列第一（各26個）。

如果把這些散落在報告各處的數據點串聯起來，呈現的圖景遠比「差距閉合」更具衝擊力，它指向的是一種可能的「交叉」（crossover），而非僅僅是「追平」。

報告在投資數據上的處理方式也有不小的問題。報告指出2025年美國AI私人投資達2,859億美元，是中國124億美元的23倍以上。但報告自己也在註腳中承認，僅看私人投資「可能低估了中國的AI總支出，因為中國有政府引導基金」。這種將核心修正條件放在腳註中的處理方式，在學術寫作中並不罕見，但對於一份面向政策制定者和媒體的報告而言，其效果是使正文中「23倍差距」的數字獲得了遠大於其實際資訊量的傳播力。

中國政府透過國家大基金、地方政府AI產業基金、國營企業研發投入等管道注入AI領域的資本規模，目前缺乏可靠的公開估算，但多個獨立來源認為其量級遠超私人投資的口徑。報告對此的處理，稱不上是誤導，但確實構成了一種系統性的低估。

綜合來看，史丹佛AI指數報告的核心判斷「中美AI差距已經閉合」是準確的，但這份報告並沒有完整地解釋這個故事。

中國AI的競爭力不僅來自模型表現本身的追趕，更來自效率範式的突破、應用落地的加速、人才厚度的累積、以及國家戰略與產業生態的深度耦合。在一個Arena評分差距僅2.7%的世界裡，決定下一階段競爭格局的變量，很可能不是誰的模型在基準測試上多得幾分，而是誰能更快地將模型能力轉化為產業價值和社會效用。在這些真正決定勝負的維度上，中國不僅不亞於美國，而且在多個關鍵方向上正在建立結構性優勢。遺憾的是，這些維度正是史丹佛這份以基準測試和學術計量為核心方法論的報告，最不擅長捕捉的。