2026年4月7日 星期二

人工智慧巨擘OpenAI、Anthropic與Google 「前沿模型論壇」(Frontier Model Forum)2023年共同創立的行業非營利組織,旨在檢測違反它們的服務條款的所謂對抗性蒸餾行為。一位知情人士匿名透露,根據美國官員估計,未經授權的仿冒行為每年造成矽谷實驗室們造成數十億美元的利潤損失。。Deepseek或 DeepSICK ( 2026美國幾家實驗室聲稱,中國競爭對手正在利用「蒸餾攻擊」以極低的成本迅速接近模型開發的前沿領域。以2025發表當例子); 中國的AI/算力之真假 (美國Open AI,Google,Anthropic 等公司的"指控"。注意:蒸餾VS 複製,兩者之間的區別越來越模糊,因為這兩種技術都涉及使用另一個模型的輸出來訓練模型。核心問題在於模型擁有者是否授權競爭對手使用其輸出來訓練模型。)。 "今天台積電站上2000元歷史新高,是個值得紀錄的一天。(台積電股價跟中國AI大外宣故事有什麼關係?後面再來說......") 許美華 。請教 Google人工智慧概述:知識蒸餾VS 複製 (核心問題在於模型擁有者是否授權競爭對手使用其輸出來訓練模型。):二者的主要區別在於方法論、意圖和合法性/專有性:蒸餾是一種公認的、專注於學習的技術優化過程,而「複製」(通常指「蒸餾攻擊」)是一種有爭議的、可能非法的做法,即克隆模型的行為以創建直接競爭對手。 法律與倫理的灰色地帶 雖然兩者都使用相同的底層技術(教師-學生訓練),但圍繞「複製」的爭議在於意圖和許可。 已授權:像 OpenAI 和 Anthropic 這樣的公司使用蒸餾來使其自身更大的模型更容易訪問,這是一種標準的、符合倫理的做法。 未經授權:爭議源自於競爭對手利用這些技術“搭便車”,竊取他人的研發成果,這通常違反了API提供者的服務條款。

 美國人工智慧巨擘OpenAI、Anthropic與Google標誌資料圖片 © 網路圖片

作者:

弗林

廣告

據彭博社引述知情人士報導稱,這三家公司正透過「前沿模型論壇」(Frontier Model Forum)共享資訊。該論壇是由上述三家人工智慧巨頭與微軟公司於2023年共同創立的行業非營利組織,旨在檢測違反它們的服務條款的所謂對抗性蒸餾行為。


這種罕見的合作凸顯了美國人工智慧公司所擔憂的嚴重性:一些用戶,尤其是在中國的用戶,正在開發它們產品的仿冒版本,這些仿冒版本可能以低價搶走客戶,並構成國家安全風險。


一位知情人士匿名透露,根據美國官員估計,未經授權的仿冒行為每年造成矽谷實驗室們造成數十億美元的利潤損失。


OpenAI證實,其參與了「前沿模型論壇」關於對抗性蒸餾的資訊共享工作,並指公司近期向美國國會提交了一份關於此實踐的備忘錄,其中指責中國公司DeepSeek試圖「搭OpenAI和其他美國前沿實驗室開發的技術的便車」。谷歌、Anthropic和「前沿模型論壇」均拒絕置評。


蒸餾是一種利用較早的「教師」人工智慧模型訓練較新的「學生」模型的技術,該學生模型能夠複製早期系統的功能——通常比從頭開始建立原始模型成本低得多。某些形式的蒸餾已被廣泛接受,甚至受到人工智慧實驗室的鼓勵,例如,當公司創建更小、更有效率的自有模型版本,或允許外部開發人員使用蒸餾技術來建構非競爭性技術時。


然而,當第三方尤其是像中國或俄羅斯這樣的美國敵手國家,未經授權使用蒸餾技術複製專有成果時,這項技術一直備受爭議。美國頂尖的人工智慧實驗室警告稱,外國敵手可能利用該技術開發出缺乏安全防護措施的人工智慧模型,例如那些能夠防止用戶製造致命病原體的限制。


中國實驗室開發的大多數模型都是開源的,這意味著基礎人工智慧系統的部分程式碼是公開的,用戶可以免費下載並在自己的平台上運行,因此使用成本更低。這給那些一直將模型設為專有的美國人工智慧公司帶來了經濟挑戰,這些公司押注客戶會付費使用它們的產品,以幫助抵消這些公司在數據中心和其他基礎設施上投入的數千億美元。


蒸餾技術在2025年1月首次受到廣泛關注,當時DeepSeek出人意料地發布了R1推理模型,該模型在人工智慧領域引起了轟動。彭博社先前報導稱,不久之後,微軟和OpenAI就對這家中國新創公司是否從美國公司的模型中不正當地提取了大量數據以創建R1展開了調查。


今年2月,OpenAI曾向美國立法者發出警告,稱儘管該公司已加大努力防止其產品被濫用,但DeepSeek仍繼續採用日益複雜的手段從美國模型中提取結果。 OpenAI在提交給美國眾議院美國與中共戰略競爭特設委員會的備忘錄中聲稱,DeepSeek正利用數據蒸餾技術開發其突破性聊天機器人的新版本。


美國人工智慧公司就對抗性蒸餾技術的資訊共享,與網路安全產業的慣例不謀而合。在網路安全產業,各公司經常交換有關攻擊和敵手策略的數據,以此加強網路防禦。透過合作,這些人工智慧公司同樣旨在更有效地檢測此類行為,識別責任人,並努力阻止未經授權的用戶得逞。


川普政府官員已表示願意促進人工智慧公司之間的資訊共享,以遏制對抗性蒸餾。去年,川普總統公佈的《美國人工智慧行動計畫》呼籲建立一個資訊共享與分析中心,部分原因正是為此目的。.....


------

美國幾家實驗室聲稱,中國競爭對手正在利用「蒸餾攻擊」以極低的成本迅速接近模型開發的前沿領域。

American labs claim that Chinese competitors are using “distillation attacks” to jump closer to the frontier of model development for a fraction of the cost



人工智慧概述


在人工智慧領域,蒸餾和複製指的是利用「教師」模型創建新的、通常規模較小的「學生」模型的不同方法。二者的主要區別在於方法論、意圖和合法性/專有性:蒸餾是一種公認的、專注於學習的技術優化過程,而「複製」(通常指「蒸餾攻擊」)是一種有爭議的、可能非法的做法,即克隆模型的行為以創建直接競爭對手。


美國Open AI,Google,  Anthropic 等公司的"指控"





1. 人工智慧蒸餾(知識蒸餾)


蒸餾是一種合法的機器學習技術,用於創建更小、更快、更有效率的「學生」模型,這些模型模仿更大、更強大的「教師」模型。


方法:學生模型是基於教師模型的輸出(軟目標/機率分佈)進行訓練,而不是僅基於原始的“硬”標籤(例如,學生模型學習的不是“貓”,而是80%的貓、15%的狗和5%的狐狸)。


目標:模型壓縮,降低推理成本,並提高在小型硬體上的部署速度。


使用案例:大型語言模型 (LLM) 擁有者將其模型進行提煉,為 API 使用者建立更小、更便宜的版本。


2. 複製(提煉攻擊/競爭對手模仿)


此處的「複製」指的是利用提煉技術從競爭對手的模型中竊取功能,通常是透過大規模地以程式設計方式查詢競爭對手的 API 來實現的。人為方法


方法:利用成千上萬甚至數百萬次的查詢,從競爭對手的模型(例如 GPT-4 或 Claude)產生訓練數據,從而訓練競爭對手自己的模型。


目標:快速且低成本地複製性能更優、價格更高的模型,而無需獨立開發。


應用案例:一家公司使用另一家公司的專有模型來訓練自己的模型,這可能違反服務條款。


主要區別


特徵蒸餾(標準) 複製/蒸餾攻擊


主要目標 優化與效率 模仿與競爭


資料來源 開發者自有教師模型 競爭對手模型(API/Web)


合法性/倫理 普遍接受/合法 有爭議/可能違規


模型規模 縮小規模(小學生) 複製行為(相似能力)


透明度 內部流程 通常隱藏或“黑盒”


法律與倫理的灰色地帶


雖然兩者都使用相同的底層技術(教師-學生訓練),但圍繞「複製」的爭議在於意圖和許可。


已授權:像 OpenAI 和 Anthropic 這樣的公司使用蒸餾來使其自身更大的模型更容易訪問,這是一種標準的、符合倫理的做法。


未經授權:爭議源自於競爭對手利用這些技術“搭便車”,竊取他人的研發成果,這通常違反了API提供者的服務條款。



注意:兩者之間的區別越來越模糊,因為這兩種技術都涉及使用另一個模型的輸出來訓練模型。核心問題在於模型擁有者是否授權競爭對手使用其輸出來訓練模型。



Distillation
 and copying in AI refer to different methods of leveraging a "teacher" model to create a new, typically smaller, "student" model. The primary distinction lies in the methodologyintent, and legality/propriety: Distillation is a recognized, technical optimization process focused on learning, while "copying" (often in the context of "distillation attacks") is a controversial, potentially illicit practice of cloning a model's behavior to create a direct competitor.
1. AI Distillation (Knowledge Distillation)
Distillation is a legitimate machine learning technique used to create smaller, faster, and more efficient "student" models that mimic a larger, more powerful "teacher" model.
  • Method: The student model is trained on the outputs (soft targets/probability distributions) of the teacher model rather than just the raw "hard" labels (e.g., instead of just "cat," the student learns 80% cat, 15% dog, 5% fox).
  • Goal: Model compression, reducing inference cost, and improving deployment speed on smaller hardware.
  • Use Case: A large language model (LLM) owner distills their own model to create a smaller, cheaper version for API users.
2. Copying (Distillation Attacks/Competitor Imitation)
"Copying" in this context refers to using distillation to steal capabilities from a competitor’s model, often by programmatically querying the competitor's API at scale.
  • Method: Using thousands or millions of queries to generate training data from a rival's model (e.g., GPT-4 or Claude) to train a competitor's own model.
  • Goal: To quickly and cheaply replicate the performance of a superior, expensive model without independently developing it.
  • Use Case: A company uses another company's proprietary model to train their own, potentially violating terms of service.
Key Differences
FeatureDistillation (Standard)Copying/Distillation Attack
Primary GoalOptimization & EfficiencyImitation & Competition
Source of DataDeveloper's own teacher modelCompetitor's model (API/Web)
Legality/EthicsGenerally Accepted/LegitimateControversial/Potential Violation
Model SizeReduces size (Small Student)Replicates behavior (Similar Capability)
TransparencyInternal processOften hidden or "black-box"
The Legal and Ethical Gray Area
While both use the same underlying技術 (teacher-student training), the controversy surrounding "copying" is about intent and permission.
  • Authorized: Companies like OpenAI and Anthropic use distillation to make their own, larger models more accessible, which is a standard, ethical practice.
  • Unauthorized: The controversy arises when competitors use these techniques to "free-ride" on the R&D of others, which is often a violation of the API provider's Terms of Service.
Note: The distinction is increasingly blurred, as both techniques involve training a model on the output of another. The core issue is whether the model owner has authorized the use of their outputs for training a competitor.


看到某范姓媒體人去了一趟中國,就回來說不確定中國有沒有言論自由,後續又加碼說中國贏了AI競賽、AI模型已經不輸美國,我滿頭黑人問號蛤❓
本來懶得回應這題。
但剛好這兩天,去年初,一度被中國大外宣吹捧為「橫空出世」的DeepSeek,再度被指控以工業規模的蒸餾手法偷竊別家模型成果;而且,還被《路透社》爆料,即將公佈的新模型違反美國出口禁令,偷用輝達(NVIDIA)最先進的AI晶片Blackwell訓練,簡直直接打臉這位媒體人。決定還是來寫寫這件事。
而且,剛好今天台積電站上2000元歷史新高,是個值得紀錄的一天。(台積電股價跟中國AI大外宣故事有什麼關係?後面再來說)
故事很快倒轉一下。
大家還記不記得,就在去年一月底,當我們正在過農曆年假期的時候⋯
中國一家AI模型公司DeepSeek,宣稱用不可思議的低成本、低算力,搭配獨特創意的模型設計和演算法,模型效能超越美國各家進度,包括當時最火紅的ChatGPT,在中國帶動鋪天蓋地的渲染神話,DeepSeek被捧為新一代獨角獸,還說,中國AI的工程能力已經突破美國禁令。
當天晚上,美股,NVIDIA、台積電,還有一串AI先進晶片概念股,全部都因為這個消息,開啟一波股價重挫的風暴。
因為,如果DeepSeek真如中國宣稱的突破算力和成本的困境,那就代表,之前所有包括OpenAI、Google 在內的公司都錯了。
而且,NVIDIA跟台積電的地位和價值也不再關鍵,因為,中國靠中國人優秀、聰明的腦袋,已經突破所有晶片、算力框架的束縛了。
結果,後來的事件發展,出現180度的逆轉,相信很多人應該也都還記得(?
在DeepSeek被吹捧上天之後沒多久,OpenAI就出來發聲明說要提告,因為DeepSeek違反了用戶付費使用的規則,用蒸餾手法偷竊他們用大量人力、成本累積起來的訓練成果,偽裝成自己的大語言模型效能,用於對外營運。
那時候,也同時傳出Deepseek手上有5萬顆,當時相當高階、且被列為美國禁售的H100,而並非Deepseek自我吹噓,用低階H800搭配優異演算法、以低成本600萬美元,就成功突破美國封鎖的神話故事。
回來看我們的護國神山台積電,去年初股價才$1000出頭,今天站上$2000,代表了什麼意義?
很簡單,就是,AI晶片算力需求一路爆炸成長,魏哲家一直喊產能「不夠不夠不夠」,拼命在台灣跟美國、日本擴充先進製程產能;這也是另一個直接打臉中國,在一年前想用Deepseek證明中國AI模型已經突破美國禁令跟晶片限制,完全是幻覺。
————
去年農曆過年剛好沒事做,本貓寫了至少四、五篇關於Deepseek的吐槽文,現在回頭看起來,簡直先知。(其實當時不只是我,很多人都跟我一樣看法啦XD
這是當時我寫的某段內容。
「講白話文,複雜算力要靠晶片,而晶片不是手磨的,要靠先進製程and 先進封裝。
而決定算力的關鍵,晶片規格是先天優勢,其他都是後天努力。
再好的演算法、工程優化,即使在效能上取得一時的領先,比到最後,都抵不過晶片先天算力的限制。
後天努力當然有用,但如果比你聰明的人也開始努力,你就沒有優勢了。」
「如果連晶片都要靠白手套繞道去偷買NVIDIA ,中國AI科技到底突破了什麼?」
簡單說,晶片算力就是硬實力、硬道理!
這是我在一年前就知道的事,現在印證事實真相就是這樣。
一年前就在偷東西的Deepseek,現在還在用蒸餾手法偷別人的模型成果、還在偷用被美國禁的NVIDIA晶片,請問中國的AI科技到底突破了什麼?
很想把這句話送給那位,還在複誦一年前已經被戳破的中國大外宣故事,說中國AI技術已經追上美國的范大記者。

沒有留言:

網誌存檔