2025年1月24日 星期五

The Economist 周刊的​ 2025年1月25的兩封面:Ichiro Suzuki 故事......中國 DeepSeek創辦人梁文鋒 超低成本 成為今年 OSS LLM 領域最大的黑馬:基礎能力、創造性和熱愛等更重要【劉又銘專欄|川普偶像麥金利:是偉大總統?還是奧茲(唬爛)大王?】​

 

The Economist

Read in browser

January 23rd 2025

 

The Economist this week

Highlights from the latest issue


Insert a clear and simple description of the image

Zanny Minton Beddoes
Editor-in-chief

You’d be forgiven for suffering whiplash. Donald Trump, inaugurated as America’s president on Monday, has signed dozens of executive orders, handed out almost 1,600 pardons and fired off plenty of threats in his first hours back in the White House. If you need some help staying on top of things, The Economist is following Mr Trump’s first 100 days in office. Keep tabs on his executive orders, cabinet picks and popularity via our Trump tracker.

Mr Trump has made clear his desire for America to be “a growing nation” that “increases our wealth” and “expands our territory”. We have labelled these imperial ambitions “Project 1897”—a nod to William McKinley, the president who added Hawaii, Guam, the Philippines and Puerto Rico to America’s territory. To illustrate the point, our designers have put Mr Trump in a top hat and wing collar in the image on this week’s cover in most of the world. 

In Asia, meanwhile, our cover considers a dilemma facing America: the success of Chinese AI models. If Mr Trump’s ambitions are to be met, he will need to maintain America’s technological lead in the field of generative artificial intelligence. The rapid improvement of the Chinese models, combined with industry-wide changes, could turn the economics of AI on its head. America must prepare for a world in which Chinese AI is breathing down its neck.

Finally, I was at the World Economic Forum in Davos this week, where I interviewed Britain’s chancellor, Rachel Reeves. Her mission in the Swiss alpine town was to convince Wall Street bosses, asset managers and pension funds that Britain really is open for business, and that she is single-mindedly focused on growth. I asked her how she planned to make her case.



懷念南方朔,李敖, 美國總統史學或許重要,

The Economist 周刊的​ 2025年1月25的兩封面
1.19世紀末鐵路時代的總統霸權復辟.....參考思想坦克*
2. China’s lean, mean AI machine
*【劉又銘專欄|川普偶像麥金利:是偉大總統?還是奧茲(唬爛)大王?】​
● 貿易保護的拿破崙
● 貿易拿破崙如何成為總統
● 麥金利的美利堅帝國
● 美西戰爭
● 美國併吞夏威夷
● 門戶開放政策
● 巴拿馬運河
● 時空錯置的川普
Names Matter:





  沈榮欽報導: 中國 DeepSeek創辦人梁文鋒  超低成本  成為今年 OSS LLM 領域最大的黑馬:基礎能力、創造性和熱愛等更重要

中國 DeepSeek-R1 以超低的成本,創造出在數學、程式設計和推理上和 OpenAI 的 ChatGPT-4o 十分接近的 AI,連吳恩達都對其能夠以如此低的成本訓練 AI 印象深刻。
中國 AI 圈為之振奮,本週一 DeepSeek 上線時,中國總理李強在同天特別主持研討會,邀請 DeepSeek 創辦人梁文鋒等人討論如何透過科技創新為中國創造經濟的新增長動力。
DeepSeek 的超低成本讓矽谷十分驚訝,Nvidia 的高級研究員 Jim Fan 表示:「DeepSeek 已成為今年 OSS LLM 領域最大的黑馬,這代表資源限制迫使其以驚人的方式重塑自我。」
他說的是 DeepSeek V3 的開發過程,只以 2048 塊性能較弱的 Nvidia H800 晶片(輝達因出口管制而賣給中國的晶片,性能較 H100 稍遜,頻寬和算力均較低)在兩個月內完成了訓練,花費僅 558 萬美元。
OpenAI 訓練 GPT-4 花費 7800 萬美元,Meta的Llama 3 超過 1 億美元,Gemini Ultra 近 2 億美元,DeepSeek 以不足10% 的錢,做出性能只略遜一點的產品,這是最讓矽谷驚訝之處,因爲這代表其他新創公司,也有可能挑戰這些科技巨頭。
DeepSeek-R1 依舊是具有中國特色的 AI ,會拒絕回答從天安門事件到台灣獨立等一系列問題,而且似乎有些問題在中國和國外問,會得到不同的答案。
但是這已經足以讓很多人振奮,尤其是華為。華為正試圖說服中國廠商,其開發能力較差的昇腾晶片,和 DeepSeek 相容(其實需要修改不相容處的程式),希望在中國國內,進一步取代 Nvidia 的晶片。
這也讓美國反對出口管制的人找到出口,批評正是因為美國的出口管制,讓中國找到窮則變、變則通的新方法,因此對拜登臨別秋波管制 AI 算力的方法表示不滿,有些被列為 Tier 2 的國家隨之唱和,希望川普改變拜登的管制。
DeepSeek 對台灣最大的啟示是:相信年輕人,他們缺乏經驗,但是當中有你需要的人才。
在 AI 產業,聘請經驗豐富的老將是常態,許多中國本土的 AI 新創公司更傾向於招募資深研究人員或擁有海外博士學位的人才。
然而,DeepSeek 卻反其道而行,偏愛工作經驗不豐富的年輕人。其團隊僅有 140 人,大多數是工作經驗不豐卻熱愛 AI 的年輕人。
一名曾與 DeepSeek 合作的獵人頭公司人員透露,DeepSeek 不招資深技術人員,「工作經驗在 3-5 年已經是最多的了,工作超 8 年的基本就 pass 了。」
梁文鋒在 2023 年 5 月接受《36氪》訪問時也表示,DeepSeek 的大多數開發人員要麼是應屆​​畢業生,要麼是畢業不久從事人工智慧職業的人。他強調:「我們的核心技術職位大多由應屆畢業生或具有一兩年工作經驗的人擔任。」
他說:「做一件長期的事,經驗其實沒那麼重要,相較之下基礎能力、創造性和熱愛等更重要。」因此「或許目前世界排名前50的頂尖AI 人才不在中國,但我們能自己打造這樣的人」。
例如在 MLA 架構研究中做出了關鍵創新的高華佐和曾旺丁。高華佐於 2017 年畢業於北京大學物理系,曾旺丁於 2021 年在北京郵電大學人工智慧研究所攻讀碩士學位。
GRPO(Group Relative Policy Optimization)則是由三位實習生完成,其中包括邵智宏和朱琪豪,當時邵智宏還是清華 CoAI 課題組博士生,研究可擴展的 AI 系統,曾參與 DeepSeek-Prover 和DeepSeek-Coder-V2 的發展。朱琪豪則是北大電腦學院博士,以深度代碼學習為研究方向,發表了 16 篇 CCF-A 類論文,並獲得多項國際會議獎項。
DeepSeek 還有一批從 V1 就開始參與的核心成員,如北大博士生戴達勱和王炳宣。戴達勱以預訓練語言模型研究獲獎,發表論文 20 餘篇,是 V1 到 V3 版本的重要推進者。而清華的趙成鋼,則以超算競賽冠軍的背景擔任訓練與推理架構工程師,支撐著 DeepSeek 大模型的硬體效能最佳化。
找出台灣最優秀的年輕人,相信他們,並給他們機會。


Ichiro Suzuki 故事......

沒有留言:

網誌存檔