魔法師們 • AI來了，你還不開始準備嗎？

從愛荷華的超級電腦到 ChatGPT#

2020 年春天，在愛荷華州 Des Moines 郊外，一棟二十座足球場大、無窗的微軟資料中心裡，一台前所未見的超級電腦點亮了：

由超過一萬顆 GPU（原本為電玩繪圖開發的晶片）以高速光纖串連而成。
造價數億美元，僅為了訓練一家小型舊金山新創公司——OpenAI——的軟體。
微軟於 2019 年 7 月投資 OpenAI 10 億美元，這台超級電腦正是合作的一部分。
連續執行 34 天，訓練出一個編碼了 1750 億參數、吞下 25 億網頁、上萬本書與整個維基百科的模型。

這個模型就是 GPT-3，於 2020 年 6 月問世，震撼了電腦科學界。它能寫作、寫詩、寫程式、回答事實題、做摘要、翻譯多國語言、判斷情感、甚至展現一定程度的常識推理——而它真正被訓練的目標只有一個：「預測序列中的下一個字」。

微軟執行長 Satya Nadella 看到 GPT-3 的潛力後，悄悄地把對 OpenAI 的投資從 10 億翻倍、再加碼到三倍。GPT-3 後來在兩年後催生了 ChatGPT。

ChatGPT 不是第一個能寫出像人類文字的 AI，但是第一個能被數億人輕易使用的 AI。它觸發了大型科技公司與新創之間的全面競賽：

微軟再加碼投資 100 億美元，把 GPT-4 整合進 Word、PowerPoint。
Google 推出 Bard、又訓練更大的 Gemini，將生成式 AI 嵌入搜尋。
Meta 釋出開源強模型；Amazon、Apple 也紛紛投入生成式 AI。

這場競賽，正把人類推向奇點（singularity）——也就是單一通用 AI 系統在幾乎所有認知任務上達到或超越人類的時刻。質疑者仍在，但這個時刻比過去任何時候都更近。

圖靈測試——AI 的原罪#

ChatGPT 之所以驚人，是因為「我們可以跟它對話」。為什麼是「對話」而不是「五位數乘法」或「股市辨識」成為衡量機器智能的尺度？這要回到二十世紀中葉，回到 Alan Turing。

模仿遊戲#

1936 年，年僅 24 歲的 Turing 提出了現代電腦的概念雛形。
1948 年，他在一份英國政府實驗室報告中提出，電腦終有一天可被視為具有智能。重點在「輸出的品質」，而非導出的過程。
1950 年的論文〈Computer Machinery and Intelligence〉裡，他提出了模仿遊戲（Imitation Game）：一位審問者向一個人和一台電腦各別發問，若無法分辨答案來自誰，這台電腦就應被視為具有智能。

Turing 強調，這個測試與答案的「正確性」或「專業知識」無關。要贏得遊戲，關鍵是機器是否能掌握日常對話的形式和常識，讓它與人無從分辨。

早期批評：Wolfe Mays 的反駁#

曼徹斯特大學哲學家 Wolfe Mays 是當時最早的批評者之一。
他質疑 Turing 只看輸出、不看內部過程，把「冷酷的邏輯計算」當成思考的本質。
Mays 認為智能與意識緊密相關，而意識無法被化約為純粹的物理。

中文房間：John Searle 的思想實驗#

哲學家 John Searle 想像一名不懂中文的人被鎖在房間裡，靠著一本中文字典查詢符號、抄寫並推出紙條。
他能正確產出中文回覆，但顯然並不「理解」中文。
Searle 因此主張：電腦能模仿對話，並不代表它具有智能。

圖靈測試的三大遺毒#

作者認為圖靈測試對 AI 發展留下了長遠的負面影響。

重輸出輕過程：把「結果」當成智能的唯一指標。
以欺騙為核心：鼓勵工程師對毫不知情的人類測試 AI，例如 Google 在 2018 年用 Duplex 假冒真人打電話訂位，引發倫理爭議。
人機對立的框架：技術寫作家 John Markoff 在《Machines of Loving Grace》中指出，這讓世世代代的研究者把 AI 視為人類的「替代品」而非「互補品」。今天最強的 AI 已能通過律師考試、美國醫師執照考試，分數常超過一般人，這種「比人強」的執念正是圖靈遺產的延伸。

但 ChatGPT 的智能其實「脆弱又怪異」：它能精準回答粒子物理難題，卻可能在一個八歲孩童都能解的邏輯謎題上栽跟頭。這種聰明與愚蠢並存的不一致，並不是 Turing 當初設想的智能。

打造圖靈的思考機器#

ENIAC 與第一波先驅#

1940 年代末問世的 ENIAC，佔據賓州大學工學院的整個地下室，重達 30 噸，每秒只能算 5000 次加法——比今日 AI 晶片慢了約一兆倍。
但達特茅斯學院的數學教授 John McCarthy 等先驅相信，可以教這些龐然大物「思考」。

達特茅斯研討會與「人工智慧」一詞的誕生#

1955 年，McCarthy 提議於 1956 年夏在達特茅斯舉辦兩個月的研討會，召集約十位數學家、電機工程師與心理學家。
在向洛克菲勒基金會的提案中，他首度使用了「人工智慧（artificial intelligence）」這個詞。
研討會雄心勃勃，希望「找出讓機器使用語言、形成抽象與概念、解決現有保留給人類的問題、並自我改進」。
結果並未如預期統一整個領域，但這個名字留了下來，且在會中浮現了今日 AI 革命的關鍵概念之一：人工神經網路。

兩條對立的路線#

神經網路派：模仿大腦神經元的層層連結；最早只有兩層，能做簡單的二元分類（亮/暗、圓/方）。
符號推理派：寫死規則告訴電腦如何推理（例如「有把手、無門無排氣管 → 腳踏車」）。

Marvin Minsky 是早期神經網路的開拓者之一，但達特茅斯研討會後他反而成為最強烈的批評者，將焦點轉向符號推理派。1966 年，一個依循 Minsky 路線的系統幾乎通過了圖靈測試。

ELIZA 效應#

Joseph Weizenbaum 與世界第一個聊天機器人#

1923 年生於柏林的猶太家庭，13 歲逃離納粹移居底特律。
在 MIT 任教期間，他與 Stanford 精神科醫師 Kenneth Colby 合作，希望以電腦輔助心理治療。
1966 年，世界第一個聊天機器人 Eliza（取自《Pygmalion》中的 Eliza Doolittle）誕生。
Eliza 模仿心理分析師的對話：依規則匹配關鍵字，無法判斷時就重複使用者的話、或回「我懂」、「請繼續」。

真正的突破：人類願意相信#

真正讓 Eliza 變成里程碑的，不是程式碼，而是使用者的反應。
Weizenbaum 的祕書曾要求單獨與 Eliza 相處，把他請出房間。
連電腦科學家也對 Eliza 吐露真心話。

這種把聊天機器人擬人化、即使其明顯破綻仍寧願相信的傾向，被稱為「ELIZA 效應（Eliza effect）」，至今仍深深影響 AI 領域。

Weizenbaum 的轉折與警告#

Weizenbaum 並未為 Eliza 的成功感到歡欣，反而陷入低潮。他後來在 1976 年的著作《Computer Power and Human Reason: From Judgment to Calculation》中提出激烈批判：

AI 永遠無法真正「理解」語言，因為理解依賴親身經驗與情感，這是電腦永遠不會有的。
他引用維根斯坦（Ludwig Wittgenstein）與劇作家 Eugene Ionesco 的話：「並非一切無法言說，只有活生生的真理（the living truth）無法被言說。」
即使 AI 在每件事上都能做得跟人一樣好，也應該被禁止涉入某些領域——尤其是涉及不可逆後果、或需要「人際尊重、理解與愛」的決定。
同事 Marvin Minsky 認為人腦不過是「肉做的機器」；Weizenbaum 與此徹底決裂。

Weizenbaum 還警告：AI 的不透明會讓人有現成的藉口逃避責任；強大的軟體會讓政府與大企業更容易維持現有權力結構，使極權更易實現——這份恐懼源自他作為納粹難民的親身經歷。

神經網路的復活#

從 1970 年代起，神經網路因 Minsky 的批評幾乎被放棄。它的復活來自三項新條件加上一項老想法：

更強的晶片
網際網路帶來的海量資料
一點演算法的創新
舊想法：神經網路本身

反向傳播（backpropagation）#

1980 年代中期，加州大學聖地牙哥分校的心理學家 David Rumelhart、同事 Ronald Williams 與年輕英國博士後 Geoffrey Hinton 共同開發出反向傳播演算法。
它運用微積分，讓多層神經網路能合理地分配每個神經元的「貢獻」並調整權重與偏置。
從此神經網路可以多層化，能辨識手寫郵件位址、家譜關係、甚至讓早期自駕車保持在車道內。

第二次寒冬與 GPU 的登場#

但神經網路仍無法穩定地辨識複雜物件、處理語音與翻譯，且訓練成本高昂，又被許多人放棄。
1999 年底，Nvidia 推出 GeForce 256——史上第一個 GPU（graphics processing unit），原為電玩繪圖而生，能平行處理多串資料。

深度學習起飛#

2004 年 Hinton 將神經網路重新包裝為「深度學習（deep learning）」，所謂「深」其實只是指神經網路的多層結構，但這個行銷詞傳達了它能比「淺」方法更深入。
2009 年，Hinton 與兩位研究生在微軟用 GPU 打造的深度學習系統，幾個月內就追上微軟耗費十年開發的語音辨識軟體。
2012 年，Hinton、Ilya Sutskever 與 Alex Krizhevsky 推出 AlexNet，在 ImageNet 競賽中以 15% 錯誤率（次優者的兩倍以上）橫掃對手。
三人的公司被 Google 以 4400 萬美元收購，並進入 Google Brain。

AlexNet 之後，攔不住的潰堤：Google、微軟、Meta、Amazon、Apple，以及中國的百度、騰訊全面投入深度學習，付給博士新人六到七位數美金的高薪。

為解決智能而生的競賽#

DeepMind 的崛起#

Shane Legg 與 Demis Hassabis 都著迷於「通用人工智慧（artificial general intelligence, AGI）」——能在大多數認知任務上媲美甚至超越人類的 AI。
兩人加上 Mustafa Suleyman 於 2010 年共同創立 DeepMind，使命是：「先解決智能，再用它解決所有其他問題。」
2013 年，DeepMind 展示一個近乎零知識起步的系統，數小時內就能在 50 款 Atari 遊戲達到超人水準。

Elon Musk 的恐懼與 OpenAI 的誕生#

投資人 Musk 既著迷又恐懼 AGI，他擔心一旦達成 AGI，距離超智慧（artificial superintelligence, ASI）只差一步，而 ASI 將難以控制，甚至可能威脅人類存續。
在私人飛機上，Google 共同創辦人 Larry Page 偶然得知 DeepMind 的進展，火速以 6.5 億美元收購。
為了制衡 Google 對 AGI 的壟斷，Musk、Sam Altman、Sutskever 等人於 2015 年底共同創立了非營利的 OpenAI。

OpenAI 最初設定為 DeepMind 的反面：非營利、開源、承諾公開研究。Musk 認為防止集權濫用 AI 的唯一方法，是民主化每一個人對 AGI 的存取。

Transformer#

2017 年，Google Brain 的研究人員——靈感部分來自電影《異星入境》（Arrival）中的外星語言——發表了名為 Transformer 的新型神經網路架構。
它將句子拆成大約一字一個的「詞元（token）」，並能平行分析大量詞元。
關鍵機制是 自注意力（self-attention）：模型自行學會「該注意哪些詞元」才能準確預測。

Transformer 訓練出的**大型語言模型（large language model, LLM）**像是自然語言處理的瑞士刀——光靠「預測下一個字」這個訓練目標，就同時擁有摘要、翻譯、分類、情感分析、問答等多種能力。

接下來的演化：

Google 訓練出 BERT（3.4 億參數，吞下 11000 本英文書籍與維基百科）；很快就被應用到搜尋。
OpenAI 的 Sutskever、Alec Radford 等人沿著「閱讀就能學會」的思路，把 Transformer 餵入七千本未出版小說，孕育了 GPT——「Generative Pretrained Transformer」。
Transformer 也能擴張到圖片（DALL-E）、影片、音樂、聲音複製，甚至預測序列下一個動作（為新一代數位助理鋪路）。

我們現有的 AI，是我們真正想要的 AI 嗎？#

規模法則與湧現能力#

Sutskever 與 Dario Amodei（後創立 OpenAI 競爭對手 Anthropic）發現：神經網路愈大、餵的資料愈多，表現就愈好，且改善方式可預測——這就是「規模法則（scaling laws）」。
但模型一大，湧現能力（emergent capabilities） 也隨之出現：小模型完全做不到的能力，大模型突然就會了。

局限與隱憂#

強大不代表可信。Transformer 為基底的 LLM 仍有重大缺陷。

幻覺（hallucination）：捏造資訊但呈現得理所當然；有認知科學家認為「虛構（confabulation）」更精確。
不擅長外推（extrapolation）：訓練資料若包含 2、5、10，它能產出 3、4、7，卻很難給出 1 或 11。
數據胃口巨大：很多訓練資料是從網路免費抓取，可能侵犯著作權。
吸收人類偏見：GPT-3 容易把穆斯林與暴力連結、用負面詞描寫黑人、用男性代詞稱呼專業職業，輕易就能被引誘產出色情或不當內容。

RLHF 與其極限#

OpenAI 透過「人類回饋強化學習（reinforcement learning from human feedback, RLHF）」訓練 ChatGPT，由人類標註答案是否得體有用。
但護欄很快被使用者繞過——因為底層模型對「概念」的理解，遠不如真正的人類。

代價：商業化與權力集中#

OpenAI 的轉型#

為了支應愈來愈龐大的訓練成本，OpenAI 從非營利組織轉型為奇特的混合體：非營利基金會控制一個有「利潤上限（capped profit）」的營利子公司。
2019 年 7 月，OpenAI 接受微軟首筆 10 億美元投資，後續再加碼至少 120 億美元。
利潤化的代價是：原本承諾的透明度節節後退；連 GPT-4 的規模、設計與訓練資料都不再公開。
前員工指出，獲利壓力也讓安全工作的優先順序下降。

權力的重新洗牌#

過往的革命性技術——核武、噴射引擎、衛星、超級電腦、網際網路——多由政府主導或資助，目的是地緣戰略，且至少要對公眾有所交代。AGI 的競賽則由極少數科技巨頭主導，這是一個本質上的轉變。

Anthropic 接受 Google 與 Amazon 投資。
Nvidia 投資 Cohere；微軟與 Nvidia 投資 Inflection，後微軟將 Inflection 多數人才併入。
AGI 的方向，正被一小撮公司決定。

站在懸崖邊#

神經網路、Transformer、網際網路的資料，加上空前的算力，把我們推到了懸崖邊。

作者列出本書接下來必須面對的核心提問：

我們應該如何定義「智能」？
評斷 AI 進步的尺，到底是什麼？
圖靈測試的遺緒是否把人類推進一場注定會輸的競賽？
我們能否把 AI 重新框架為人類智能的補充而非對手？
在沒有目的、沒有意願的數位大腦上，我們該如何衡量它「在真實世界對真實的人有多好用」？

作者呼籲，AI 的辯論必須從「能不能（could）」轉向「該不該（should）」——從工程問題轉向道德問題。Weizenbaum 五十年前的警告，今日反而比當時更切題。

舉例來說，他認為 AI 永遠不該擔任法官。1979 年的 Pamela McCorduck 在《Machines Who Think》中曾樂觀預期 AI 法官會比人類更客觀；但今日真正的危險是：AI 系統用歷史資料訓練，反而強化了人類偏見，再用「客觀」的面具加以掩飾，讓追責變得不可能。

作者的立場：在某些領域，保留一點不理性是值得的——他寧願選擇一個會說明道德責任的活生生的人，也不願接受一個假裝完美正義的 AI 法官。如何劃出這條界線，現在就要決定。