藝術與造作 • AI來了，你還不開始準備嗎？

AI 把「點子」與「執行」徹底分開#

人類數千年以來，創作藝術需要「多元的心智與肢體能力」交織：認知智能、敏銳的感知（色彩眼、音感）、情感智能，以及與運動員相當的動覺智能。

攝影是分離點子與技藝的第一道刀痕。哲學家 Walter Benjamin 寫道：「攝影第一次把手從藝術功能中解放出來——這些功能此後只交付給注視鏡頭的眼睛。」
從 GarageBand、Photoshop 到第一代 Deepfake，軟體一步步抽走藝術中的人類技藝。即便如此，受過訓練的人仍能用工具走得更遠（David Hockney 在 iPad 上做的，遠不是你我能做的）。

生成式 AI 把這條趨勢推到極致——心眼裡有畫面就夠了，技藝幾乎完全被外包。AI 比過去任何技術都更把「概念」推上創造價值鏈的頂端。

各種型態都被觸及：

圖像：DALL-E、Midjourney、Stable Diffusion 等以文字生圖。
音樂：Google MusicLM、Stability AI Stable Audio、OpenAI Jukebox。
影片：Runway Gen-2、OpenAI Sora。
文學：GPT-4、Claude 寫短篇小說與詩。

兩股交錯的影響：
創作大爆發：更多人能做藝術。
權力反而更集中：握有策展、發行與行銷管道者的話語權變大；要從垃圾堆中撈到金子更難。

但作者堅持：AI 是合作者，不是替代者。雕塑、陶藝、玻璃、建築、劇場、現場演出等有實體性的藝術，AI 反而會抬升其價值；前衛藝術也是 AI 難以複製的領域。

Altman 方程式：創意只是重組？#

2023 年底，Sam Altman 在 X 發文：「所有『創意』都是過去事物的混音，加上一個 epsilon，再乘以回饋迴路品質與迭代次數。多數人以為要最大化 epsilon，但訣竅是最大化另外兩項。」

這個說法被許多藝術家批評為矽谷式的偽數學化約論，但它的核心並不原創：

Stanford 神經科學家 David Eagleman 與作曲家 Anthony Brandt 主張：所有創意都可化約為對既有事物的三種操作——「彎曲（bend）、混合（blend）、打破（break）」。
大腦只能改變「它已知的事物」；發明從不從無中生有。
小說家 Michael Chabon 在紀錄片中直言：「獨創性是胡扯（Originality is bunk）」。

AI 擅長「彎曲」與「混合」#

多數生成式 AI 用歷史資料訓練，本質上是在已知資料點之間「內插（interpolation）」——像填色本上連線著色。
「視覺風格遷移」是典型例子：把紐約街景畫成梵谷《星夜》、把人臉畫成日漫角色或哥德反派。
Norman Rockwell 借用 Michelangelo 西斯汀禮拜堂的姿勢來刻畫 Rosie the Riveter——AI 在正確 prompt 下能做出類似的「借用」（但靈感仍須來自人腦）。
LLM 在 J. P. Guilford 的 Alternative Uses Test（AUT） 創意測試上表現亮眼：2023 年研究顯示 GPT-4 創意分超過 91% 的人類，並在 Torrance 創意思考測驗 得到 99 百分位。

打破：AI 過不去的關卡#

為什麼 AI 不擅長「打破」#

打破（breaking） 牽涉把整體拆出、重新放置——文學上的提喻（synecdoche，例如以「車輪」代汽車、以「西裝」代商務人士），或巴赫《D 大調賦格》中先呈現主題、再剝下最後四個音符做為全曲動機，都是打破。

問題的根源：

打破不是「內插」，而是「外推（extrapolation）」——把資料點投射到訓練分布之外。AI 在外推上嚴重不擅長。
打破還需要理解「整體與其組成部分」——認知心理學上稱為「組合性（compositionality）」，這是當前深度學習依然欠缺的。

Broken Obelisk 的實驗#

作者試圖用 Midjourney（甚至直接給名字）重現 Barnett Newman 的雕塑《Broken Obelisk》——一個被水平撕裂、倒過來尖端朝下立在金字塔尖上的方尖碑。
不論怎麼下指令，Midjourney 都做不出。OpenAI DALL-E 也失敗。
訓練資料中根本沒有「倒立的方尖碑」這種畫面；模型也不理解「方尖碑」是什麼，無法決定哪些元素該倒、哪些該保留。
嘗試讓 DALL-E 倒置方尖碑，連底下的地面也跟著翻過來，造出「上下都是地」的怪圖。
DALL-E 3 即使被多種方式要求「沒有鬍子的男畫家」，也畫不出來——在它的世界觀裡，「鬍子與小鬍子」是「畫家」概念不可分割的一部分。

偏向統計眾數#

生成式 AI 以「逼近訓練資料分布的眾數」為目標，本質上反慣例的能力極差。
一個衝擊性的例子（將在第 11 章再談）：Midjourney 被要求畫「一名黑人非洲醫師照顧白人受苦兒童」，300 次嘗試裡有 299 次畫成白人醫師照顧黑人兒童——訓練資料裡黑人醫師照顧白人兒童的圖像太少。

LLM 寫作也類似：被訓練去找「下一個最可能的字」，但好寫作往往來自「下一個不太可能、但仍保住意義的字」。Columbia 與 Salesforce 的研究讓專家盲評：以《紐約客》短篇為起頭，AI 接續的版本全都遜於原作——比喻陳腔濫調、對話缺潛台詞、結局乏善可陳。

替代路線：CAN 與 MuZero#

Rutgers 教授 Ahmed Elgammal 開發「創意對抗網路（creative adversarial network, CAN）」：一個生成器加一個能識別「是不是藝術 / 屬何流派」的鑑別器，再加上一個「風格模糊（style ambiguity）」函數——強迫生成器產出仍像藝術、卻分不出風格的圖。
結果是高度抽象的圖像。但這也預設了「只有抽象才是真原創」，這個前提可疑。

DeepMind 的 MuZero 從零知識起步，自我對弈圍棋、西洋棋等完全資訊雙人遊戲，達到超人水準後甚至發明了從未見過的策略。它代表「真正的轉化性創意」——但這只在「有清晰獎勵訊號（贏棋）」、「有限行動空間（棋盤與規則）」的場景下可行。藝術沒有這種獎勵訊號，且行動空間是整個宇宙。

我們可請大眾為 AI 生成圖投票來當獎勵訊號，但這不是真正的藝術家在做的事。梵谷生前賣出寥寥幾幅；梅爾維爾的《白鯨記》在世時只賣出 3000 本。真正的藝術家依的是內在信念，而非外在回饋。

但這是藝術嗎？#

佳士得拍賣 Edmond de Belamy#

2018 年 10 月 25 日，巴黎藝術團體 Obvious Art 用 AI 生成的肖像〈Portrait of Edmond de Belamy〉在紐約佳士得拍賣，七分鐘內以 432,500 美元 成交，超過初估價 43 倍——簽名是一道數學公式。
短短幾年內，AI 生成藝術變得普遍，將不再是新聞。

兩種對立的判準#

問題是：AI 的產出算不算藝術？

觀者本位（圖靈式）：若觀眾分不出（或不在乎）AI 與人作品的差別，那就是藝術。Elgammal 用 CAN 做的測試也得到類似結論——多數專家覺得它「新穎、好看、難辨真偽」。
創作者意圖本位：搖滾歌手 Nick Cave 強烈反對 AI 生成歌，「歌出於苦難，演算法不會感受、資料不會受苦。ChatGPT 沒有內在存在，沒有去過任何地方、沒有忍受過任何事，因此沒有能力分享一段超越的經驗，因為它根本沒有可超越的限制。」即使人類用 LLM 當工具，他也認為這是「捷徑」、不算藝術。

杜象的 Fountain 作為反證#

Cave 的定義太苛。1917 年 Marcel Duchamp（或代為提交的人）的「現成物（ready-made）」Fountain——一個簽上 R. Mutt 的小便斗——也沒有「製作的勞動」，但所有人都同意它是藝術。
「勞苦」全在概念與選擇上：選哪個小便斗、用哪個假名、何時提交。Edmond de Belamy 也類似：選哪種 AI 方法、餵哪些歷史影像、選哪張產出、如何題款。

Walter Benjamin 的 aura#

Benjamin 論攝影與石版畫對視覺藝術的影響時提出「靈光（aura）」概念——藝術品與其創作行為、目的、展示地點的獨特連結。複製品稀釋了複本的 aura，卻強化了原作的 aura。
看羅浮宮的《蒙娜麗莎》仍然人潮洶湧，正是這個現象的當代驗證。

AI 將提升有實體性的藝術——畫廊裡的畫、雕塑、現場音樂——的相對價值。AI 無法複製演出者與觀眾之間的連結（即使是 ABBA 在倫敦《Voyage》以數位化身重現的演出，也仍是「現場感」的延伸）。
純數位的藝術挑戰更大；NFT 等以加密簽名認證唯一性的技術，可能因此復興。

AI 與人類的合作藝術#

文學：Ajay Chowdhury 與 Hannah Silva#

英國犯罪小說家 Ajay Chowdhury 把 ChatGPT 當腦力激盪夥伴：當主角被鎖在小屋脫身的橋段卡關時，ChatGPT 提出主角拿小屋裡的工具拆掉小屋本身——他原本沒想到的點子。
他不讓它寫散文，也只用它構思故事。改編兒童書成圖像小說時，請 ChatGPT 製作 storyboard，包含「閃回蒙太奇」與不同鏡位描述。
詩人 Hannah Silva 在實驗回憶錄《My Child, the Algorithm》中以 EleutherAI 的 GPT-J 與自己的文字並置（AI 文以斜體標示），探討單身母親育兒、約會與感情。
她調整模型的 temperature（高溫讓回答偏離常見路徑）並親自挑選；她認為近年商用 chatbot 的「安全與無害」訓練讓它變得「平庸無聊」，模型「卡住、重複某句」反而成為最具創意的時刻。

Silva 期望 AI 觸發創意革命：當 AI 讓平庸體裁與衍生小說滿地走時，讀者反而會更珍惜真正具挑戰性的文學與新形式。

音樂：Ed Newton-Rex#

科技創業家兼作曲家 Ed Newton-Rex 用 GPT-3 寫合唱與鋼琴曲〈I stand in the library〉的歌詞。
他自己作曲；GPT-3 的「鋼琴」字眼啟發了他第一次為鋼琴與人聲寫曲。

視覺藝術：Daniel Ambrosi#

攝影師 Ambrosi 自 2016 年起以 Google DeepDream（2015 年由 Alexander Mordvintsev 發明）改造他的「計算攝影（computational photography）」全景作品。
DeepDream 的概念是：「不論你在那一層神經元看到什麼，多給我一點！」低層強化線條與色彩，高層強化建築、五官等特徵。
Ambrosi 為 18 世紀景觀建築師 Capability Brown 的英式花園作品，挑選會把樹皮、石材轉成孔雀羽毛狀馬賽克的層；後製、印在類紡織畫布上，搭配 LED 燈箱呈現超現實感。

Ambrosi 的核心觀點：「這些工具是惰性的，沒有意識也沒有動機。是人帶著想法在驅動它們、選擇它們的產出。」
他預測 AI 對純藝術市場衝擊不大；商業插畫家與攝影師會受重創，但這是技術進步的必然。
反而，人文系畢業生——熟悉藝術史、知道如何策展、懂得區別偉大與平庸的作品——將大有用武之地，「他們可能從未拿過畫筆，但他們有深厚的藝術史知識，現在他們有工具能打造驚豔之作。」

對身障創作者的開放#

美國畫家 Chuck Close 因脊髓損傷半身癱瘓，後來把畫筆綁在手腕上作畫。今日，全身癱瘓者可用語音、眼動或舌動裝置「口述」出美麗的畫作。

一切，無處不在，同時發生#

來自宿舍的奧斯卡#

五年內可能成真：紐約大學一位學生 Emma Hoffman 在宿舍以 AI 製作星際愛情喜劇《Star Crossed》，沒有劇組、沒有演員，登上奧斯卡最佳導演領獎台。

生成式 AI 將大幅降低影音製作成本，讓無正式訓練者也能拍出有觀眾的作品。

三類受益者#

新一代創作者：能創作有市場潛力的作品；但和今天的社群創作者一樣，可能仰賴 TikTok、Meta、Apple、微軟、OpenAI 等控制的推薦或個人 AI 助理才能觸及觀眾。
大型 IP 持有者：音樂廠牌、好萊塢工作室、攝影代理、出版社、博物館。他們的資料正是 AI 公司渴求並終將付費購買的訓練素材。
既有明星與暢銷者：他們的名氣與作品庫前所未有地值錢。

Meta 已付數百萬美元給 Paris Hilton、Tom Brady、MrBeast、Snoop Dogg 創建以他們化身的 chatbot；James Earl Jones 把聲音永久授權給 Disney；AI 復活約翰·藍儂的聲音用於最後一首披頭四歌曲；Grimes 用 AI 複製自己的嗓音並開放他人使用——只要分潤即可。
《經濟學人》以「全方位明星（omnistar）」為封面命名這個現象。

真正受傷最深的是「中段商業創作者」——能維持生計但沒到明星地位。AI 公司不會願意為他們的作品付太多錢；多數人甚至沒在談判桌上，因為他們早已把肖像、聲音、影片的權利賣給遊戲公司、出版社、廠牌或工作室。
視覺藝術家 Karla Ortiz 在好萊塢與遊戲業工作多年，正帶領藝術家組織起來，不只控告 AI 公司侵權，更要求公平補償。

愛與盜竊#

訓練資料的灰色地帶#

藝術與「偷竊」的關係很長：

Picasso 名言（雖然出處可疑）：「好藝術家借，偉大藝術家偷」。
David Bowie：「我唯一研究的藝術，是我能從中偷的東西。」

今日最受歡迎的生成式 AI 模型，在未經同意下吃下大量受版權保護的素材；經適當提示，它們能近乎一字一句地吐出原作。

幾組可被檢視的訓練資料：

GPT-3 的 Common Crawl：抓自網路的大量網頁，含巨量受版權內容；GPT-4 訓練組成不公開。
Books3 含 17 萬本書的全文，多為近 20 年內出版的版權書，包括 Stephen King、James Patterson、Zadie Smith、Jonathan Franzen、村上春樹、Margaret Atwood——Meta Llama、EleutherAI GPT-J、Bloomberg 早期 BloombergGPT 等都用過。
LAION 5-B 訓練 Stable Diffusion 等文字生圖模型，含 Damien Hirst、Kehinde Wiley 等知名與不知名藝術家的版權影像。
音樂生成器同樣訓練於版權歌曲。

美國法院正審理多起里程碑案件；美國版權局也在審視是否需要新法。

不公平的「合理使用」#

哈佛法學者 Benjamin Sobel 在 2017 年的影響力論文中指出：合理使用（fair use）原本建立於分配正義之上——通常用來把權力從巨頭手中轉移到小人物。
但 AI 翻轉了這個方向：受侵害的多是中小型藝術家，受惠者卻是世界上最大的科技公司與資金充裕的新創。
這不是合理使用，而是不公平使用。

前美國 RIAA 高層 Neil Turkewitz 提出更廣的反思：社群媒體時代我們犯了大錯——讓自己的數位身份（照片、故事、社交、工作經歷、醫療紀錄）被科技巨頭收割。AI 時代不該再犯同樣錯誤；他主張「自由給予的明確同意（freely granted consent）」應放在新世界的中心。

各國立場：

Stanford 的 Mark Lemley：應立法建立「fair learning」權利讓 AI 在版權內容上訓練；要求 AI 公司逐筆取得授權不切實際，會扼殺美國創新。
支持藝術家者：應立法明確禁止未同意使用版權素材訓練 AI。
台灣、以色列、新加坡、南韓、英國、歐盟：已有資料探勘版權豁免，但多在 ChatGPT 出現之前訂立，是否涵蓋生成式 AI 仍有爭議。
日本：在容許生成式 AI 訓練於版權作品上走得最遠。
美國版權局目前立場：純 AI 產出不能登記著作權，僅人類創作者作品受保護。

作者立場：禁用版權素材訓練 AI 多半不切實際；美國應跟進「fair learning」式立法，但同時對 AI 模型徵收費用設立基金，由權利人按版權作品申領（仿 1992 年《Audio Home Recording Act》），免去個別協商。
但若 AI 產出明確模仿某位藝術家以圖商業利益，仍應取得本人同意。
如果人類創作者與 AI 進行廣泛合作完成作品，著作權保障也應擴及這類情境。

對網路豎起圍牆#

立法緩慢，權利人已自行豎起數位圍牆：

許多新聞機構封鎖 OpenAI 等已知爬蟲；某些防護手段同時也阻擋 Google 索引。
電商網站普遍使用 CAPTCHA。

Glaze 與 Nightshade：藝術家的自衛#

芝加哥大學 Ben Zhao 教授開發 AI 工具 Glaze：對藝術家上傳的圖像做人眼幾乎察覺不到的微調，讓 AI 把它「分類錯誤」（例如把炭筆素描歸成抽象表現主義繪畫）。
比喻：Glaze 像「替牛烙印」——小偷仍能偷牛，但牠難以被銷贓。Glaze 已被下載超過 150 萬次，藝術學校也開始教學生使用。

進一步，Nightshade 不只迷惑單一作者的作品，還會「毒害整個模型」——吃進越多 Nightshade 圖像，模型對各種物件與風格的回應就越亂。「比起烙印，Nightshade 像是把鈾-235 藏進牛裡。」

即便法院或立法機構建立「fair learning」標準，這類數位反竊技術加上版權疑慮，將在很短的時間內把科技公司逼回授權談判桌。免費資料的時代結束了。

走向人馬獸藝術#

作家 Chowdhury、Silva、音樂家 Newton-Rex、藝術家 Ambrosi 的實驗共同證明：我們對生成式 AI 不必如某些批評者所言絕望。
AI 無法真正創作藝術，那需要人類的意圖、內在動機、情感與親身經驗；但 AI 在許多面向仍是有用的合作者——這就是「人馬獸藝術（centaur art）」，借自西洋棋裡人類選手可諮詢軟體的「centaur chess」。

我們離藝術新文藝復興或許還遠，但離「不真誠與拼貼的新黑暗時代」也很遠。拼貼、混音、致敬、混搭已盛行超過一個世紀，並未消滅新風格的誕生。
油畫、相機、電子合成器各自帶來新的藝術表達——AI 將延續這個循環，而非為它畫上句號。