AI 把「點子」與「執行」徹底分開#
人類數千年以來,創作藝術需要「多元的心智與肢體能力」交織:認知智能、敏銳的感知(色彩眼、音感)、情感智能,以及與運動員相當的動覺智能。
- 攝影是分離點子與技藝的第一道刀痕。哲學家 Walter Benjamin 寫道:「攝影第一次把手從藝術功能中解放出來——這些功能此後只交付給注視鏡頭的眼睛。」
- 從 GarageBand、Photoshop 到第一代 Deepfake,軟體一步步抽走藝術中的人類技藝。即便如此,受過訓練的人仍能用工具走得更遠(David Hockney 在 iPad 上做的,遠不是你我能做的)。
生成式 AI 把這條趨勢推到極致——心眼裡有畫面就夠了,技藝幾乎完全被外包。AI 比過去任何技術都更把「概念」推上創造價值鏈的頂端。
各種型態都被觸及:
- 圖像:DALL-E、Midjourney、Stable Diffusion 等以文字生圖。
- 音樂:Google MusicLM、Stability AI Stable Audio、OpenAI Jukebox。
- 影片:Runway Gen-2、OpenAI Sora。
- 文學:GPT-4、Claude 寫短篇小說與詩。
兩股交錯的影響:
- 創作大爆發:更多人能做藝術。
- 權力反而更集中:握有策展、發行與行銷管道者的話語權變大;要從垃圾堆中撈到金子更難。
但作者堅持:AI 是合作者,不是替代者。雕塑、陶藝、玻璃、建築、劇場、現場演出等有實體性的藝術,AI 反而會抬升其價值;前衛藝術也是 AI 難以複製的領域。
Altman 方程式:創意只是重組?#
2023 年底,Sam Altman 在 X 發文:「所有『創意』都是過去事物的混音,加上一個 epsilon,再乘以回饋迴路品質與迭代次數。多數人以為要最大化 epsilon,但訣竅是最大化另外兩項。」
這個說法被許多藝術家批評為矽谷式的偽數學化約論,但它的核心並不原創:
- Stanford 神經科學家 David Eagleman 與作曲家 Anthony Brandt 主張:所有創意都可化約為對既有事物的三種操作——「彎曲(bend)、混合(blend)、打破(break)」。
- 大腦只能改變「它已知的事物」;發明從不從無中生有。
- 小說家 Michael Chabon 在紀錄片中直言:「獨創性是胡扯(Originality is bunk)」。
AI 擅長「彎曲」與「混合」#
- 多數生成式 AI 用歷史資料訓練,本質上是在已知資料點之間「內插(interpolation)」——像填色本上連線著色。
- 「視覺風格遷移」是典型例子:把紐約街景畫成梵谷《星夜》、把人臉畫成日漫角色或哥德反派。
- Norman Rockwell 借用 Michelangelo 西斯汀禮拜堂的姿勢來刻畫 Rosie the Riveter——AI 在正確 prompt 下能做出類似的「借用」(但靈感仍須來自人腦)。
- LLM 在 J. P. Guilford 的 Alternative Uses Test(AUT) 創意測試上表現亮眼:2023 年研究顯示 GPT-4 創意分超過 91% 的人類,並在 Torrance 創意思考測驗 得到 99 百分位。
打破:AI 過不去的關卡#
為什麼 AI 不擅長「打破」#
打破(breaking) 牽涉把整體拆出、重新放置——文學上的提喻(synecdoche,例如以「車輪」代汽車、以「西裝」代商務人士),或巴赫《D 大調賦格》中先呈現主題、再剝下最後四個音符做為全曲動機,都是打破。
問題的根源:
- 打破不是「內插」,而是「外推(extrapolation)」——把資料點投射到訓練分布之外。AI 在外推上嚴重不擅長。
- 打破還需要理解「整體與其組成部分」——認知心理學上稱為「組合性(compositionality)」,這是當前深度學習依然欠缺的。
Broken Obelisk 的實驗#
- 作者試圖用 Midjourney(甚至直接給名字)重現 Barnett Newman 的雕塑《Broken Obelisk》——一個被水平撕裂、倒過來尖端朝下立在金字塔尖上的方尖碑。
- 不論怎麼下指令,Midjourney 都做不出。OpenAI DALL-E 也失敗。
- 訓練資料中根本沒有「倒立的方尖碑」這種畫面;模型也不理解「方尖碑」是什麼,無法決定哪些元素該倒、哪些該保留。
- 嘗試讓 DALL-E 倒置方尖碑,連底下的地面也跟著翻過來,造出「上下都是地」的怪圖。
- DALL-E 3 即使被多種方式要求「沒有鬍子的男畫家」,也畫不出來——在它的世界觀裡,「鬍子與小鬍子」是「畫家」概念不可分割的一部分。
偏向統計眾數#
生成式 AI 以「逼近訓練資料分布的眾數」為目標,本質上反慣例的能力極差。
一個衝擊性的例子(將在第 11 章再談):Midjourney 被要求畫「一名黑人非洲醫師照顧白人受苦兒童」,300 次嘗試裡有 299 次畫成白人醫師照顧黑人兒童——訓練資料裡黑人醫師照顧白人兒童的圖像太少。
LLM 寫作也類似:被訓練去找「下一個最可能的字」,但好寫作往往來自「下一個不太可能、但仍保住意義的字」。Columbia 與 Salesforce 的研究讓專家盲評:以《紐約客》短篇為起頭,AI 接續的版本全都遜於原作——比喻陳腔濫調、對話缺潛台詞、結局乏善可陳。
替代路線:CAN 與 MuZero#
Rutgers 教授 Ahmed Elgammal 開發「創意對抗網路(creative adversarial network, CAN)」:一個生成器加一個能識別「是不是藝術 / 屬何流派」的鑑別器,再加上一個「風格模糊(style ambiguity)」函數——強迫生成器產出仍像藝術、卻分不出風格的圖。
結果是高度抽象的圖像。但這也預設了「只有抽象才是真原創」,這個前提可疑。
DeepMind 的 MuZero 從零知識起步,自我對弈圍棋、西洋棋等完全資訊雙人遊戲,達到超人水準後甚至發明了從未見過的策略。它代表「真正的轉化性創意」——但這只在「有清晰獎勵訊號(贏棋)」、「有限行動空間(棋盤與規則)」的場景下可行。藝術沒有這種獎勵訊號,且行動空間是整個宇宙。
我們可請大眾為 AI 生成圖投票來當獎勵訊號,但這不是真正的藝術家在做的事。梵谷生前賣出寥寥幾幅;梅爾維爾的《白鯨記》在世時只賣出 3000 本。真正的藝術家依的是內在信念,而非外在回饋。
但這是藝術嗎?#
佳士得拍賣 Edmond de Belamy#
- 2018 年 10 月 25 日,巴黎藝術團體 Obvious Art 用 AI 生成的肖像〈Portrait of Edmond de Belamy〉在紐約佳士得拍賣,七分鐘內以 432,500 美元 成交,超過初估價 43 倍——簽名是一道數學公式。
- 短短幾年內,AI 生成藝術變得普遍,將不再是新聞。
兩種對立的判準#
問題是:AI 的產出算不算藝術?
- 觀者本位(圖靈式):若觀眾分不出(或不在乎)AI 與人作品的差別,那就是藝術。Elgammal 用 CAN 做的測試也得到類似結論——多數專家覺得它「新穎、好看、難辨真偽」。
- 創作者意圖本位:搖滾歌手 Nick Cave 強烈反對 AI 生成歌,「歌出於苦難,演算法不會感受、資料不會受苦。ChatGPT 沒有內在存在,沒有去過任何地方、沒有忍受過任何事,因此沒有能力分享一段超越的經驗,因為它根本沒有可超越的限制。」即使人類用 LLM 當工具,他也認為這是「捷徑」、不算藝術。
杜象的 Fountain 作為反證#
Cave 的定義太苛。1917 年 Marcel Duchamp(或代為提交的人)的「現成物(ready-made)」Fountain——一個簽上 R. Mutt 的小便斗——也沒有「製作的勞動」,但所有人都同意它是藝術。
「勞苦」全在概念與選擇上:選哪個小便斗、用哪個假名、何時提交。Edmond de Belamy 也類似:選哪種 AI 方法、餵哪些歷史影像、選哪張產出、如何題款。
Walter Benjamin 的 aura#
Benjamin 論攝影與石版畫對視覺藝術的影響時提出「靈光(aura)」概念——藝術品與其創作行為、目的、展示地點的獨特連結。複製品稀釋了複本的 aura,卻強化了原作的 aura。
看羅浮宮的《蒙娜麗莎》仍然人潮洶湧,正是這個現象的當代驗證。
AI 將提升有實體性的藝術——畫廊裡的畫、雕塑、現場音樂——的相對價值。AI 無法複製演出者與觀眾之間的連結(即使是 ABBA 在倫敦《Voyage》以數位化身重現的演出,也仍是「現場感」的延伸)。
純數位的藝術挑戰更大;NFT 等以加密簽名認證唯一性的技術,可能因此復興。
AI 與人類的合作藝術#
文學:Ajay Chowdhury 與 Hannah Silva#
- 英國犯罪小說家 Ajay Chowdhury 把 ChatGPT 當腦力激盪夥伴:當主角被鎖在小屋脫身的橋段卡關時,ChatGPT 提出主角拿小屋裡的工具拆掉小屋本身——他原本沒想到的點子。
- 他不讓它寫散文,也只用它構思故事。改編兒童書成圖像小說時,請 ChatGPT 製作 storyboard,包含「閃回蒙太奇」與不同鏡位描述。
- 詩人 Hannah Silva 在實驗回憶錄《My Child, the Algorithm》中以 EleutherAI 的 GPT-J 與自己的文字並置(AI 文以斜體標示),探討單身母親育兒、約會與感情。
- 她調整模型的 temperature(高溫讓回答偏離常見路徑)並親自挑選;她認為近年商用 chatbot 的「安全與無害」訓練讓它變得「平庸無聊」,模型「卡住、重複某句」反而成為最具創意的時刻。
Silva 期望 AI 觸發創意革命:當 AI 讓平庸體裁與衍生小說滿地走時,讀者反而會更珍惜真正具挑戰性的文學與新形式。
音樂:Ed Newton-Rex#
- 科技創業家兼作曲家 Ed Newton-Rex 用 GPT-3 寫合唱與鋼琴曲〈I stand in the library〉的歌詞。
- 他自己作曲;GPT-3 的「鋼琴」字眼啟發了他第一次為鋼琴與人聲寫曲。
視覺藝術:Daniel Ambrosi#
- 攝影師 Ambrosi 自 2016 年起以 Google DeepDream(2015 年由 Alexander Mordvintsev 發明)改造他的「計算攝影(computational photography)」全景作品。
- DeepDream 的概念是:「不論你在那一層神經元看到什麼,多給我一點!」低層強化線條與色彩,高層強化建築、五官等特徵。
- Ambrosi 為 18 世紀景觀建築師 Capability Brown 的英式花園作品,挑選會把樹皮、石材轉成孔雀羽毛狀馬賽克的層;後製、印在類紡織畫布上,搭配 LED 燈箱呈現超現實感。
Ambrosi 的核心觀點:「這些工具是惰性的,沒有意識也沒有動機。是人帶著想法在驅動它們、選擇它們的產出。」
他預測 AI 對純藝術市場衝擊不大;商業插畫家與攝影師會受重創,但這是技術進步的必然。
反而,人文系畢業生——熟悉藝術史、知道如何策展、懂得區別偉大與平庸的作品——將大有用武之地,「他們可能從未拿過畫筆,但他們有深厚的藝術史知識,現在他們有工具能打造驚豔之作。」
對身障創作者的開放#
美國畫家 Chuck Close 因脊髓損傷半身癱瘓,後來把畫筆綁在手腕上作畫。今日,全身癱瘓者可用語音、眼動或舌動裝置「口述」出美麗的畫作。
一切,無處不在,同時發生#
來自宿舍的奧斯卡#
五年內可能成真:紐約大學一位學生 Emma Hoffman 在宿舍以 AI 製作星際愛情喜劇《Star Crossed》,沒有劇組、沒有演員,登上奧斯卡最佳導演領獎台。
生成式 AI 將大幅降低影音製作成本,讓無正式訓練者也能拍出有觀眾的作品。
三類受益者#
- 新一代創作者:能創作有市場潛力的作品;但和今天的社群創作者一樣,可能仰賴 TikTok、Meta、Apple、微軟、OpenAI 等控制的推薦或個人 AI 助理才能觸及觀眾。
- 大型 IP 持有者:音樂廠牌、好萊塢工作室、攝影代理、出版社、博物館。他們的資料正是 AI 公司渴求並終將付費購買的訓練素材。
- 既有明星與暢銷者:他們的名氣與作品庫前所未有地值錢。
Meta 已付數百萬美元給 Paris Hilton、Tom Brady、MrBeast、Snoop Dogg 創建以他們化身的 chatbot;James Earl Jones 把聲音永久授權給 Disney;AI 復活約翰·藍儂的聲音用於最後一首披頭四歌曲;Grimes 用 AI 複製自己的嗓音並開放他人使用——只要分潤即可。
《經濟學人》以「全方位明星(omnistar)」為封面命名這個現象。
真正受傷最深的是「中段商業創作者」——能維持生計但沒到明星地位。AI 公司不會願意為他們的作品付太多錢;多數人甚至沒在談判桌上,因為他們早已把肖像、聲音、影片的權利賣給遊戲公司、出版社、廠牌或工作室。
視覺藝術家 Karla Ortiz 在好萊塢與遊戲業工作多年,正帶領藝術家組織起來,不只控告 AI 公司侵權,更要求公平補償。
愛與盜竊#
訓練資料的灰色地帶#
藝術與「偷竊」的關係很長:
- Picasso 名言(雖然出處可疑):「好藝術家借,偉大藝術家偷」。
- David Bowie:「我唯一研究的藝術,是我能從中偷的東西。」
今日最受歡迎的生成式 AI 模型,在未經同意下吃下大量受版權保護的素材;經適當提示,它們能近乎一字一句地吐出原作。
幾組可被檢視的訓練資料:
- GPT-3 的 Common Crawl:抓自網路的大量網頁,含巨量受版權內容;GPT-4 訓練組成不公開。
- Books3 含 17 萬本書的全文,多為近 20 年內出版的版權書,包括 Stephen King、James Patterson、Zadie Smith、Jonathan Franzen、村上春樹、Margaret Atwood——Meta Llama、EleutherAI GPT-J、Bloomberg 早期 BloombergGPT 等都用過。
- LAION 5-B 訓練 Stable Diffusion 等文字生圖模型,含 Damien Hirst、Kehinde Wiley 等知名與不知名藝術家的版權影像。
- 音樂生成器同樣訓練於版權歌曲。
美國法院正審理多起里程碑案件;美國版權局也在審視是否需要新法。
不公平的「合理使用」#
哈佛法學者 Benjamin Sobel 在 2017 年的影響力論文中指出:合理使用(fair use)原本建立於分配正義之上——通常用來把權力從巨頭手中轉移到小人物。
但 AI 翻轉了這個方向:受侵害的多是中小型藝術家,受惠者卻是世界上最大的科技公司與資金充裕的新創。
這不是合理使用,而是不公平使用。
前美國 RIAA 高層 Neil Turkewitz 提出更廣的反思:社群媒體時代我們犯了大錯——讓自己的數位身份(照片、故事、社交、工作經歷、醫療紀錄)被科技巨頭收割。AI 時代不該再犯同樣錯誤;他主張「自由給予的明確同意(freely granted consent)」應放在新世界的中心。
各國立場:
- Stanford 的 Mark Lemley:應立法建立「fair learning」權利讓 AI 在版權內容上訓練;要求 AI 公司逐筆取得授權不切實際,會扼殺美國創新。
- 支持藝術家者:應立法明確禁止未同意使用版權素材訓練 AI。
- 台灣、以色列、新加坡、南韓、英國、歐盟:已有資料探勘版權豁免,但多在 ChatGPT 出現之前訂立,是否涵蓋生成式 AI 仍有爭議。
- 日本:在容許生成式 AI 訓練於版權作品上走得最遠。
- 美國版權局目前立場:純 AI 產出不能登記著作權,僅人類創作者作品受保護。
作者立場:禁用版權素材訓練 AI 多半不切實際;美國應跟進「fair learning」式立法,但同時對 AI 模型徵收費用設立基金,由權利人按版權作品申領(仿 1992 年《Audio Home Recording Act》),免去個別協商。
但若 AI 產出明確模仿某位藝術家以圖商業利益,仍應取得本人同意。
如果人類創作者與 AI 進行廣泛合作完成作品,著作權保障也應擴及這類情境。
對網路豎起圍牆#
立法緩慢,權利人已自行豎起數位圍牆:
- 許多新聞機構封鎖 OpenAI 等已知爬蟲;某些防護手段同時也阻擋 Google 索引。
- 電商網站普遍使用 CAPTCHA。
Glaze 與 Nightshade:藝術家的自衛#
芝加哥大學 Ben Zhao 教授開發 AI 工具 Glaze:對藝術家上傳的圖像做人眼幾乎察覺不到的微調,讓 AI 把它「分類錯誤」(例如把炭筆素描歸成抽象表現主義繪畫)。
比喻:Glaze 像「替牛烙印」——小偷仍能偷牛,但牠難以被銷贓。Glaze 已被下載超過 150 萬次,藝術學校也開始教學生使用。
進一步,Nightshade 不只迷惑單一作者的作品,還會「毒害整個模型」——吃進越多 Nightshade 圖像,模型對各種物件與風格的回應就越亂。「比起烙印,Nightshade 像是把鈾-235 藏進牛裡。」
即便法院或立法機構建立「fair learning」標準,這類數位反竊技術加上版權疑慮,將在很短的時間內把科技公司逼回授權談判桌。免費資料的時代結束了。
走向人馬獸藝術#
作家 Chowdhury、Silva、音樂家 Newton-Rex、藝術家 Ambrosi 的實驗共同證明:我們對生成式 AI 不必如某些批評者所言絕望。
AI 無法真正創作藝術,那需要人類的意圖、內在動機、情感與親身經驗;但 AI 在許多面向仍是有用的合作者——這就是「人馬獸藝術(centaur art)」,借自西洋棋裡人類選手可諮詢軟體的「centaur chess」。
我們離藝術新文藝復興或許還遠,但離「不真誠與拼貼的新黑暗時代」也很遠。拼貼、混音、致敬、混搭已盛行超過一個世紀,並未消滅新風格的誕生。
油畫、相機、電子合成器各自帶來新的藝術表達——AI 將延續這個循環,而非為它畫上句號。