欧美天堂久久_四虎一区二区成人免费影院网址_口工里番h本无遮拦全彩_99久久精品国产高清一区二区_伊人久久大香线蕉综合5g

您現(xiàn)在的位置:首頁 > 科技 > 正文

從畫筆到像素:一文讀懂AI繪畫的前世與今生

時(shí)間:2023-03-23 10:44:18    來源:科普中國網(wǎng)    

關(guān)于 AI 繪畫,你需要知道的一些事。

上周,備受期待的 Midjourney V5AI 藝術(shù)生成器正式發(fā)布,再次改變了 AI 驅(qū)動(dòng)的藝術(shù)創(chuàng)作世界。它擁有顯著增強(qiáng)的圖像質(zhì)量、更多樣化的輸出、更廣泛的風(fēng)格范圍,以及對(duì)無縫紋理的支持、更寬的寬高比、改進(jìn)的圖像提示、擴(kuò)展的動(dòng)態(tài)范圍等。

下圖是以“埃隆·馬斯克介紹特斯拉,90 年代的商業(yè)廣告”為 prompt(提示),分別用 Midjourney V4 和 Midjourney V5 生成的圖像。


(資料圖片僅供參考)

此次滿足人們期待的是,Midjourney V5 帶來了更逼真的圖片生成效果,更有表現(xiàn)力的角度或場景概述,以及終于畫對(duì)的“手”。曾經(jīng)在 AI 繪畫界廣泛流傳的一個(gè)笑話是,“永遠(yuǎn)不要問一個(gè)女人的年齡或一個(gè) AI 模型為什么要把手藏起來?!?/strong>

這是因?yàn)?,AI 藝術(shù)生成器是“畫手困難戶”,盡管它們可以掌握視覺模式,但不能掌握潛在的生物邏輯。換句話說,AI 藝術(shù)生成器可以計(jì)算出手有手指,但很難知道一個(gè)人的一只手正常應(yīng)該只有 5 個(gè)手指,或者這些手指之間應(yīng)該具有固定關(guān)系的設(shè)定長度。

在過去的一年里,AI 藝術(shù)生成器無法正確渲染手的 “缺陷” 已經(jīng)成為一種文化修辭。手部問題在一定程度上與 AI 藝術(shù)生成器從它們接受訓(xùn)練的大量圖像數(shù)據(jù)集中推斷信息的能力有關(guān)。

值得注意的是,Midjourney V5 可以很好地生成逼真的人手。大多時(shí),手是正確的,一只手有 5 個(gè)手指,而不是 7-10 個(gè)。

Midjourney V5 的發(fā)布,引起了全球用戶更廣泛的興趣激增,巨大流量的涌入使得 Midjourney 服務(wù)器短時(shí)間崩潰,進(jìn)而導(dǎo)致眾多用戶無法訪問。除此之外,OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等 “文生圖” 模型此前也是業(yè)內(nèi)討論的熱門對(duì)象

當(dāng)人們向這些 “文生圖” 模型中輸入任何文本后,它們就可以生成與該描述相匹配的、較為準(zhǔn)確的圖片,生成的圖片可以被設(shè)定為任意風(fēng)格,如油畫、CGI 渲染、照片等,在很多情況下,唯一的限制來自人類的想象力。

前世:一場從DeepDream開始的夢

2018 年,第一幅由 AI 生成的肖像《Edmond de Belamy》問世,它由生成對(duì)抗網(wǎng)絡(luò)(GAN)創(chuàng)建,是 Obvious Art 的 “La Famille de Belamy” 系列的一部分,最終在佳士得藝術(shù)品拍賣會(huì)上以 432500 美元成交。

2022 年,Jason Allen 的 AI 創(chuàng)作作品《Théatre D’opéra Spatial》在科羅拉多州博覽會(huì)的年度藝術(shù)競賽中獲得了第一名。

近些年,各類 “文生圖” 模型也在人們的期待中紛紛登場。當(dāng)神經(jīng)網(wǎng)絡(luò)在圖像處理方面取得了一定的成果后,研究人員們便開始開發(fā)一些可視化技術(shù),以更好地了解這些神經(jīng)網(wǎng)絡(luò)是如何看待世界并進(jìn)行分類的,由此塑造了一個(gè)又一個(gè) “文生圖” 模型。

DeepDream根據(jù)神經(jīng)網(wǎng)絡(luò)學(xué)到的表征來生成圖像,在獲取輸入圖像后,通過反向運(yùn)行經(jīng)過訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN),并試圖通過應(yīng)用梯度上升來最大化整個(gè)層的激活。下圖(左)顯示了原始輸入圖像及其 DeepDream 輸出。

令人驚訝的是,輸出圖像中包含了許多動(dòng)物的面部和眼睛,這是因?yàn)?DeepDream 使用了 ImageNet 數(shù)據(jù)庫(不同犬種和鳥類的例子)來訓(xùn)練。對(duì)于一些人來說,DeepDream 生成的圖像類似于夢境般的迷幻體驗(yàn)。但即便如此,DeepDream 加速了人們將 AI 作為藝術(shù)圖像創(chuàng)作的工具的工作。

Neural Style Transfer是一種基于深度學(xué)習(xí)的技術(shù),能夠將一張圖像的內(nèi)容與另一圖像的風(fēng)格相結(jié)合,如上圖(右),將梵高的《星夜》應(yīng)用于目標(biāo)圖像。Neural Style Transfer 重新定義了 CNN 中的損失函數(shù)來實(shí)現(xiàn)——通過 CNN 的高層激活保留目標(biāo)圖像,以及多層激活來捕捉其他圖像的風(fēng)格。由此,輸出的圖像將保留輸入圖像的風(fēng)格與內(nèi)容。

2017 年,Wei Ren Tan 等人提出了模型 “ArtGAN”,盡管其輸出的圖像看起來完全不像是畫家的作品,但仍舊捕捉到了藝術(shù)品的低階特征。由此,ArtGAN 激發(fā)了更多研究者使用 GAN 生成藝術(shù)圖像的興趣。

不久之后,Ahmed Elgammal 等人提出創(chuàng)造性對(duì)抗性神經(jīng)網(wǎng)絡(luò) “CAN”,以訓(xùn)練 GAN 生成被鑒別者視為藝術(shù)但不符合任何現(xiàn)有藝術(shù)風(fēng)格的圖像。由 CAN 產(chǎn)生的圖像看起來大多像一幅抽象畫,給人一種獨(dú)特的感覺。

2017 年,Phillip Isola 等人創(chuàng)建了條件型 GAN,即 pix2pix,接收輸入圖像后生成一個(gè)轉(zhuǎn)換版本。例如,在現(xiàn)實(shí)生活中,假設(shè)有一個(gè) RGB 圖像,我們可以輕松將其轉(zhuǎn)換為 BW (黑白二值圖像)版本。但若想要把 BW 圖像變成彩色圖像,依靠手動(dòng)上色就很耗時(shí)。pix2pix 則可以自動(dòng)完成這一過程,并應(yīng)用于任何圖像對(duì)的數(shù)據(jù)集,而不需要調(diào)整訓(xùn)練過程或損失函數(shù)。

pix2pix 是生成式 AI 的一個(gè)重大突破,但它需要相應(yīng)的圖像對(duì)來進(jìn)行訓(xùn)練,而這并不適用于所有應(yīng)用。例如,如果沒有為莫奈創(chuàng)作的每一幅畫提供相應(yīng)的照片,pix2pix 就無法將輸入轉(zhuǎn)換為莫奈繪畫。

為此,Jun-Yan Zhu、Taesung Park 等人提出了 “CycleGAN”,通過組合兩個(gè)條件型 GAN 和它們之間的 “循環(huán)” 來擴(kuò)展 pix2pix,這一模型可以將圖像轉(zhuǎn)換為其他模態(tài),而無需在訓(xùn)練集中看到成對(duì)圖像。

今生:Transformer 和 Diffusion 之爭

重大的轉(zhuǎn)折發(fā)生在 2021 年,一些 “文生圖” 模型紛紛降臨。OpenAI 發(fā)布了 DALL·E——以 Pixar 的動(dòng)畫片《Wall-E》和超現(xiàn)實(shí)主義畫家 Salvador Dali 命名。DALL·E 結(jié)合了學(xué)習(xí)將圖像映射到低維標(biāo)記的離散變分自動(dòng)編碼(dVAE)和自回歸建模文本和圖像標(biāo)記的 Transformer 模型。輸入給定的文本,DALL·E 可以預(yù)測圖像標(biāo)記,并在推斷過程中將其解碼為圖像。

DALL·E 還可以將其單獨(dú)學(xué)習(xí)但從未在單個(gè)生成的圖像中看到的概念組合在一起。例如,在訓(xùn)練集中有機(jī)器人和龍的插圖,沒有龍形機(jī)器人。當(dāng)被提示 “機(jī)器人龍” 時(shí),模型仍可以產(chǎn)生對(duì)應(yīng)的圖像。

然而,雖然 DALL·E 可以很好地生成漫畫和具有藝術(shù)風(fēng)格的圖像,但無法準(zhǔn)確地生成逼真的照片。因此,OpenAI 投入了大量資源來創(chuàng)建改進(jìn)的文生圖模型——DALL·E 2。

DALL·E 2 使用 CLIP(圖像文本對(duì)的數(shù)據(jù)集)文本編碼器。DALL·E 2 中利用了文本描述和圖像之間的關(guān)系,為 Diffusion 模型提供了一種嵌入,反映了文本輸入且更適合于圖像生成。與 DALL·E 相比,DALL·E 2提高了圖像的質(zhì)量,并且還允許用戶擴(kuò)展現(xiàn)有圖像或計(jì)算機(jī)生成的圖像的背景。例如,把一些名作中的人物放置在自定義的背景之中。

不久之后,谷歌發(fā)布了名為Imagen 的文生圖模型。這一模型使用 NLP 模型 T5-XXL 的預(yù)訓(xùn)練編碼器,其嵌入被反饋送至 Diffusion 模型。因此,這一模型能夠更準(zhǔn)確地生成包含文本的圖像(這是 OpenAI 的模型難以解決的問題)。

然而,在 “文生圖” 領(lǐng)域最大的革命可能是 Stability AI 公司發(fā)布的完全開放源代碼的 Stable Diffusion。Stable Diffusion 的計(jì)算效率遠(yuǎn)高于其他文生圖模型,以前的文生圖模型需要數(shù)百天 GPU 計(jì)算,Stable Diffusion 需要的計(jì)算量要小得多,因此資源不足的人更容易接受。它還允許用戶通過圖像與圖像之間的轉(zhuǎn)換(如將素描變成數(shù)字藝術(shù))或繪畫(在現(xiàn)有圖像中刪除或添加一些東西)來修改現(xiàn)有的圖像。

深度學(xué)習(xí)及其圖像處理應(yīng)用現(xiàn)在處于與幾年前完全不同的階段。在上世紀(jì)初,深度神經(jīng)網(wǎng)絡(luò)能夠?qū)ψ匀粓D像進(jìn)行分類是開創(chuàng)性的。如今,這些里程碑式的模型或是采用 Transformer 或是基于 Diffusion 模型,能夠基于簡單的文本提示生成高度逼真和復(fù)雜的圖像,使得 “文生圖” 領(lǐng)域大放異彩,成為藝術(shù)界的一只新畫筆

“威脅” or “共生”,人類畫家何去何從

AI artist 自誕生起就飽受爭議,版權(quán)糾紛、輸出錯(cuò)誤信息、算法偏見等等,讓“文生圖”應(yīng)用一次又一次站在了風(fēng)口浪尖。例如,今年 1 月,三位藝術(shù)家對(duì) Stable Diffusion 和 Midjourney 的創(chuàng)建者 Stability AI 和 Midjourney 以及 DreamUp 的藝術(shù)家組合平臺(tái) DeviantArt 提起了訴訟。他們聲稱,這些組織侵犯了 “數(shù)百萬藝術(shù)家” 的權(quán)利,在 “未經(jīng)原創(chuàng)藝術(shù)家同意” 的情況下,用從網(wǎng)絡(luò)上抓取的 50 億張圖片來訓(xùn)練 AI 模型。

藝術(shù)家們大多很害怕自己會(huì)被機(jī)器人取代,因 AI 模仿其獨(dú)特風(fēng)格的模型而失去生計(jì)。在去年 12 月,數(shù)百名藝術(shù)家向互聯(lián)網(wǎng)上最大的藝術(shù)社區(qū)之一 ArtStation 上傳圖片,表示 “對(duì)AI生成的圖像說不”。同時(shí),一些藝術(shù)家悲觀地認(rèn)為,“我們正眼睜睜地看著藝術(shù)之死展開”。圍繞訓(xùn)練數(shù)據(jù)中使用的圖像版權(quán)問題,尚處于爭議之中。

當(dāng)然,也不乏一些藝術(shù)家積極地?fù)肀?AI,將文生圖模型當(dāng)作自己的繪畫助手,省去重復(fù)性的枯燥勞動(dòng)。同時(shí),一些藝術(shù)家將 AI 作為想象力的 “引擎”,在與類似 Midjourney 軟件及社區(qū)中的用戶交互中,彼此互相撕裂,產(chǎn)生新的、有趣的人類美學(xué),進(jìn)而溢出到真實(shí)世界。正如 Midjourney 所描述的:“AI 不是現(xiàn)實(shí)世界的復(fù)刻,而是人類想象力的延伸”。

目前,監(jiān)管機(jī)構(gòu)正在追趕 AI artist 的腳步。最近,美國版權(quán)局在一封信中表示,使用 AI 系統(tǒng) Midjourney 創(chuàng)建的圖畫小說中的圖像不應(yīng)獲得版權(quán)保護(hù),該決定是美國法院或機(jī)構(gòu)對(duì) AI 創(chuàng)作的作品的版權(quán)保護(hù)范圍做出的首批決定之一。另外,一些學(xué)者為保護(hù)藝術(shù)家免受文生圖 DIffusion 模型的風(fēng)格模仿,提出了一個(gè)允許藝術(shù)家將精心計(jì)算的擾動(dòng)應(yīng)用到他們的藝術(shù)中的系統(tǒng)—— Glaze。

一系列 “文生圖” 應(yīng)用允許沒有編程知識(shí)的藝術(shù)家及大眾使用這些強(qiáng)大的模型,生成極具視覺震撼的圖像。“給 AI 以創(chuàng)造”,不論是繪畫還是其他領(lǐng)域,這些工具可以幫助藝術(shù)家表達(dá)他們的創(chuàng)造力,并可能塑造藝術(shù)的未來。

AI 在藝術(shù)中的作用將取決于它的使用方式以及使用它的人的目標(biāo)和價(jià)值觀,重要的是要記住,這些模型的使用應(yīng)該以道德和負(fù)責(zé)任的考慮為指導(dǎo)。

參考鏈接:

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

標(biāo)簽:

相關(guān)新聞

凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

熱文推薦

焦點(diǎn)資訊