在人工智能蓬勃發(fā)展的今天,想了解它的原理似乎不是一件容易的事兒。其實它的核心問題仍然是數(shù)學,而且并不復雜,會比你想象的簡單得多。如果你登過山(在山間迷路更佳),那么你就能理解它的底層策略。
撰文 | 喬丹·艾倫伯格(Jordan Ellenberg)
(相關資料圖)
翻譯 | 胡小銳、鐘毅
我的朋友梅瑞迪斯·布魯薩德(Meredith Broussard)是紐約大學的一位教授,她的專業(yè)研究領域是機器學習及其社會影響。不久前,她接受了一項任務:用大約兩分鐘的時間在電視上向全美觀眾解釋人工智能的定義及其工作原理。
她向采訪她的主持人解釋說,人工智能不是殺手機器人,也不是智力讓人類相形見絀但沒有感情的人形機器人。她告訴主持人:“我們只需要記住一點,它的基本原理就是數(shù)學,沒什么可怕的!”
主持人痛苦的表情暗示了,他們寧愿談論殺手機器人。
但梅瑞迪斯的回答一語中的。既然我不用遵守兩分鐘的時間限制,就讓我接過這項任務,解釋一下機器學習的數(shù)學原理吧,因為這個“偉大的創(chuàng)意”比你想象的要簡單。
機器學習如登山
假設你不是一臺機器,而是一名登山者,正在努力地往山頂爬。但你沒帶地圖,四周又都是樹木和灌木叢,也沒有什么有利位置能讓你看到更廣闊的風景。那么,你該如何登頂呢?
有一種策略是,評估你腳下的地面坡度。當你往北走的時候,地面坡度可能會略微上升,當你往南走的時候,地面坡度可能會略微下降。當你轉向東北方時,你發(fā)現(xiàn)那里有一個更陡峭的上坡。你在一個小圈里走來走去,勘察了你可能前往的所有方向,并發(fā)現(xiàn)其中一個方向的上坡是最陡峭的,于是你朝那個方向走了幾步。然后,你再畫一個圈,并從你可能前往的所有方向中選出最陡峭的上坡,以此類推。
現(xiàn)在,你知道機器學習的工作原理了吧!
好吧,也許還不止這些,但這個叫作“梯度下降法”(Gradient descent)的概念是機器學習的核心。它其實是一種試錯法:你嘗試一堆可能的行動方案,然后從中選出最有助于你擺脫困境的那個。與某個方向相關的“梯度”是一個數(shù)學概念,它是指“當你朝那個方向走一小步時,高度會發(fā)生多大的變化”,也就是你走的那條路的地面坡度。梯度下降法是一種算法,它利用數(shù)學語言制定了“一條明確的規(guī)則,告訴你在你可能遇到的各種情況下應該怎么做”。
這條規(guī)則是:考慮你可以朝哪些方向走,找出其中梯度最大的那個,并朝那個方向走幾步;重復上述步驟。
把你前往山頂?shù)穆肪€繪制到地形圖上,大致的樣子如圖1所示。
圖1 這又是一個很棒的幾何圖形。當你利用梯度下降法來指引方向時,你在地形圖上的路線必定與等高線垂直。
但它與機器學習又有什么關系呢?
假設我不是一名登山者,而是一臺嘗試學些東西的計算機,例如阿爾法圍棋或GPT-3(能生成一長串看似合理且令人不安的英語文本的人工智能語言模型)。但一開始,先假設我是一臺嘗試學習貓是什么的計算機。
我該怎么做?答案是:采取類似于嬰兒的學習方法。在嬰兒生活的世界里,經常有大人指著他們視野中的某個東西說“貓”。你也可以對計算機進行這樣的訓練:給它提供1000幅貓的圖片,這些貓的姿態(tài)、亮度和情緒各不相同。你告訴計算機:“所有這些都是貓?!笔聦嵣?,如果你真想讓這種方法行之有效,就要另外輸入1000幅非貓的圖片,并告訴計算機哪些是貓而哪些不是。
機器的任務是制定一個策略,使它能夠自行區(qū)分哪些是貓而哪些不是。它在所有可能的策略之間徘徊,試圖找到最好的那個,即識別貓的準確度達到最高。它是個準登山者,所以它可以利用梯度下降法確定行進路線。你選擇了某個策略,將自己置于對應的環(huán)境中,然后在梯度下降規(guī)則的指引下前行。想一想你對當前策略可以做出哪些小改變,找出能為你提供最大梯度的那個,并付諸行動;重復上述步驟。
貪婪是相當好的東西
這句話聽起來頗有道理,但隨后你會發(fā)現(xiàn)自己并不明白它的意思。例如,什么是策略?它必須是計算機可以執(zhí)行的東西,而這意味著它必須用數(shù)學語言來表達。對計算機而言,一幅圖片就是一長串數(shù)字。如果這幅圖片是600×600像素的網格,那么每個像素都有一個亮度,它們的值在 0(純黑)到 1(純白)之間。只要知道這 36 萬(600×600)個數(shù)字,就能知道這幅圖片是什么內容了。(或者,至少知道它的黑白圖像是什么樣子。)
策略是一種將輸入計算機的 36 萬個數(shù)字轉變成“貓”或“非貓”(用計算機語言來說就是“1”或“0”)的方法。用數(shù)學術語來表達的話,策略就是一個函數(shù)。事實上,為了更貼近心理現(xiàn)實,策略的輸出可能是一個介于 0 和 1 之間的數(shù),它代表了當輸入是一幅模糊的猞猁或加菲貓枕頭圖片時,機器可能想表達的不確定性。當輸出是 0.8 時,我們應該將其解讀為“我?guī)缀蹩梢钥隙ㄟ@是一只貓,但仍心存疑慮”。
例如,你的策略可能是這樣一個函數(shù):“輸出你輸入的 36 萬個數(shù)字的平均值”。如果圖片是全白的,函數(shù)給出的結果就是 1 ;如果圖片是全黑的,函數(shù)給出的結果就是 0??偟膩碚f,這個函數(shù)可以測量計算機屏幕上圖片的總體平均亮度。這跟圖片是不是貓有什么關系?毫無關系,我可沒說它是一個好策略。
我們如何衡量一個策略是否成功呢?最簡單的方法是,看看那臺已學習過2000幅貓和非貓圖片的計算機接下來的表現(xiàn)。對于每幅圖片,我們都可以給策略打一個“錯誤分數(shù)”【現(xiàn)實世界中的計算機科學家通常稱之為“損失”(error or loss)】。如果圖片是貓且策略的輸出是 1,那么錯誤分數(shù)為0,也就是說答案正確。如果圖片是貓而策略的輸出是0,那么錯誤分數(shù)為 1,這是最壞的一種可能。如果圖片是貓而策略的輸出是0.8,那么答案近似正確但帶有些許不確定性,錯誤分數(shù)為0.2。(衡量錯誤程度的方法有很多種,這里說的并不是實踐中最常用的那種,但它更易于描述。)
把用于訓練的所有2000幅圖片的錯誤分數(shù)加總,就會得到總錯誤分數(shù),它可以衡量你的策略是否成功。你的目標是找到一個總錯誤分數(shù)盡可能低的策略,怎樣才能讓策略不出錯呢?這就要用到梯度下降法了,因為現(xiàn)在你已經知道策略隨著你的調整而變得更好或更差意味著什么。梯度測量的是,當你對策略稍做改變時錯誤分數(shù)的變化幅度;在你能對策略做出的所有小改變中,選出可使錯誤分數(shù)下降幅度最大的那個。梯度下降法不僅適用于貓,只要你想讓機器從經驗中習得策略,它就通通適用。
在這里,我不想低估計算方面的挑戰(zhàn)。那臺學習識別貓的計算機更有可能用數(shù)百萬幅圖片來訓練自己,而不只是2000幅。這樣一來,計算總錯誤分數(shù)時可能就需要加總100萬個錯誤分數(shù)。即使你擁有一臺強大的處理器,也需要花不少時間!所以在實踐中,我們經常使用梯度下降法的變體之一——隨機梯度下降法(Stochastic gradient descent)。這種方法涉及數(shù)不清的微小變化和錯誤分數(shù),但它的基本理念是:第一步,你從大量的訓練圖片中隨機選擇一幅(比如,一只安哥拉貓或一個魚缸的圖片),然后采取可使這幅圖片的錯誤分數(shù)降至最低的那個步驟,而不是把所有的錯誤分數(shù)加在一起。第二步,再隨機選擇一幅圖片,重復上述做法。隨著時間的推移(因為這個過程要進行很多步),最終所有圖片可能都會被考慮到。
我喜歡隨機梯度下降法的原因在于,它聽上去很瘋狂。例如,想象一下,美國總統(tǒng)正在制定全球戰(zhàn)略,一群下屬圍在他身邊大喊大叫,建議總統(tǒng)以符合他們自身特殊利益的方式調整政策??偨y(tǒng)每天隨機選擇一個人,聽取他的建議,并對政策做出相應的改變。用這種方法管理一個大國是極其荒謬的,但它在機器學習方面卻行之有效!
到目前為止,我們的描述缺失了一個重要因素:你如何知道何時該停止呢?你也許會說,很簡單啊,當我們做出任何小改變都不能使錯誤分數(shù)降低時,就可以停止了。但有一個大問題:你可能并未真正“登頂”!
如果你是圖2中那個快樂的登山者,向左走一步或向右走一步,你會看到這兩個方向都不是上坡。這就是你快樂的原因:你自認為已經登頂了!
圖2
但事實并非如此。真正的峰頂還很遙遠,而梯度下降法不能幫你到達那里。你掉進了數(shù)學家所說的“局部最優(yōu)值”(local optimum,局部極大值或局部極小值,它取決于你的目標是沖頂還是觸底。)陷阱,在這個位置上,任何小變化都不能產生改善效果,但它遠非真正的最佳站位。
我喜歡把局部最優(yōu)值看作拖延癥的數(shù)學模型。假設你必須面對一項令人厭煩的任務,例如,整理一大摞資料,其中大部分與你多年來一直想達成的目標有關,扔掉它們則代表你最終選擇妥協(xié),不打算繼續(xù)堅持下去了。每一天,梯度下降法都會建議你采取某個小行動,從而最大程度地提升你當天的幸福感。整理那一大摞資料會讓你感到快樂嗎?不,恰恰相反,它讓你感覺很糟糕。推遲一天完成這項任務是梯度下降法對你的要求,第二天、第三天、第四天……算法每天都會給你同樣的建議。就這樣,你掉進了局部最優(yōu)值——低谷——的陷阱,要想登上更高的山峰,你必須咬牙穿過山谷,那也許是很長的一段路,而且你得先往下走再往上爬。梯度下降法也被稱為“貪婪的算法”,因為它每時每刻都會選擇能使短期利益最大化的步驟。貪婪是罪惡之樹上的主要果實之一,但有一個關于資本主義的流行說法稱“貪婪是好東西”(greed is good)。在機器學習領域,更準確的說法是:“貪婪是相當好的東西?!碧荻认陆捣赡軙е履阆萑刖植孔顑?yōu)值陷阱,但相較于理論層面,這種情況在實踐中發(fā)生的次數(shù)并不多。
想繞過局部最優(yōu)值,你需要做的就是暫時收起你的貪婪。所有好的規(guī)則都有例外。例如,在你登頂后,你可以不停下腳步,而是隨機選擇另一個地點,重啟梯度下降法。如果每次的終點都是同一個地方,你就會更加確信它是最佳地點。在圖2 中,如果登山者從一個隨機地點開始使用梯度下降法,他就更有可能登上那座大山峰,而不是困在那座小山峰上。
在現(xiàn)實生活中,你很難將自己重置于一個完全隨機的人生位置上。更加切實可行的做法是,從你當前的位置隨機邁出一大步,而不是貪婪地選擇一小步。這種做法通常足以把你推到一個全新的位置上,向著人生巔峰邁進。
我是對還是錯?
還有一個大問題。我們愉快地決定考慮所有可能的小改變,看看其中哪一個能帶來最優(yōu)梯度。如果你是一名登山者,擺在你面前的就是一個明確的問題:你在一個二維空間中選擇下一步的行動方向,這相當于在指南針上的一圈方向中擇其一,而你的目標是找出具有最優(yōu)梯度的那個點。
但事實上,給貓圖片評分的所有可能策略構成了一個十分巨大的無限維空間。沒有任何方法能將你的所有選擇考慮在內,如果你站在人的角度而不是機器的角度,就會發(fā)現(xiàn)這一點顯而易見。假設我正在寫一本關于梯度下降法的自助類書籍,并且告訴你:“想要改變你的人生,做法很簡單。仔細考慮有可能改變你人生的所有方法,然后從中選擇效果最好的那個,這樣就可以了?!蹦憧赐赀@句話肯定會呆若木雞,因為所有可能改變你人生的方法構成的空間太大了,根本無法窮盡搜索。
如果通過某種非凡的內省法,你可以搜遍這個無限維空間呢?那樣的話,你還會碰到另一個問題,因為下面這個策略絕對可以使你的過往人生經歷的錯誤分數(shù)降至最低。
策略:如果你將要做的決策和你以前做的某個決策完全相同,就把你現(xiàn)在考慮的這個決策視為正確的決定。否則的話,拋硬幣決定吧。
如果換成學習識別貓的那臺計算機,上述策略就會變成:
策略:對于在訓練中被識別為貓的圖片,輸出“貓”。對于被識別為非貓的圖片,輸出“非貓”。對于其他圖片,拋硬幣決定吧。
這個策略的錯誤分數(shù)為0!對于訓練中使用的所有圖片,這臺計算機都會給出正確的答案。但如果我展示一幅它從未見過的貓圖片,它就會拋硬幣決定。如果有一幅圖片我展示過并告訴它那是貓,但在我把這幅圖片旋轉 0.01 度后,它也會拋硬幣決定。如果我向它展示一幅電冰箱的圖片,它還是會拋硬幣決定。它所能做的只是精確地辨識出我展示過的有限的貓和非貓圖片,這不是學習,而是記憶。
我們已經看到了策略失效的兩種方式,從某種意義上說它們是兩個極端。
1. 在你遇到過的許多情況下,這種策略都是錯的。
2. 這種策略只適用于你遇到過的情況,但對于新情況它一無是處。
前一個問題叫作“欠擬合”(Underfitting),是指你在制定策略時沒有充分利用你的經驗。后一個問題叫作“過擬合”(Overfitting),是指你太過依賴自己的經驗。我們如何在這兩個無用的極端策略之間找到一個折中的策略呢?答案是:讓這個問題變得更像登山。登山者搜索的是一個非常有限的選擇空間,我們也可以這樣,前提條件是我們要對自己的選擇加以限制。
我們本能地知道這一點。在思考如何評估自己的人生策略時,我們通常使用的比喻是在地球表面選擇方向,而不是在無限維空間中隨機游走。美國詩人羅伯特·弗羅斯特將其比作“兩條分岔路”。傳聲頭樂隊(Talking Heads)的歌曲《一生一次》(Once in a Lifetime)猶如弗羅斯特的詩《未選擇的路》(The Road Not Taken)的續(xù)作,你仔細品讀就會發(fā)現(xiàn),這首歌描繪的正是梯度下降法:
你可能會問自己
那條公路通向哪里?
你可能會問自己
我是對還是錯?
你可能會對自己說
天??!我到底做了什么?
你不必把自己的選擇局限于一個旋鈕。
而線性回歸是選擇旋鈕的最常用方法之一。當統(tǒng)計學家尋找可根據(jù)一個已知變量的值預測另一個變量的策略時,線性回歸也是他們的首選工具。例如,一個吝嗇的棒球隊老板可能想知道,球隊的勝率對比賽門票的銷量會產生多大的影響。他不想在球場上投入太多的人力物力,除非它們能有效地轉化成上座率。
圖3 美國職業(yè)棒球大聯(lián)盟2019賽季的主場上座人數(shù) vs 球隊勝率
圖3上的每個點分別代表一支球隊,縱坐標表示這些球隊在 2019 賽季的勝率,橫坐標表示這些球隊的主場上座人數(shù)。你的目標是找到一個能根據(jù)球隊勝率預測主場上座人數(shù)的策略,你允許自己考慮的選擇空間很小,而且其中的策略都是線性的。
主場上座人數(shù) = 神秘數(shù)字 1 × 球隊勝率 + 神秘數(shù)字 2
任意一個類似的策略都對應著圖中的一條直線,你希望這條線能盡可能地匹配你的數(shù)據(jù)點。兩個神秘數(shù)字就是兩個旋鈕,你可以通過上下轉動旋鈕實現(xiàn)梯度下降,直到你無法通過任何微調降低策略的總體錯誤分數(shù)。(在這里,效果最佳的錯誤分數(shù)是所有球隊的線性策略預測值與真實值之差的平方和,所以這個方法通常被稱為“最小二乘法”。最小二乘法歷史悠久,發(fā)展至今已十分完善,用它來尋找最優(yōu)直線的速度比梯度下降法快得多,但梯度下降法仍行之有效。)
最終,你會得到一條如圖4所示的直線。
圖4
你可能會注意到,即使是錯誤分數(shù)最低的直線,其誤差也不小。這是因為,現(xiàn)實世界中的大多數(shù)關系都不是嚴格意義上的線性關系。我們可以試著納入更多的變量(比如,球隊體育場的大小應該是一個相關變量)作為輸入來解決這個問題,但線性策略的最終效果仍然有限。例如,這個策略不能告訴你哪些圖片是貓。在這種情況下,你不得不冒險進入非線性的狂野世界。
深度學習和神經網絡
在機器學習領域,正在研發(fā)的一種最重要的技術叫作“深度學習”。它有時以一種先知的姿態(tài)出現(xiàn)在人類面前,自動地、大規(guī)模地提供非凡的洞見。這種技術還有一個名稱——“神經網絡”,就好像這種方法能以某種方式自行捕獲人類大腦的運行方式一樣。
但事實并非如此。正如梅瑞迪斯·布魯薩德所說,它的原理只是數(shù)學,甚至不是最新的數(shù)學。這一基本概念早在20世紀50年代末就出現(xiàn)了,從我1985年收到的那堆成人禮的禮物中,你也能看到與神經網絡結構類似的東西。除了支票、幾個圣杯和 20 多支高仕筆外,我還收到了父母送的也是我最想要的禮物——雅馬哈DX21 合成器,它至今還在我的家庭辦公室里。早在 1985 年就能擁有一臺合成器,而不是電子琴,這讓我感到非常自豪。你不僅能用DX21 合成器彈奏出鋼琴、小號和小提琴的音色,還可以用它制作你想要的音色,前提是你能掌握那本 70 頁說明書的晦澀內容,其中包含了很多如圖5所示的圖片。
圖5
每個“OP”盒子代表一個合成器波,你可以通過轉動盒子上的旋鈕,讓聲音變得更響亮、更柔和、隨時間淡出或淡入,等等。這些都稀松平常,而DX21 真正神奇的地方在于它和操作者之間的連接。圖 5 展示了一個魯布·戈德堡機械式的過程,從OP1 發(fā)出的合成器波不僅取決于這個盒子上你可以轉動的那些旋鈕,還取決于OP2 的輸出。合成器波甚至可以自行調節(jié),附屬于OP4 的“反饋”箭頭代表的就是這種功能。通過轉動每個盒子上的幾個旋鈕,你可以獲得范圍極其廣泛的輸出。這給了我嘗試的機會,自己動手制作新的音色。
神經網絡跟我的合成器很像,它是由幾個小盒子構成的網絡,如圖6所示。
圖6
所有盒子的功能都相同:如果輸入一個大于或等于 0.5 的數(shù)字,它們就會輸出1;否則,它們就會輸出 0。用這種盒子作為機器學習基本元素的想法,是在1957—1958 年由心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)提出來的,他視其為神經元工作原理的一個簡單模型。盒子靜靜地待在那里,一旦接收到的刺激超過某個閾值,它就會發(fā)射一個信號。羅森布拉特把這類機器稱作“感知機”(Perceptrons)。為了紀念這段歷史,我們仍然稱這些假神經元網絡為“神經網絡”,盡管大多數(shù)人不再認為它們是在模擬人類的大腦硬件。
數(shù)字一旦從盒子中輸出,就會沿著盒子右側的任意箭頭運動。每個箭頭上都有一個叫作“權重”的數(shù)字,當輸出沿箭頭呼嘯而過時,就會乘以相應的權重。每個盒子把從其左側進入的所有數(shù)字加總,并以此作為輸入。
每一列被稱為一層,圖6中的網絡有兩層,第一層有兩個盒子,第二層有一個盒子。你先向這個神經網絡輸入兩個數(shù)字,分別對應第一層的兩個盒子。以下是有可能發(fā)生的情況:
1. 兩個輸入都不小于 0.5。第一層的兩個盒子都輸出 1,當這兩個數(shù)字沿著箭頭移動時,都變?yōu)?1/3,所以第二層的盒子接收到 2/3 作為輸入,并輸出 1。
2. 一個輸入不小于 0.5,另一個輸入小于 0.5。那么,兩個輸出分別是 1 和 0,所以第二層的盒子接收到 1/3 作為輸入,并輸出 0。
3. 兩個輸入都小于 0.5。那么,第一層的兩個盒子都輸出 0,第二層的盒子也輸出 0。
換句話說,這個神經網絡是一臺機器,它接收到兩個數(shù)字作為輸入,并告訴你它們是否都大于0.5。
圖7是一個略顯復雜的神經網絡。
圖7
該神經網絡的第一層有51個盒子,它們都向第二層的那個盒子輸入數(shù)字。但箭頭上的權重不同,最小的權重為 3/538,最大的權重為55/538。這臺機器在做什么?它將51個不同的數(shù)字作為輸入,并激活每個輸入大于0.5的盒子。然后,它對這些盒子進行加權計算,檢驗它們的和是否大于0.5。如果是,就輸出1;如果不是,則輸出 0。
我們可以把它稱作“兩層羅森布拉特感知機”,但它還有一個更常用的名稱——“選舉人團制度”。51個盒子代表美國的50 個州和華盛頓特區(qū),如果共和黨候選人在某個州獲勝,代表該州的盒子就會被激活。把所有這些州的選舉人票數(shù)加總后除以538,如果結果大于0.5,共和黨候選人就是贏家。
圖8是一個更現(xiàn)代的例子,它不像選舉人團制度那樣易于用語言來描述,但它與驅動機器學習不斷進步的神經網絡更加接近。
圖8
圖8中的盒子比羅森布拉特感知機的盒子更精致。盒子接收到一個數(shù)字作為輸入,并輸出該數(shù)字和0中較大的那個。換句話說,如果輸入是一個正數(shù),盒子就會原封不動地輸出這個數(shù)字;但如果輸入是一個負數(shù),盒子就會輸出 0。
我們來試試這個裝置(見圖9)。假設我先向最左邊一層的兩個盒子分別輸入1和1。這兩個數(shù)字都是正數(shù),所以第一層的兩個盒子都會輸出 1。再來看第二層,第一個盒子接收到的數(shù)字是 1×1 = 1,第二個盒子接收到的數(shù)字是-1×1 = -1。同理,第二層的第三個盒子和第四個盒子接收到的數(shù)字分別是 1 和-1。1是正數(shù),所以第一個盒子輸出1。但第二個盒子接收到的輸入是一個負數(shù),未能被觸發(fā),所以它輸出 0。同樣地,第三個盒子輸出1,第四個盒子輸出 0。
圖9
接著看第三層,上面的盒子接收到的數(shù)字是1×1+3×0+2×1+1×0=3,下面的盒子接收到的數(shù)字是3×1?1×0?5×1?1×0=?2。所以,上面的盒子輸出3,下面的盒子未能被觸發(fā),輸出0。最后,第四層的那個盒子接收到的兩個輸入之和為1×3+1×0=3。
即使你未關注到這些細節(jié),也沒有關系。重要的是,神經網絡是一個策略,它接收到兩個數(shù)字作為輸入,并返回一個數(shù)字作為輸出。如果你改變箭頭上的權重,也就是說,如果你轉動14個旋鈕,就會改變這個策略。圖9為你提供了一個十四維空間,讓你根據(jù)既有的數(shù)據(jù)從中找出最適合的策略。如果你覺得很難想象出十四維空間的樣子,我建議你聽從現(xiàn)代神經網絡理論的創(chuàng)始人之一杰弗里·辛頓(Geoffrey Hinton)的建議:“想象一個三維空間,并大聲對自己說‘這是十四維空間’。所有人應該都能做到這一點?!毙令D來自一個高維空間愛好者家族,他的曾祖父查爾斯在1904年寫了一本關于如何想象四維立方體的書,并發(fā)明了“超立方體”(tesseract)一詞來描述它們。不知道你有沒有看過西班牙畫家薩爾瓦多·達利的油畫作品《受難》,其中就有一個辛頓的超立方體。
圖10中這個神經網絡的權重已知,如果平面上的點(x, y)位于灰色形狀內部,就賦予它一個等于或小于3的值。注意,當點(1, 1)位于灰色形狀的邊界上時,策略賦予它的值是3。
圖10
不同的權重會產生不同的形狀,雖然不是任意形狀。感知機的本質意味著這個形狀永遠是多邊形,即邊界由多條線段構成的形狀。(前文中不是說這應該是非線性的嗎?沒錯,但感知器是分段線性(piecewise linear)結構,這意味著它在空間的不同區(qū)域內滿足不同的線性關系。更通用的神經網絡可以產生更彎曲的結果。)
如圖11所示,假設我用X 標記了平面上的一些點,用O 標記了其他一些點。我給機器設定的目標是讓它習得一個策略:根據(jù)我標記的那些點,用X 或O為平面上其他未標記的點賦值。也許(希望如此)我可以通過正確設置那 14 個旋鈕得到某個策略,將較大的值賦予所有標記為X 的點,而將較小的值賦予所有標記為O 的點,以便我對平面上尚未標記的點做出有根據(jù)的猜測。如果真有這樣的策略,我希望可以通過梯度下降法來習得它:微微轉動每個旋鈕,看看這個策略在給定例子中的錯誤分數(shù)會降低多少,從中找出效果最佳的那個操作,并付諸實施;重復上述步驟。深度學習中的“深度”僅指神經網絡有很多層。每層的盒子個數(shù)被稱為“寬度”(width),在實踐中,這個量可能也很大。但相比“深度學習”,“寬度學習”少了一些專業(yè)術語的味道。
圖11
可以肯定的是,今天的深度學習網絡比上文中的那些示意圖要復雜得多,盒子里的函數(shù)也比我們討論過的簡單函數(shù)要復雜得多。遞歸神經網絡中還包含反饋盒子,就像我的DX21 合成器上的“OP4”一樣,把自身的輸出作為輸入。而且,它們的速度明顯更快。正如我們所見,神經網絡的概念已經存在很長時間了,我記得就在不久前,人們還認為這條路根本走不通。但事實證明,這是一個很好的想法,只不過硬件必須跟上概念的步伐。為快速渲染游戲畫面而設計的GPU芯片,后來被證明是快速訓練大型神經網絡的理想工具,有助于實驗人員提升神經網絡的深度和寬度。有了現(xiàn)代處理器,你就不必再受限于 14 個旋鈕,而可以操控幾千、幾百萬乃至更多的旋鈕。GPT-3 生成的英語文本能以假亂真,它使用的神經網絡有1750億個旋鈕。
有1750億個維度的空間聽起來的確很大,但和無窮大相比,這個數(shù)量又顯得微不足道。同樣地,與所有可能的策略構成的空間相比,我們正在探索的只是其中很小的一部分。但在實踐中,這似乎足以生成看起來像人類創(chuàng)作的文本,就好比DX21 的小型網絡足以模擬出小號、大提琴和太空霹靂的音色。
這已經非常令人驚訝了,但還有一個更深層次的謎。記住,梯度下降法的理念就是不斷轉動旋鈕,直到神經網絡能在訓練過的數(shù)據(jù)點上取得盡可能好的效果。今天的神經網絡有許許多多旋鈕,所以它們常能做到在訓練集上表現(xiàn)完美,把 1000 幅貓圖片中的每一幅都識別為“貓”,而把1000 幅其他圖片全部識別為“非貓”。
事實上,有這么多的旋鈕可以轉動,讓訓練數(shù)據(jù)百分之百正確的所有可能策略就會構成一個巨大的空間。事實證明,當神經網絡面對它從未見過的圖片時,這些策略中的大多數(shù)都表現(xiàn)得很糟糕。但是,蠢笨又貪婪的梯度下降過程出現(xiàn)在某些策略中的頻率通常高于其他策略,而在實踐中,梯度下降法偏愛的那些策略似乎更容易推廣到新的例子中。
為什么呢?是什么使得這種特殊形式的神經網絡擅長應對各種各樣的學習問題?我們在策略空間中搜索的這塊微不足道的區(qū)域,為什么恰恰就包含了一個好的策略呢?
據(jù)我所知,它是一個謎。坦白地說,關于它是不是一個謎的問題,還存在很多爭議。我向很多聲名顯赫的人工智能研究者提問過這個問題,他們回答起來個個口若懸河。其中一些人非常自信地解釋了其中的原因,但每個人的說法都不一樣。
作者簡介
喬丹·埃倫伯格(Jordan Stuart Ellenberg,1971 -),美國數(shù)學家,1998年獲哈佛大學博士學位,現(xiàn)任威斯康星大學麥迪遜分校John D. MacArthur教授;主要研究方向代數(shù)幾何和數(shù)論。曾獲多項科學傳播獎項,出版《魔鬼數(shù)學》(How Not to Be Wrong),《幾何學的力量》(Shape),小說The Grasshopper King等,作品常見于《華爾街日報》《紐約時報》,Slate, Wired等。
本文經授權節(jié)選自《幾何學的力量》(中信出版社·鸚鵡螺,2023.3)第七章《機器學習如登山》,有刪減。
標簽:
上一篇:睡眠幫手褪黑素,究竟是何物?_當前簡訊
下一篇:最后一頁
凡本網注明“XXX(非現(xiàn)代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。
原標題:意大利舉辦國際手工藝展覽會中國手工藝受關注4月25日,在意大利佛羅倫薩舉辦的國際手工藝展覽會上
2023-04-28 16:43
原標題:津味大戲凝聚天津人智慧與幽默(引題)?《俗世奇人》“省親”博得滿堂彩(主題)今晚報訊(記者高
2023-04-28 16:49
原標題:全國十余種南戲泉州展演“好戲連臺”異彩紛呈中新網泉州4月28日電(吳冠標)27日晚,“首屆海絲泉州
2023-04-28 15:42
原標題:莫奈作品在墨西哥展出4月26日,在墨西哥首都墨西哥城,觀眾參觀莫奈作品展。當日,“莫奈,印象派
2023-04-28 15:35
原標題:江西發(fā)現(xiàn)距今9000余萬年的泰坦巨龍化石新華社南昌4月27日電(記者袁慧晶)記者27日從江西省地質局
2023-04-28 15:38
原標題:全國戲曲(北方片)會演在石家莊開幕4月26日,演員在開幕式演出現(xiàn)場表演秦腔、晉劇、滇劇、河北梆
2023-04-28 15:44
原標題:四川宣漢羅家壩遺址博物館開館這是羅家壩遺址博物館外景(4月26日攝,無人機照片)。4月27日,四川
2023-04-28 15:40
原標題:在多彩音符中感受美麗中國人民日報記者吳君4月22日上午,湖北省武漢國際博覽中心,渾厚的《編鐘禮
2023-04-28 10:40
原標題:“反詩歌”的帕拉,用反諷贏得快樂◎杜鵬在動筆寫這篇書評之前,我本想以《我們可以從帕拉身上學到
2023-04-28 10:36
原標題:歌劇《青春之歌》國家大劇院首演(引題)?高難音樂燃燒青春力量(主題)北京日報記者高倩幾十年來
2023-04-28 10:35
原標題:莫曉松:觀到精微也放眼宇宙◎范范展覽:燦然逸韻——莫曉松作品展展期:2023年4月27日至5月8日地
2023-04-28 10:47
原標題:深圳歡樂谷舉辦歡樂谷25周年紅人盛典工人日報—中工網記者劉友婷今年以來,旅游市場復蘇勢頭強勁。
2023-04-28 09:43
原標題:《青年π計劃》樂壇新生代登場展現(xiàn)音樂新力量工人日報—中工網記者陳俊宇“音樂,無限不循環(huán),創(chuàng)造
2023-04-28 09:47
原標題:當“他”在職場中變成一組編號……◎裴雪如金惠珍今年4月最新出版的小說《9號的工作》,將目光聚焦
2023-04-28 09:33
原標題:女性命運的可能性,因寫作被看見◎水晶最近這幾個月,讀了很多女性寫作的作品。這些作者天然地對女
2023-04-28 09:47
原標題:翁貝托·??频奈膶W生活◎陳英迷霧如果說在《玫瑰的名字》里,意大利作家??朴邪逊柺澜绾驼鎸嵤?/p>
2023-04-28 09:32
原標題:豆瓣開分9 0《漫長的季節(jié)》魅力何來?中新網北京4月26日電(記者高凱)上線第4天,《漫長的季節(jié)》
2023-04-27 21:39
原標題:“火鍋”跨界融合雜技舞臺劇《功夫火鍋》在重慶首演中新網重慶4月27日電(記者鐘旖)由中國雜技團
2023-04-27 15:46
原標題:雜技劇《天山雪》在大寧劇院試演(引題)譜一曲雜技人的民族團結史詩(主題)文匯報記者黃啟哲歷時
2023-04-27 14:48
原標題:舞臺劇《寄生蟲》五一假期廣州連演三場(引題)馬天宇舞臺劇首秀“我并沒有被舞臺吃掉”(主題)羊
2023-04-27 14:42
原標題:【尋味中華丨名樓】云南大觀樓:觀萬里山水敞千秋懷抱中新社昆明4月27日電?作者熊佳欣“出大觀樓
2023-04-27 14:56
原標題:甘肅敦煌:壁畫藝術進校園4月26日,敦煌中學美術教師楊娜為學生講解敦煌壁畫藝術。近年來,甘肅省
2023-04-27 13:43
原標題:雜技技藝碰撞“賽博朋克”重慶大型駐場雜技秀推出升級版中新網重慶4月27日電(記者鐘旖)627平方米
2023-04-27 13:54
原標題:約20部電影扎堆,新片預售總票房已超過1 6億元(引題)今年五一檔“史上最擠”已定,“最強”或可
2023-04-27 13:41
原標題:全國戲曲(北方片)會演開幕人民日報北京4月26日電(記者鄭海鷗)26日,由中宣部文藝局、文化和旅
2023-04-27 13:40