寫在前面
本文主要是通過測試答題,分析大語言模型目前在做題特別是做語文題方面的表現(xiàn)。千萬不要試圖挑戰(zhàn)考試紀(jì)律,靠自己走出人生的每一步才是堅實有力的。
(資料圖片)
正如文中所提到的:“朋友們千萬不要放棄學(xué)習(xí),寄希望于以后一切用AI。堅持學(xué)習(xí),你聰明的大腦帶給你的驚喜和回報才是最大的!”
圖片來源:作者與AI對話的網(wǎng)頁截圖
以上就是某AI獻給參加2023年高考的莘莘學(xué)子們的祝福,你感受到它對你滿滿的愛與期待了嗎?
高考要考察的領(lǐng)域和能力非常全面,大部分人都有相較之下的短板,筆者以前就因為缺乏與高考語文現(xiàn)代文閱讀出題人的“共鳴”,無法取得高分。
近來,從事腦科學(xué)研究的筆者產(chǎn)生了一個想法:如果讓類似GPT-4這樣強大的人工智能(Artificial Intelligence, AI)大語言模型(Large Language Model, LLM)去答語文高考題,它表現(xiàn)如何呢?
繁花似錦的夢想大學(xué)。圖片來源:圖像生成類人工智能模型Midjourney
01
壓力為什么給到了大語言模型?
為什么是大語言模型才有較強的做題能力呢?為什么以前開發(fā)的自然語言處理(Natural Language Processing, NLP)的其他語言模型就沒這種能力?
一種說法是,大模型具備了涌現(xiàn)能力(emergent ability),指的是一種模型在訓(xùn)練過程中,自動地學(xué)習(xí)到一些高級的、復(fù)雜的功能或行為,而這些功能或行為并沒有被直接編碼或指定。
涌現(xiàn)能力是近期AI取得突破性進展最重要的核心技術(shù),它使大模型在處理新的、未知的任務(wù)時表現(xiàn)更加出色,這是因為它可以自適應(yīng)地學(xué)習(xí)到新的功能或行為,而不需要重新訓(xùn)練或修改模型。
02
人類為什么聰明、適應(yīng)性強呢?
有一種假說就是涌現(xiàn)。這種假說指的是:大腦中神經(jīng)元數(shù)一旦突破某個具體的數(shù)目,大腦的包括邏輯思考能力在內(nèi)的各類功能就能上升一個檔次。這就是量變引發(fā)質(zhì)變的最佳例子。
因此當(dāng)大語言模型訓(xùn)練的參數(shù)量和喂它的文本數(shù)據(jù)不斷增長后,某天AI就“悟了”,從此語言能力就有一次爆發(fā)式的躍升。于是現(xiàn)在AI寫出來的作文,不仔細(xì)甄別的話,和普通高中生寫出來的作文難分伯仲。
大模型的涌現(xiàn)現(xiàn)象。圖片來源:參考文獻[1]
涌現(xiàn)之后,大語言模型就具備了多模態(tài)的思維鏈路,可以構(gòu)建一個關(guān)于語言和意義的高維內(nèi)在表示,從而通過中間步驟的自然語言推理,來完成最終的輸出。
簡單來說,就是它會簡單的推理了。
光看開頭GPT-4的祝福,其實你很難辨別它是AI寫的還是人類寫的。雖然它還沒具備真正的意識或思維能力,但它的確使用了類似于人的思維推理過程來銜接上下文的語言。
GPT-4和之前很火的初代ChatGPT一樣,都是大語言模型,都是基于預(yù)訓(xùn)練變換器(Generative Pre-trained Transformer, GPT)的架構(gòu)。如果將一個多步驟的問題分解為可以單獨解決的中間步驟,還會進一步提高大語言模型的表達推理能力。
大模型思維鏈能力的出現(xiàn)。圖片來源:參考文獻[2]
好了,前面鋪墊了這么多大語言模型的優(yōu)秀之處,接下來是騾子是馬就要拉出來遛遛了。
那我們就用GPT-4來代替大語言模型出戰(zhàn),看看它能否在高考語文中替筆者一雪前恥!
去吧,GPT-4,開啟你的AI做題家征程!圖片來源:《假面騎士build》
03
答題開始!
本文會讓AI把2022年全國各省市的高考語文卷都做一遍,一共8套,分別是全國甲卷、全國乙卷、新高考I卷、新高考II卷、北京卷、天津卷、浙江卷和上海卷,然后統(tǒng)計它的最終成績。(因為OpenAI訓(xùn)練大語言模型的文本資料全是2021年9月以前的,因此2022年的試卷對于它來說是全新未開封的。)
圖片來源:作者與AI對話的網(wǎng)頁截圖
筆者是浙江人,所以以浙江卷為例了。
第一大題是語言文字應(yīng)用(20分),以下紫色框內(nèi)是提問,灰色框內(nèi)是它的回答:
正確答案:C
正確答案:2.B 3.B
正確答案:D
正確答案:①. 是因為它高于生活 ②. 實際上充滿了哲理 ③. 而將生活哲學(xué)適當(dāng)夸張和戲劇化
遺憾的是,前4題均為選擇題,它只答對1題。
才做了4道題,我們就不得不宣告它已經(jīng)失去了沖擊高分的可能。
錯別字、拼音判斷,詞語、標(biāo)點的運用,還有病句的甄別之類的題目,感覺AI都不是很擅長,可見語文的基本功不是很扎實!不過第5題補寫恰當(dāng)語句確實做得挺不錯的,和答案要表達的意思基本一致,而且下定義和簡述題部分即便沒有給它需要的圖片它也能答出個所以然,可見它擅長的是對上下文的銜接和整體所要表達中心意思的概括總結(jié),而對細(xì)枝末節(jié)不甚考究。
也就是說,AI有一點語文素養(yǎng),但不多。
根據(jù)浙江卷賦分規(guī)則,第一大題扣12分,得分:8/20。
接下來第二大題是現(xiàn)代文閱讀(30分),將原文和問題都輸入進去后,AI的回答如下:
正確答案:7.A 8.A 9. ①士人:興趣從仕途轉(zhuǎn)向飲食,促進飲食發(fā)展。②技術(shù):中華飲食歷史悠久,明清時代飲食技術(shù)得到大發(fā)展。③理論:長期的實踐經(jīng)驗發(fā)展成系統(tǒng)理論。
參考答案得分點:10. ①抑揚。②烘托。11. ①敦厚忠孝。②忍辱負(fù)重。③積極上進。④恪盡職守。12. ①舍小愛,取大愛。②舍私利,取大義。13. ①寫出敦厚媽對美好生活向往的迫切。②塑造敦厚甘守荒涼、一心奉獻的品格。
現(xiàn)代文閱讀的選擇題可悲得全錯了,簡答題也并沒有從原文中進行歸納,按標(biāo)準(zhǔn)答案批改的話,10分的小閱讀理解,它只拿了1分。
從大閱讀理解也可以看出,AI不會半點答題技巧,比如問藝術(shù)手法,正確答案是“抑揚”和“烘托”這兩種手法,AI辛辛苦苦答了一堆都沒扣到點子上,因此,只能得0分。
品格部分答出責(zé)任感和無私這兩點,只能說對原文最表面的內(nèi)容有一定理解,但缺乏深刻的認(rèn)識,因此評價和藝術(shù)效果答得完全不對,可以說,AI面對較長的現(xiàn)代文,理解起來有些束手無策。
看來,AI只能分析文字本身體現(xiàn)的,無法深刻理解作者所要表達的內(nèi)涵。
參照標(biāo)準(zhǔn)答案,它在這個大題中綜合得分:4/30。
接下來第三大題是古代詩文閱讀(40分)。
你猜,它會答成什么樣?
圖片來源:2022年浙江卷高考語文文言文部分
正確答案:14.C 15.B 16.D
正確答案:17.AI斷的完全正確 18.(1)那么(人們)將認(rèn)為我是狠心的人,并且是吝惜(賞賜)爵位俸祿啊。(2)知道(上面)那些情況有可以給予百姓(刑賞忠厚)的道理卻不給予,這也是存心傷害百姓罷了。
怎么樣,你是不是沒想到,AI的文言文居然不錯!3個選擇題里只錯1個,斷句全對!
只是最后一題文言文翻譯存在很多問題,比如文中“忍”和“愛”分別應(yīng)該是“狠心的”和“吝惜”的意思,AI翻譯成了“忍受”和“喜愛”,很明顯有些望文生義,最后文言文處得分:13/20。
正確答案:19.①.勤政樓 ②.千秋節(jié) 20. 情感上王詩表達對昔日盛世懷念,杜詩抒發(fā)昔盛今衰之悲嘆;寫法上王詩運用細(xì)節(jié)描寫,杜詩運用擬人手法。
填空題是AI的強項,基本全對,即便古詩詞也不例外,但是對古詩情感和寫法上的理解和答題技巧還是差了點,得分:5/8。
正確答案:略
第三小題的文言文理解答得也不錯,和標(biāo)準(zhǔn)答案差了幾個小點而已,得分:4/6。
古詩文默寫5選3即可,GPT(1)(2)句古詩詞是完全正確的,因此可以算全對,得分:4/6。
不過“潮平兩岸闊,無wind可依然”可太有“創(chuàng)意”了,不僅自己編造古詩詞,還中英摻雜……
最終古代詩文閱讀部分得分:26/40。
那么最后一部分就是作文了,總分60分,題目如下:
圖片來源:2022年浙江卷高考語文作文部分
2022年作文材料挺接地氣的,內(nèi)容和實例都給的非常具體,就事論事正是AI所擅長的,讓大家來看看AI的800字小作文(想看AI怎么寫2023年作文,可戳《人工智能寫高考作文,到底能得多少分?我們找來了高考閱卷老師……》):
圖片來源:作者與AI對話的網(wǎng)頁截圖
通篇看下來,感覺重復(fù)詞句太多了,而且引用材料中的內(nèi)容頻率很高,不過邏輯和語句還算通順,整體看來勉勉強強可以給個及格分36分。
這樣,AI在語文浙江卷滿分150分的情況下,最終得分為8+4+28+36=76分。
不及格!GPT只能微笑著打出“GG了”……
那么在挑戰(zhàn)浙江卷不及格的情況下,它在試做其他的高考語文卷時,又會是何種表現(xiàn)呢?貫徹筆者本人一向嚴(yán)厲的批卷標(biāo)準(zhǔn),并且在最后作文統(tǒng)一只給及格分的情況下,其他高考語文卷的最終成績?nèi)缦聢D匯總所示:
(圖片來源:作者)
一共試做8套試卷,不及格率高達87.5%……
朋友們千萬不要放棄學(xué)習(xí),寄希望于以后一切用AI,現(xiàn)在大語言模型人工智能其實對于文本的“理解”還遠(yuǎn)遜于你們,它只是擅長“記憶”和“內(nèi)容概括”而已。
堅持學(xué)習(xí),你聰明的大腦帶給你的驚喜和回報才是最大的!
04
為什么AI語文考得不理想?
它的其他科目怎么樣?
在批卷的過程中,筆者發(fā)現(xiàn),像文言文斷句、根據(jù)上下文填空一類的詞,GPT答得還行,而在現(xiàn)代文閱讀和故事里面談到細(xì)節(jié)的情感和表達、寫作技巧時,AI很難得分,而且現(xiàn)代文字越多,它在這個大題里的得分就越低,說明它很難抓住重點。
為什么會這樣呢?
因為GPT系列本身的基礎(chǔ)架構(gòu)Transformer就不擅長處理長序列問題,盡管OpenAI的專家們使用了稀疏型Transformer來改進對于長文本的處理,降低計算復(fù)雜度,但現(xiàn)代文字?jǐn)?shù)長了,它還是沒辦法將注意力集中到關(guān)鍵的點上。特別是散文,稀疏處理意味著它看一段跳個兩三段,通篇囫圇吞棗下來,可能連故事主線講了什么都難以概括,更不要說理解作者蘊含在文中的深意了。
而文言文之所以答得比現(xiàn)代文好,是因為其本身篇幅較短,有效規(guī)避了Transformer不擅長長序列處理的缺點,且文言文一個字通常能頂白話文兩三個字,因此信息豐富度更高,這就使AI通篇都能保持對關(guān)鍵點的注意力機制,從而有著對整體內(nèi)容的更好理解。
總之,AI沒有經(jīng)過系統(tǒng)的語文學(xué)習(xí),不了解考試答題技巧,缺少對中文拼音與語法的細(xì)節(jié)掌握,更沒有對現(xiàn)代文和古詩詞中作者所要表達情感和精神內(nèi)涵的深刻感悟。
可能有人會好奇,如果讓GTP-4挑戰(zhàn)高考的其他科目,結(jié)果會怎樣呢?筆者的測試結(jié)果是:英語最高(畢竟算它的母語);數(shù)學(xué)和物理嘛,簡單的題還可以,題目字?jǐn)?shù)一長,它就開始胡編亂造了,分?jǐn)?shù)都挺低的;化學(xué),生物和文綜類的結(jié)果一般般,和語文差別不大。
05
放松心情,高考必勝
今年的高考語文已落下帷幕,在這里由衷地祝愿各位考生都能發(fā)揮應(yīng)有的實力,考上理想的大學(xué)!
作為經(jīng)歷過高考的“前輩”,有句真心話送給大家,高考只是人生的一個階段性總結(jié),分?jǐn)?shù)的高低并不能和以后的成敗畫等號。人生是長跑,提高自己的認(rèn)知,拓寬自己的眼界,把握時代的風(fēng)向,做出正確的抉擇,付出持續(xù)的努力,這才是最重要的。
最后,祝各位金榜題名,高考必勝!
高考必勝!圖片來源:圖像生成類人工智能模型Midjourney
參考文獻:
[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)
[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)
[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)
出品:科普中國
作者:錢昱 中科院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心
標(biāo)簽:
凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負(fù)責(zé)。
原標(biāo)題:武狀元的科舉沖關(guān)之路周乾我國古代科舉制度中有“弓馬定高下”
2023-06-08 09:46
原標(biāo)題:“種地綜藝”走紅的秘密一檔與眾不同的綜藝節(jié)目《種地吧》成了
2023-06-08 09:36
原標(biāo)題:日前,京津冀三地高蹺隊伍在我市交流展演──(引題)踩著老高
2023-06-08 09:36
原標(biāo)題:曲沃春秋晉國影視城兩部電影同時開機山西日報訊(記者李宏偉)
2023-06-08 08:36
原標(biāo)題:《不孤島》的節(jié)奏像河水奔流,流進歷史李佳每幀畫面、每段影像
2023-06-08 08:53
原標(biāo)題:首屆鄉(xiāng)村兒童藝術(shù)嘉年華啟動工人日報—中工網(wǎng)記者趙亮6月6日,
2023-06-08 08:48
原標(biāo)題:劇影聯(lián)動:從“文化折扣”走向“文化增值”曾于里前段時間,接
2023-06-08 08:53
原標(biāo)題:創(chuàng)造性改編與忠實原著氣質(zhì)(名著改編系列談)(主題)——以《
2023-06-08 08:43
原標(biāo)題:狂飆突進的ChatGPT能否超越藝術(shù)家的創(chuàng)作嘉賓:尚輝藝術(shù)史學(xué)博
2023-06-07 15:42
原標(biāo)題:年代劇細(xì)節(jié)越做越精細(xì)(引題)用情感和煙火氣打開時代畫卷(主
2023-06-07 15:52
原標(biāo)題:中國網(wǎng)絡(luò)文學(xué)亞洲傳播效果凸顯人民日報海外版電(記者張鵬禹)
2023-06-07 15:43
原標(biāo)題:周潤發(fā)袁詠儀33年來首次合作北京青年報訊(記者肖揚)周潤發(fā)與
2023-06-07 15:52
原標(biāo)題:電影《極寒之城》濟南路演(引題)夏雨差點成了武打戲演員(主
2023-06-07 15:41
原標(biāo)題:聚焦劇集高質(zhì)量創(chuàng)作首屆中國電視劇大會主論壇舉辦中新網(wǎng)北京6
2023-06-07 14:40
原標(biāo)題:貴州大型民族歌舞《多彩貴州風(fēng)》成功演出5000場6月5日,演員在
2023-06-07 14:46
與那標(biāo)題:第十四屆全國舞蹈展演參演作品名單公布人民網(wǎng)北京6月7日電(
2023-06-07 14:42
原標(biāo)題:《封神第一部》定檔7月20日今晚報訊(記者丁曉晨)電影《封神
2023-06-07 14:43
原標(biāo)題:舞劇《那時,金銀花開》在青海西寧首演6月5日,舞劇《那時,金
2023-06-07 14:46
原標(biāo)題:《雪蓮花盛開的地方》:來自雪域高原的感動近日,電視劇《雪蓮
2023-06-07 10:40
原標(biāo)題:兩代“港口人”的青春對話(主題)——評舞劇《東方大港》(副
2023-06-07 10:44
原標(biāo)題:山西曲沃:打“影視文化牌”助力“晉文化”破圈中新網(wǎng)臨汾6月6
2023-06-07 10:52
原標(biāo)題:散文深深根植于傳統(tǒng)文化的土壤這些年來,我的散文寫作大體上沿
2023-06-07 10:54
原標(biāo)題:呼倫貝爾草原地帶首次發(fā)現(xiàn)赭石巖畫中新網(wǎng)呼倫貝爾6月6日電(記
2023-06-07 10:48
原標(biāo)題:綜藝節(jié)目不能走量不走心【影視銳評】近年來,綜藝節(jié)目創(chuàng)作注水
2023-06-07 09:56
中新網(wǎng)陜西榆林6月6日電(記者阿琳娜)6日,位于陜西省榆林市靖邊縣的統(tǒng)
2023-06-07 09:48