夢(mèng)晨發(fā)自凹非寺量子位報(bào)道|左邊公眾號(hào)右邊QbitAI
讓語(yǔ)言模型做數(shù)學(xué)題,有多難?
強(qiáng)如GPT-3,在9-12歲的小學(xué)數(shù)學(xué)上,第一次才考20多分。
去年底GPT-3用上新方法努力了很久終于拿到55分,可惜還是沒(méi)及格。
萬(wàn)萬(wàn)想不到啊,2022年才剛開(kāi)始,突然有人宣布他們的模型掌握了高數(shù),達(dá)到MIT本科水平。
AI學(xué)了6門(mén)MIT本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題,都是網(wǎng)上就有的公開(kāi)課,包括:
單變量微積分(課程編號(hào)18.01)多變量微積分(18.02)微分方程(18.03)概率與統(tǒng)計(jì)入門(mén)(18.05)線性代數(shù)(18.06)計(jì)算機(jī)科學(xué)中的數(shù)學(xué)(6.042)
那么AI最后學(xué)到什么水平呢?
6門(mén)課程每門(mén)隨機(jī)出25道題,再加上一個(gè)ACT水平(美國(guó)高考)的數(shù)據(jù)集里的60道題。
總計(jì)210道題,AI全部答對(duì)。
題目包括需要求出具體數(shù)值的,比如菌落繁殖的經(jīng)典問(wèn)題。
也有要求給出方程式的。
要求畫(huà)出函數(shù)圖像的也沒(méi)問(wèn)題。
最后為了證明訓(xùn)練出來(lái)的AI沒(méi)有過(guò)擬合,還額外加試了一場(chǎng)應(yīng)用線性代數(shù)(COMS3251)。
這門(mén)課不是公開(kāi)課,網(wǎng)絡(luò)上根本沒(méi)有,也就是說(shuō)AI在預(yù)訓(xùn)練階段不可能接觸到,結(jié)果AI也掌握了。
要知道在短短幾個(gè)月前,AI還在掙扎于“小明種了5顆檸檬樹(shù),每年從每棵樹(shù)上得到6個(gè)檸檬,10年間他總共得到多少檸檬”這樣的問(wèn)題。
短短幾個(gè)月,從小學(xué)數(shù)學(xué)跨越到了高等數(shù)學(xué)。
這項(xiàng)來(lái)自MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究開(kāi)了什么掛?
對(duì)于AI也是審題最重要
研究團(tuán)隊(duì)發(fā)現(xiàn)以前用AI做數(shù)學(xué)題的嘗試有一個(gè)共同點(diǎn):訓(xùn)練數(shù)據(jù)里只有文本。
這簡(jiǎn)直是AI中的文科生,學(xué)不好數(shù)學(xué)也算正常。
那么AI中的理科生要怎么培養(yǎng)?
研究團(tuán)隊(duì)的解決思路是先在文本上做預(yù)訓(xùn)練,再用代碼進(jìn)行微調(diào)。
核心思想是把數(shù)學(xué)問(wèn)題轉(zhuǎn)換成等價(jià)的編程問(wèn)題。
他們找來(lái)的這位AI理科生與GPT-3師出同門(mén)——
OpenAI的Codex,也是GitHub代碼生成工具Copilot背后的技術(shù)基礎(chǔ)。
Codex解題的過(guò)程分兩步:先審題,再作答。
第一步,自動(dòng)生成需要的上下文,把題干擴(kuò)充、縮減或改寫(xiě)成適合編程解決的樣子。
第二步,生成對(duì)應(yīng)的代碼,運(yùn)行后給出答案。
比如補(bǔ)充自然語(yǔ)言題干中隱藏著的問(wèn)題語(yǔ)境“在微分方程中”。
列好解題需要用到的Python庫(kù)。
把問(wèn)題擴(kuò)充成更精確的數(shù)學(xué)語(yǔ)言。
原問(wèn)題:
計(jì)算撲克牌中一副手牌中有兩對(duì)的概率。
改寫(xiě)問(wèn)題:
一副手牌有5張牌,從13組每組4張一共52張牌中隨機(jī)抽取。“兩對(duì)牌型”要求手牌中共有3種牌,每種數(shù)量不能多于兩張,也就是說(shuō)相同的牌不能超過(guò)三張。請(qǐng)編寫(xiě)一個(gè)模擬程序求出抽到“兩對(duì)牌型”的概率。
(這也太嚴(yán)謹(jǐn)了)
對(duì)于一個(gè)復(fù)雜問(wèn)題,先自動(dòng)生成中間步驟的提示,再寫(xiě)代碼。
如果題目中有與數(shù)學(xué)無(wú)關(guān)的多余信息,也需要去掉。
就這樣,AI靠先審題再寫(xiě)代碼的方式做出全部正確答案。
除了做題,學(xué)會(huì)高數(shù)的AI還能反過(guò)來(lái)給人類(lèi)出題。
不到一秒鐘就能出一道題,試驗(yàn)中總共出了120道題。
把人類(lèi)出的題和AI出的題混在一起,找學(xué)生來(lái)做問(wèn)卷調(diào)查,學(xué)生也很難分清一道題是不是AI出的。
他們覺(jué)得AI出的題要稍微難一些,但大多數(shù)題目放在課程里也算合適。
AI出的題你會(huì)做嗎?
論文中列出了這項(xiàng)研究還存在幾個(gè)局限性。
首先是做不了題干帶配圖的題,這次試驗(yàn)中也沒(méi)有需要大量證明的題。
另外最終答案是實(shí)際運(yùn)行代碼得出的,但最近有研究表明神經(jīng)網(wǎng)絡(luò)也可以直接預(yù)測(cè)出部分代碼的執(zhí)行結(jié)果。
以及還是有一些開(kāi)放性高的題目AI做不出來(lái)。
比如“一個(gè)向量v能否表示為一個(gè)集合S中的向量之和?”或者“以下方程的整數(shù)值解是什么?”
最后還有一個(gè)彩蛋,論文作者中出現(xiàn)了GilbertStrangcan。
他編寫(xiě)的《線性代數(shù)導(dǎo)論》被譽(yù)為最好的線性代數(shù)教科書(shū)之一。
他在這篇論文中的貢獻(xiàn)是提供了研究思路。
研究團(tuán)隊(duì)下一步打算把這項(xiàng)技術(shù)擴(kuò)展到更多課程,并考慮實(shí)際應(yīng)用到教學(xué)中。
也許以后MIT的同學(xué)期末考試?yán)飼?huì)有AI出的題了。
要不先來(lái)試一試,AI出的題你能做出來(lái)嗎?
論文地址:
參考鏈接:[1
舉報(bào)/反饋