首頁> 資訊 > > 正文

            對話斯坦福爆紅論文作者:GPT-4「變笨了」?可能并非如此

            2023-08-19 15:46:44來源:36氪

            文|林煒鑫

            編輯|蘇建勛

            兩個月前,一篇熱門帖子把火遍全球的 ChatGPT 推上 " 人工智障 " 的風(fēng)口浪尖。


            【資料圖】

            帖子出現(xiàn)在科技新聞社區(qū) Hacker News,發(fā)帖者提到,和之前相比,GPT-4 似乎變笨了:

            " 它的編碼能力已經(jīng)大大降低了。以前,每當(dāng)我問一個問題。ChatGPT 有時會給我一個不正確的答案,但它能夠在后續(xù)問題后修復(fù)。現(xiàn)在,每當(dāng)答案不正確的時候,不管我試了多少次,總是會返回一個錯誤的答案。它變得如此令人沮喪。"

            許多網(wǎng)友借此吐槽 GPT-4 的糟糕表現(xiàn),間接導(dǎo)致 ChatGPT 的使用量逐漸下滑。興許是為了平息爭議,OpenAI 一度矢口否認(rèn),表示 GPT-4 模型自發(fā)布以來,并未有任何變化。" 我們沒有把 GPT-4 變笨,相反我們每個新版本,都讓它比以前更聰明了。"

            直到 7 月 19 日,一篇新論文將這個話題推向高潮。來自斯坦福大學(xué)和加州大學(xué)伯克利分校的三位學(xué)者研究發(fā)現(xiàn),相比 3 月份的 GPT-4,6 月份的 GPT-4 的性能表現(xiàn)變差了。

            之前還只能嘀咕幾句的網(wǎng)友,爭相傳閱這篇論文,光是一條介紹論文的推特,就有幾千個點贊與轉(zhuǎn)發(fā)。苦 ChatGPT 久矣的網(wǎng)友,似乎找到了打臉 OpenAI 的 " 武器 "。

            論文在推特上引起廣泛的討論

            論文的第一作者是斯坦福大學(xué)計算系博士陳凌蛟。攻讀博士前,他曾在谷歌、微軟研究院等地工作,2018 年獲得谷歌博士生獎研金。近一年來,陳凌蛟的研究方向主要集中在大模型服務(wù)和數(shù)據(jù)服務(wù)。

            本周,36 氪與陳凌蛟圍繞這篇論文進行了對話。陳凌蛟表示,四月底他觀察到網(wǎng)上很多用戶對 GPT 的抱怨,便想做一些定量分析," 看看到底怎么回事 "。研究結(jié)果則令他們大感意外,GPT 模型確實不像預(yù)計的那樣越變越好,相反在行為上出現(xiàn)較大的波動。

            這些行為變化背后的根本原因是什么?網(wǎng)上涌現(xiàn)了很多猜測。有一部分人認(rèn)為,OpenAI 可能為了控制成本,有意使新模型性能下降。

            一個證據(jù)便是,原先 3 小時能給 ChatGPT 發(fā)送 100 條信息,現(xiàn)在只能發(fā)送 25 條。還有一部分人懷疑,開發(fā)者往模型添加了一些安全機制,使 GPT 的回答更符合人類價值觀,但導(dǎo)致 GPT 自身的推理能力變差。

            陳凌蛟告訴 36 氪,以上都是合理推測,但是模型目前 " 完全不透明 ",他沒辦法得出確定性的結(jié)論,這項研究只能是讓用戶清楚模型性能并不總是越來越好。

            有趣的是,OpenAI 的態(tài)度不再強硬,表示會就這個現(xiàn)象進一步調(diào)查。而論文剛在 arXiv 網(wǎng)站掛出不久,OpenAI 便做出一個新舉措:原先準(zhǔn)備下架的 3 月份 GPT-4 模型,將會延遲到明年夏天。"(我們的論文)至少給大家爭取到一年的使用時間。" 陳凌蛟說。

            陳凌蛟透露,針對模型性能的監(jiān)測是一項長期工作,他們計劃將做更精細的行為變化分析。就在 8 月初,他們對這篇論文進行了更新,在新文章里,回應(yīng)了學(xué)術(shù)界對研究的一些質(zhì)疑。

            以下是 36 氪與陳凌蛟的對話,經(jīng) 36 氪編輯與整理:

            GPT 性能出現(xiàn)巨大的波動

            36 氪:做這個研究的契機是什么?

            陳凌蛟:我們很早就觀察到非常多用戶抱怨說,他們使用的 ChatGPT 或者 GPT-4 的性能下降。

            例如,一些用戶接入 ChatGPT 或 GPT-4 來搭建或改進他們的推薦系統(tǒng)。他們最開始接入模型時效果非常好,但一段時間后,卻發(fā)現(xiàn)了顯著的效果下降。人們想要了解究竟發(fā)生了什么。

            模型的這種時移特性,是許多大語言模型用戶遇到的很大痛點。因此,我們希望在這個痛點上做一些定量分析,看看到底怎么回事。

            36 氪:你們是想實錘一下 GPT 到底有沒有變笨了?

            陳凌蛟:我們并沒有預(yù)設(shè)立場,實驗的結(jié)果也并不支持這一結(jié)論。實際上,我們想了解和分析的,是它的行為如何發(fā)生變化。

            這個變化對用戶來說是正面還是負(fù)面,要取決于具體應(yīng)用場景和訴求。但變化會給你的實際應(yīng)用帶來一些額外工作,至少你要去檢測,并做出應(yīng)對。

            36 氪:你們?nèi)×?3 月和 6 月這兩個時間節(jié)點,是精心設(shè)計的嗎?更長或更短的時間跨度,會對研究造成不同的影響嗎?

            陳凌蛟:這是個非常好的問題。實際上我們希望并正在做更為精細的遷移研究,不止三個月,可能是一個月,甚至是兩禮拜。之所以最后是三個月周期,原因很簡單,因為這是 OpenAI 自己提供的兩個明確的時間節(jié)點,他們提供的接口有 March Version(三月份版本)和 June Version(六月版本)。最后的(研究)結(jié)果對我們來說也很意外。三個月的時間就產(chǎn)生了很大差別。

            36 氪:讓你們意外的是什么?

            陳凌蛟:一個是它在一些數(shù)學(xué)問題上的行為變化很大。比如說做素數(shù)或合數(shù)的判斷,很容易,對吧?它六月份變得弱很多。一種潛在的可能是新模型并沒有真的按照用戶提示來完成任務(wù),比如思維鏈的提示,對新模型的效果遠不如老模型。

            第二個,我們也看到新模型對非常多的問題傾向于不去回答,或者是給出道歉式的回答," 對不起我解決不了這個問題 "。對敏感或存在攻擊性的問題,這種行為是合理的。但有些時候這種不回答令人并不十分滿意。

            比方說,我們最近設(shè)計了份調(diào)查問卷,里面有很有趣的預(yù)測性問題,例如 " 你認(rèn)為將來的 20 年,美國在全世界的影響力是會變更大,還是會變更小 "。類似這樣的問題,新模型拒絕回答。這些問題并沒有標(biāo)準(zhǔn)答案。但很多時候人們希望大語言模型提供的,正是對未知的、沒有標(biāo)準(zhǔn)答案的問題提供參考。如果這些語言模型以前能回答,現(xiàn)在卻回答不了,這可能會讓大家很失望。

            36 氪:新模型拒絕回答敏感問題,是因為開發(fā)者在模型里加入了安全機制嗎?

            陳凌蛟:這是一種合理的推測。但我們無法確定原因,因為模型是閉源的。缺少技術(shù)細節(jié)的情況下,我們不能做確定性的回答。

            36 氪:關(guān)于模型行為變化的根本原因,你的推測是什么?是跟模型本身、訓(xùn)練數(shù)據(jù),還是掩蓋機制等相關(guān)?

            陳凌蛟:我們也很希望搞清楚這個問題的原因,但是目前沒有結(jié)論。你說的數(shù)據(jù)、模型結(jié)構(gòu),或者其他機制,都有可能。

            這也是很多用戶面臨的實際問題:只掌握大語言模型的接口,但缺少內(nèi)部信息。我們希望(這個研究)給用戶提供一個參考。雖然不知道為什么變化,但至少知道發(fā)生了什么變化,從而在使用時心里有數(shù)。

            36 氪:整個研究過程中有沒有比較麻煩或糾結(jié)的時候?

            陳凌蛟:這個項目最大的難點,或者說最有意思的部分,就是對問題的設(shè)計。你可以問它任何問題,它總能給你答案,那么你到底問哪些問題?這個設(shè)計是比較有趣,也有一定難度。另外,你怎么設(shè)計你的指標(biāo)?你問了很多問題,也得到答案,這些答案可能是千奇百怪的,那你怎么去做自動化分析,然后設(shè)計出讓大家一下就明白了的這種指標(biāo)。

            36 氪:具體應(yīng)該如何設(shè)計呢?

            陳凌蛟:在設(shè)計過程中,很多時候你最初的設(shè)想,和你看到的結(jié)果完全不一致,應(yīng)該怎么調(diào)整。我舉個例子。還是剛才那個 " 美國是更重要了還是不重要了 " 的問題。模型版本迭代了,我想看是不是同個問題的答案發(fā)生變化。那我就去測了,結(jié)果發(fā)現(xiàn)變化完全不是這么回事。

            老模型會從四個選項挑一個,新模型沒有選任何一個選項,直接說我不能回答這個問題。后來我把拒絕回答也變成其中一個選項。但新模型還是拒絕做選擇,它就說,我沒有辦法回答帶有主觀性的問題。

            這就得重新調(diào)整評估指標(biāo),才變成后來大家看到的回答頻率,就是多少問題真正回答,多少問題拒絕回答。

            36 氪:你覺得這篇論文還有哪些不足?

            陳凌蛟:其實有很多還沒做的事情。例如,我們的測試還是停留在相對比較簡單的問題上。模型在更復(fù)雜的應(yīng)用場景上的變化還有待分析。

            論文讓 OpenAI 延遲下架舊模型

            36 氪:這篇論文在網(wǎng)上很火,你收到了哪些評價和反饋?

            陳凌蛟:有很多建設(shè)性的反饋和建議。比如來自加州大學(xué)伯克利分校的自然語言或文學(xué)方向的教授,他對我們這個事情很感興趣。這些大模型都是在語料很豐富的語言上訓(xùn)練,比如英語,那在很多語料不豐富的小語種上,這些模型呈現(xiàn)什么樣的行為變化呢?他們很關(guān)心,建議說是不是可以對小語種做一些探索和研究,我覺得是很有價值的。

            36 氪:論文發(fā)表后,有兩位普林斯頓教授提出質(zhì)疑,覺得論文只是簡單顯示 GPT-4 行為的改變,不能等同于能力的下降。你怎么看待這個反對意見?

            陳凌蛟:我們的文章在 8 月份有一個更新,其中對他們的質(zhì)疑其實做了更完整的回應(yīng)。我這邊可以簡單講兩句。首先我覺得他們做的分析很深入,非常好。他們質(zhì)疑的也不是我們的工作,而是 "GPT-4 變差了 " 這種簡單的結(jié)論。實際上我們論文里的結(jié)論一直強調(diào)是模型的行為發(fā)生了變化。更嚴(yán)格地說,他們的工作是對我們的一種補充。

            我們最近做了額外的實驗,一部分驗證了他們的判斷,但也得出新結(jié)論。他們認(rèn)為模型的先驗知識發(fā)生了變化,比如說原先傾向于認(rèn)為一個數(shù)更可能是素數(shù),但現(xiàn)在傾向于不是素數(shù)。但是我們也看到這種傾向性的調(diào)整在老模型上是不明顯的。

            36 氪:" 先驗知識 " 該怎么理解?

            陳凌蛟:可以理解為模型在沒有外部信息時對特定問題的預(yù)設(shè)立場。拿人來類比,比如,在不看天氣預(yù)報時,有人根據(jù)經(jīng)驗認(rèn)為第二天大概率下雨,有人則認(rèn)為是晴天,這就是先驗。

            36 氪:你們又做了哪些實驗?

            陳凌蛟:他們(普林斯頓教授)之前說實驗只做了素數(shù),沒做合數(shù)。那我們把素數(shù)跟合數(shù)放在一塊,老模型大概有 84、85 的精度,說明它并不是純粹的先驗知識,但新模型的精度很一般,只有 50% 左右,就跟瞎猜差不多了。

            所以說,新老模型都有先驗,但是新模型受到先驗影響很大。通俗地說,新模型更固執(zhí),不會變通。

            36 氪:所以你們想把這個研究作為長期項目進行下去?

            陳凌蛟:對,我們還在持續(xù)跟進這個領(lǐng)域,而且我們會對后面更新的模型進行性能分析和監(jiān)測。

            36 氪:這項研究對 GPT 的普通用戶有什么意義?

            陳凌蛟:我覺得至少有幾個方面。第一個就是在使用過程當(dāng)中,可以意識到 GPT-4 性能會有很大的波動。所以大家可能要有,我不能說警惕心,至少應(yīng)該是一些心理準(zhǔn)備。

            第二個就是我們?yōu)槟切┓浅P⌒幕蚓璧挠脩粞娱L了使用老模型的時間。也就在我們文章剛掛出來沒多久,OpenAI 做了一個我認(rèn)為是非常好的一個決策。他們把三月份版本的使用時間延長了,原本就要下架,現(xiàn)在至少支持到明年的七八月份。

            可能 OpenAI 為了留住那些更認(rèn)可舊模型的用戶,這是比較實在的(影響),至少給大家爭取到一年的使用時間。

            36 氪:OpenAI 的人有沒有找到你們做交流?

            陳凌蛟:暫時沒有面對面的溝通,但在網(wǎng)絡(luò)上他們有回應(yīng)。除了延長老模型的時間,他們一個相關(guān)負(fù)責(zé)人在推特上做了回應(yīng)。他說他們很感謝我們的工作,已經(jīng)注意到模型行為的變化,并會進一步探究到底發(fā)生什么事情。

            36 氪:很多媒體對這篇論文的解讀就是斯坦福大學(xué)證明了 GPT-4 變笨了,你看到這些報道,是什么樣的感受?

            陳凌蛟:我能看到正面和負(fù)面的部分。從正面來說引起大家的重視,這些大模型并不是總是在各個方面都在變好的。

            但反過來說,我更大的擔(dān)心是,這些并不非常準(zhǔn)確的解讀會不會帶給大家更多的困惑或誤導(dǎo)。比如有的人看了之后可能理解為 GPT-4 不能再用了。這不是我們的初衷。恰恰相反,我們支持大家開發(fā)與使用大模型,但建議大家能夠謹(jǐn)慎而負(fù)責(zé)地對待這些模型。

            更多人涌進 AI 研究

            36 氪:你自己主要的研究方向是什么?

            陳凌蛟:主要是兩個比較大的方向。一個是提供大語言模型服務(wù),用戶如何使用這種服務(wù),如何優(yōu)化使用策略。不光是性能,包括反應(yīng)延遲,還有開銷,可能有的模型貴,有的模型便宜一點,那么用戶如何做這種取舍。這其實是一個很大的研究方向。包括我們研究這種模型的行為變遷,也是使用決策當(dāng)中需要去考慮的部分。

            還有就是研究數(shù)據(jù)服務(wù)。模型背后支撐的重要來源就是數(shù)據(jù)。我們?nèi)绾卧谶@個數(shù)據(jù)市場里幫助用戶取得比較好的性能,或者做比較明智的決策。應(yīng)該買哪些數(shù)據(jù),不應(yīng)該買哪些,應(yīng)該用哪些數(shù)據(jù)進行整合。我個人專注在如何去理解、使用和優(yōu)化人工智能和數(shù)據(jù)的服務(wù)。

            36 氪:斯坦福大學(xué)在人工智能研究有很強的實力,你置身其中有哪些感受?

            陳凌蛟:第一是我們這兒,至少我看到的情況,大家非常樂于去擁抱很新的技術(shù),非常愿意學(xué)習(xí)新的知識,非常敢于進入到一個可能自己從前幾乎不了解的領(lǐng)域。包括非常資深的老教授,并沒有說為了我的名聲或者怎么樣,我不碰新東西。這個非常讓我震撼。

            第二是斯坦福有非常好的產(chǎn)學(xué)結(jié)合的機會。它就在硅谷,有個笑話是你在斯坦福計算系跟教授聊天,每一個人都開了一家自己的公司。這里有很多的機會,有很多投資人和公司。很多學(xué)術(shù)上的想法可以很快投入應(yīng)用和生產(chǎn)場景當(dāng)中去。

            36 氪:人工智能研究現(xiàn)在非常熱門,你會感到一些競爭壓力嗎?

            陳凌蛟:壓力是有啊。我看到非常多來自各個領(lǐng)域的優(yōu)秀學(xué)者,都涌進了人工智能領(lǐng)域。和優(yōu)秀人才在一起,壓力不可能小啦。

            36 氪:今年這波 AI 大浪潮,對產(chǎn)業(yè)界的沖擊很大,你覺得對學(xué)術(shù)界有什么影響?

            陳凌蛟:現(xiàn)在很多人在做大模型(研究)。我不覺得這是個壞事情。因為大模型在很多領(lǐng)域產(chǎn)生了革命性的變化。比如研究發(fā)現(xiàn) GPT-4 這樣級別的模型可以通過包括醫(yī)師資格考試、律師資格考試在內(nèi)的許多專業(yè)考試。這給人才培養(yǎng)與選拔提出了新問題:究竟什么樣的考核方式,才能適應(yīng)后大模型時代的人才選拔?從這個意義上,大模型至少幫助我們重新去審視人才培養(yǎng)乃至專業(yè)教育的問題。

            歡迎交流

            標(biāo)簽:

            上一篇:車評頭條:2020款華晨寶馬3系日常實用性測試報告
            下一篇:最后一頁