對話斯坦福爆紅論文作者:GPT-4「變笨了」?可能并非如此
文|林煒鑫
編輯|蘇建勛
兩個月前,一篇熱門帖子把火遍全球的 ChatGPT 推上 " 人工智障 " 的風口浪尖。
【資料圖】
帖子出現在科技新聞社區 Hacker News,發帖者提到,和之前相比,GPT-4 似乎變笨了:
" 它的編碼能力已經大大降低了。以前,每當我問一個問題。ChatGPT 有時會給我一個不正確的答案,但它能夠在后續問題后修復。現在,每當答案不正確的時候,不管我試了多少次,總是會返回一個錯誤的答案。它變得如此令人沮喪。"
許多網友借此吐槽 GPT-4 的糟糕表現,間接導致 ChatGPT 的使用量逐漸下滑。興許是為了平息爭議,OpenAI 一度矢口否認,表示 GPT-4 模型自發布以來,并未有任何變化。" 我們沒有把 GPT-4 變笨,相反我們每個新版本,都讓它比以前更聰明了。"
直到 7 月 19 日,一篇新論文將這個話題推向高潮。來自斯坦福大學和加州大學伯克利分校的三位學者研究發現,相比 3 月份的 GPT-4,6 月份的 GPT-4 的性能表現變差了。
之前還只能嘀咕幾句的網友,爭相傳閱這篇論文,光是一條介紹論文的推特,就有幾千個點贊與轉發。苦 ChatGPT 久矣的網友,似乎找到了打臉 OpenAI 的 " 武器 "。
論文在推特上引起廣泛的討論論文的第一作者是斯坦福大學計算系博士陳凌蛟。攻讀博士前,他曾在谷歌、微軟研究院等地工作,2018 年獲得谷歌博士生獎研金。近一年來,陳凌蛟的研究方向主要集中在大模型服務和數據服務。
本周,36 氪與陳凌蛟圍繞這篇論文進行了對話。陳凌蛟表示,四月底他觀察到網上很多用戶對 GPT 的抱怨,便想做一些定量分析," 看看到底怎么回事 "。研究結果則令他們大感意外,GPT 模型確實不像預計的那樣越變越好,相反在行為上出現較大的波動。
這些行為變化背后的根本原因是什么?網上涌現了很多猜測。有一部分人認為,OpenAI 可能為了控制成本,有意使新模型性能下降。
一個證據便是,原先 3 小時能給 ChatGPT 發送 100 條信息,現在只能發送 25 條。還有一部分人懷疑,開發者往模型添加了一些安全機制,使 GPT 的回答更符合人類價值觀,但導致 GPT 自身的推理能力變差。
陳凌蛟告訴 36 氪,以上都是合理推測,但是模型目前 " 完全不透明 ",他沒辦法得出確定性的結論,這項研究只能是讓用戶清楚模型性能并不總是越來越好。
有趣的是,OpenAI 的態度不再強硬,表示會就這個現象進一步調查。而論文剛在 arXiv 網站掛出不久,OpenAI 便做出一個新舉措:原先準備下架的 3 月份 GPT-4 模型,將會延遲到明年夏天。"(我們的論文)至少給大家爭取到一年的使用時間。" 陳凌蛟說。
陳凌蛟透露,針對模型性能的監測是一項長期工作,他們計劃將做更精細的行為變化分析。就在 8 月初,他們對這篇論文進行了更新,在新文章里,回應了學術界對研究的一些質疑。
以下是 36 氪與陳凌蛟的對話,經 36 氪編輯與整理:
GPT 性能出現巨大的波動
36 氪:做這個研究的契機是什么?
陳凌蛟:我們很早就觀察到非常多用戶抱怨說,他們使用的 ChatGPT 或者 GPT-4 的性能下降。
例如,一些用戶接入 ChatGPT 或 GPT-4 來搭建或改進他們的推薦系統。他們最開始接入模型時效果非常好,但一段時間后,卻發現了顯著的效果下降。人們想要了解究竟發生了什么。
模型的這種時移特性,是許多大語言模型用戶遇到的很大痛點。因此,我們希望在這個痛點上做一些定量分析,看看到底怎么回事。
36 氪:你們是想實錘一下 GPT 到底有沒有變笨了?
陳凌蛟:我們并沒有預設立場,實驗的結果也并不支持這一結論。實際上,我們想了解和分析的,是它的行為如何發生變化。
這個變化對用戶來說是正面還是負面,要取決于具體應用場景和訴求。但變化會給你的實際應用帶來一些額外工作,至少你要去檢測,并做出應對。
36 氪:你們取了 3 月和 6 月這兩個時間節點,是精心設計的嗎?更長或更短的時間跨度,會對研究造成不同的影響嗎?
陳凌蛟:這是個非常好的問題。實際上我們希望并正在做更為精細的遷移研究,不止三個月,可能是一個月,甚至是兩禮拜。之所以最后是三個月周期,原因很簡單,因為這是 OpenAI 自己提供的兩個明確的時間節點,他們提供的接口有 March Version(三月份版本)和 June Version(六月版本)。最后的(研究)結果對我們來說也很意外。三個月的時間就產生了很大差別。
36 氪:讓你們意外的是什么?
陳凌蛟:一個是它在一些數學問題上的行為變化很大。比如說做素數或合數的判斷,很容易,對吧?它六月份變得弱很多。一種潛在的可能是新模型并沒有真的按照用戶提示來完成任務,比如思維鏈的提示,對新模型的效果遠不如老模型。
第二個,我們也看到新模型對非常多的問題傾向于不去回答,或者是給出道歉式的回答," 對不起我解決不了這個問題 "。對敏感或存在攻擊性的問題,這種行為是合理的。但有些時候這種不回答令人并不十分滿意。
比方說,我們最近設計了份調查問卷,里面有很有趣的預測性問題,例如 " 你認為將來的 20 年,美國在全世界的影響力是會變更大,還是會變更小 "。類似這樣的問題,新模型拒絕回答。這些問題并沒有標準答案。但很多時候人們希望大語言模型提供的,正是對未知的、沒有標準答案的問題提供參考。如果這些語言模型以前能回答,現在卻回答不了,這可能會讓大家很失望。
36 氪:新模型拒絕回答敏感問題,是因為開發者在模型里加入了安全機制嗎?
陳凌蛟:這是一種合理的推測。但我們無法確定原因,因為模型是閉源的。缺少技術細節的情況下,我們不能做確定性的回答。
36 氪:關于模型行為變化的根本原因,你的推測是什么?是跟模型本身、訓練數據,還是掩蓋機制等相關?
陳凌蛟:我們也很希望搞清楚這個問題的原因,但是目前沒有結論。你說的數據、模型結構,或者其他機制,都有可能。
這也是很多用戶面臨的實際問題:只掌握大語言模型的接口,但缺少內部信息。我們希望(這個研究)給用戶提供一個參考。雖然不知道為什么變化,但至少知道發生了什么變化,從而在使用時心里有數。
36 氪:整個研究過程中有沒有比較麻煩或糾結的時候?
陳凌蛟:這個項目最大的難點,或者說最有意思的部分,就是對問題的設計。你可以問它任何問題,它總能給你答案,那么你到底問哪些問題?這個設計是比較有趣,也有一定難度。另外,你怎么設計你的指標?你問了很多問題,也得到答案,這些答案可能是千奇百怪的,那你怎么去做自動化分析,然后設計出讓大家一下就明白了的這種指標。
36 氪:具體應該如何設計呢?
陳凌蛟:在設計過程中,很多時候你最初的設想,和你看到的結果完全不一致,應該怎么調整。我舉個例子。還是剛才那個 " 美國是更重要了還是不重要了 " 的問題。模型版本迭代了,我想看是不是同個問題的答案發生變化。那我就去測了,結果發現變化完全不是這么回事。
老模型會從四個選項挑一個,新模型沒有選任何一個選項,直接說我不能回答這個問題。后來我把拒絕回答也變成其中一個選項。但新模型還是拒絕做選擇,它就說,我沒有辦法回答帶有主觀性的問題。
這就得重新調整評估指標,才變成后來大家看到的回答頻率,就是多少問題真正回答,多少問題拒絕回答。
36 氪:你覺得這篇論文還有哪些不足?
陳凌蛟:其實有很多還沒做的事情。例如,我們的測試還是停留在相對比較簡單的問題上。模型在更復雜的應用場景上的變化還有待分析。
論文讓 OpenAI 延遲下架舊模型
36 氪:這篇論文在網上很火,你收到了哪些評價和反饋?
陳凌蛟:有很多建設性的反饋和建議。比如來自加州大學伯克利分校的自然語言或文學方向的教授,他對我們這個事情很感興趣。這些大模型都是在語料很豐富的語言上訓練,比如英語,那在很多語料不豐富的小語種上,這些模型呈現什么樣的行為變化呢?他們很關心,建議說是不是可以對小語種做一些探索和研究,我覺得是很有價值的。
36 氪:論文發表后,有兩位普林斯頓教授提出質疑,覺得論文只是簡單顯示 GPT-4 行為的改變,不能等同于能力的下降。你怎么看待這個反對意見?
陳凌蛟:我們的文章在 8 月份有一個更新,其中對他們的質疑其實做了更完整的回應。我這邊可以簡單講兩句。首先我覺得他們做的分析很深入,非常好。他們質疑的也不是我們的工作,而是 "GPT-4 變差了 " 這種簡單的結論。實際上我們論文里的結論一直強調是模型的行為發生了變化。更嚴格地說,他們的工作是對我們的一種補充。
我們最近做了額外的實驗,一部分驗證了他們的判斷,但也得出新結論。他們認為模型的先驗知識發生了變化,比如說原先傾向于認為一個數更可能是素數,但現在傾向于不是素數。但是我們也看到這種傾向性的調整在老模型上是不明顯的。
36 氪:" 先驗知識 " 該怎么理解?
陳凌蛟:可以理解為模型在沒有外部信息時對特定問題的預設立場。拿人來類比,比如,在不看天氣預報時,有人根據經驗認為第二天大概率下雨,有人則認為是晴天,這就是先驗。
36 氪:你們又做了哪些實驗?
陳凌蛟:他們(普林斯頓教授)之前說實驗只做了素數,沒做合數。那我們把素數跟合數放在一塊,老模型大概有 84、85 的精度,說明它并不是純粹的先驗知識,但新模型的精度很一般,只有 50% 左右,就跟瞎猜差不多了。
所以說,新老模型都有先驗,但是新模型受到先驗影響很大。通俗地說,新模型更固執,不會變通。
36 氪:所以你們想把這個研究作為長期項目進行下去?
陳凌蛟:對,我們還在持續跟進這個領域,而且我們會對后面更新的模型進行性能分析和監測。
36 氪:這項研究對 GPT 的普通用戶有什么意義?
陳凌蛟:我覺得至少有幾個方面。第一個就是在使用過程當中,可以意識到 GPT-4 性能會有很大的波動。所以大家可能要有,我不能說警惕心,至少應該是一些心理準備。
第二個就是我們為那些非常小心或警惕的用戶延長了使用老模型的時間。也就在我們文章剛掛出來沒多久,OpenAI 做了一個我認為是非常好的一個決策。他們把三月份版本的使用時間延長了,原本就要下架,現在至少支持到明年的七八月份。
可能 OpenAI 為了留住那些更認可舊模型的用戶,這是比較實在的(影響),至少給大家爭取到一年的使用時間。
36 氪:OpenAI 的人有沒有找到你們做交流?
陳凌蛟:暫時沒有面對面的溝通,但在網絡上他們有回應。除了延長老模型的時間,他們一個相關負責人在推特上做了回應。他說他們很感謝我們的工作,已經注意到模型行為的變化,并會進一步探究到底發生什么事情。
36 氪:很多媒體對這篇論文的解讀就是斯坦福大學證明了 GPT-4 變笨了,你看到這些報道,是什么樣的感受?
陳凌蛟:我能看到正面和負面的部分。從正面來說引起大家的重視,這些大模型并不是總是在各個方面都在變好的。
但反過來說,我更大的擔心是,這些并不非常準確的解讀會不會帶給大家更多的困惑或誤導。比如有的人看了之后可能理解為 GPT-4 不能再用了。這不是我們的初衷。恰恰相反,我們支持大家開發與使用大模型,但建議大家能夠謹慎而負責地對待這些模型。
更多人涌進 AI 研究
36 氪:你自己主要的研究方向是什么?
陳凌蛟:主要是兩個比較大的方向。一個是提供大語言模型服務,用戶如何使用這種服務,如何優化使用策略。不光是性能,包括反應延遲,還有開銷,可能有的模型貴,有的模型便宜一點,那么用戶如何做這種取舍。這其實是一個很大的研究方向。包括我們研究這種模型的行為變遷,也是使用決策當中需要去考慮的部分。
還有就是研究數據服務。模型背后支撐的重要來源就是數據。我們如何在這個數據市場里幫助用戶取得比較好的性能,或者做比較明智的決策。應該買哪些數據,不應該買哪些,應該用哪些數據進行整合。我個人專注在如何去理解、使用和優化人工智能和數據的服務。
36 氪:斯坦福大學在人工智能研究有很強的實力,你置身其中有哪些感受?
陳凌蛟:第一是我們這兒,至少我看到的情況,大家非常樂于去擁抱很新的技術,非常愿意學習新的知識,非常敢于進入到一個可能自己從前幾乎不了解的領域。包括非常資深的老教授,并沒有說為了我的名聲或者怎么樣,我不碰新東西。這個非常讓我震撼。
第二是斯坦福有非常好的產學結合的機會。它就在硅谷,有個笑話是你在斯坦福計算系跟教授聊天,每一個人都開了一家自己的公司。這里有很多的機會,有很多投資人和公司。很多學術上的想法可以很快投入應用和生產場景當中去。
36 氪:人工智能研究現在非常熱門,你會感到一些競爭壓力嗎?
陳凌蛟:壓力是有啊。我看到非常多來自各個領域的優秀學者,都涌進了人工智能領域。和優秀人才在一起,壓力不可能小啦。
36 氪:今年這波 AI 大浪潮,對產業界的沖擊很大,你覺得對學術界有什么影響?
陳凌蛟:現在很多人在做大模型(研究)。我不覺得這是個壞事情。因為大模型在很多領域產生了革命性的變化。比如研究發現 GPT-4 這樣級別的模型可以通過包括醫師資格考試、律師資格考試在內的許多專業考試。這給人才培養與選拔提出了新問題:究竟什么樣的考核方式,才能適應后大模型時代的人才選拔?從這個意義上,大模型至少幫助我們重新去審視人才培養乃至專業教育的問題。
歡迎交流
標簽: