精品一区二区三区四区电影_亚洲人在线视频_久久久91精品_日本欧美黄色

首頁> 資訊 > > 正文

對話斯坦福爆紅論文作者:GPT-4「變笨了」?可能并非如此

2023-08-19 15:46:44來源:36氪

文|林煒鑫

編輯|蘇建勛

兩個月前,一篇熱門帖子把火遍全球的 ChatGPT 推上 " 人工智障 " 的風口浪尖。


【資料圖】

帖子出現在科技新聞社區 Hacker News,發帖者提到,和之前相比,GPT-4 似乎變笨了:

" 它的編碼能力已經大大降低了。以前,每當我問一個問題。ChatGPT 有時會給我一個不正確的答案,但它能夠在后續問題后修復。現在,每當答案不正確的時候,不管我試了多少次,總是會返回一個錯誤的答案。它變得如此令人沮喪。"

許多網友借此吐槽 GPT-4 的糟糕表現,間接導致 ChatGPT 的使用量逐漸下滑。興許是為了平息爭議,OpenAI 一度矢口否認,表示 GPT-4 模型自發布以來,并未有任何變化。" 我們沒有把 GPT-4 變笨,相反我們每個新版本,都讓它比以前更聰明了。"

直到 7 月 19 日,一篇新論文將這個話題推向高潮。來自斯坦福大學和加州大學伯克利分校的三位學者研究發現,相比 3 月份的 GPT-4,6 月份的 GPT-4 的性能表現變差了。

之前還只能嘀咕幾句的網友,爭相傳閱這篇論文,光是一條介紹論文的推特,就有幾千個點贊與轉發。苦 ChatGPT 久矣的網友,似乎找到了打臉 OpenAI 的 " 武器 "。

論文在推特上引起廣泛的討論

論文的第一作者是斯坦福大學計算系博士陳凌蛟。攻讀博士前,他曾在谷歌、微軟研究院等地工作,2018 年獲得谷歌博士生獎研金。近一年來,陳凌蛟的研究方向主要集中在大模型服務和數據服務。

本周,36 氪與陳凌蛟圍繞這篇論文進行了對話。陳凌蛟表示,四月底他觀察到網上很多用戶對 GPT 的抱怨,便想做一些定量分析," 看看到底怎么回事 "。研究結果則令他們大感意外,GPT 模型確實不像預計的那樣越變越好,相反在行為上出現較大的波動。

這些行為變化背后的根本原因是什么?網上涌現了很多猜測。有一部分人認為,OpenAI 可能為了控制成本,有意使新模型性能下降。

一個證據便是,原先 3 小時能給 ChatGPT 發送 100 條信息,現在只能發送 25 條。還有一部分人懷疑,開發者往模型添加了一些安全機制,使 GPT 的回答更符合人類價值觀,但導致 GPT 自身的推理能力變差。

陳凌蛟告訴 36 氪,以上都是合理推測,但是模型目前 " 完全不透明 ",他沒辦法得出確定性的結論,這項研究只能是讓用戶清楚模型性能并不總是越來越好。

有趣的是,OpenAI 的態度不再強硬,表示會就這個現象進一步調查。而論文剛在 arXiv 網站掛出不久,OpenAI 便做出一個新舉措:原先準備下架的 3 月份 GPT-4 模型,將會延遲到明年夏天。"(我們的論文)至少給大家爭取到一年的使用時間。" 陳凌蛟說。

陳凌蛟透露,針對模型性能的監測是一項長期工作,他們計劃將做更精細的行為變化分析。就在 8 月初,他們對這篇論文進行了更新,在新文章里,回應了學術界對研究的一些質疑。

以下是 36 氪與陳凌蛟的對話,經 36 氪編輯與整理:

GPT 性能出現巨大的波動

36 氪:做這個研究的契機是什么?

陳凌蛟:我們很早就觀察到非常多用戶抱怨說,他們使用的 ChatGPT 或者 GPT-4 的性能下降。

例如,一些用戶接入 ChatGPT 或 GPT-4 來搭建或改進他們的推薦系統。他們最開始接入模型時效果非常好,但一段時間后,卻發現了顯著的效果下降。人們想要了解究竟發生了什么。

模型的這種時移特性,是許多大語言模型用戶遇到的很大痛點。因此,我們希望在這個痛點上做一些定量分析,看看到底怎么回事。

36 氪:你們是想實錘一下 GPT 到底有沒有變笨了?

陳凌蛟:我們并沒有預設立場,實驗的結果也并不支持這一結論。實際上,我們想了解和分析的,是它的行為如何發生變化。

這個變化對用戶來說是正面還是負面,要取決于具體應用場景和訴求。但變化會給你的實際應用帶來一些額外工作,至少你要去檢測,并做出應對。

36 氪:你們取了 3 月和 6 月這兩個時間節點,是精心設計的嗎?更長或更短的時間跨度,會對研究造成不同的影響嗎?

陳凌蛟:這是個非常好的問題。實際上我們希望并正在做更為精細的遷移研究,不止三個月,可能是一個月,甚至是兩禮拜。之所以最后是三個月周期,原因很簡單,因為這是 OpenAI 自己提供的兩個明確的時間節點,他們提供的接口有 March Version(三月份版本)和 June Version(六月版本)。最后的(研究)結果對我們來說也很意外。三個月的時間就產生了很大差別。

36 氪:讓你們意外的是什么?

陳凌蛟:一個是它在一些數學問題上的行為變化很大。比如說做素數或合數的判斷,很容易,對吧?它六月份變得弱很多。一種潛在的可能是新模型并沒有真的按照用戶提示來完成任務,比如思維鏈的提示,對新模型的效果遠不如老模型。

第二個,我們也看到新模型對非常多的問題傾向于不去回答,或者是給出道歉式的回答," 對不起我解決不了這個問題 "。對敏感或存在攻擊性的問題,這種行為是合理的。但有些時候這種不回答令人并不十分滿意。

比方說,我們最近設計了份調查問卷,里面有很有趣的預測性問題,例如 " 你認為將來的 20 年,美國在全世界的影響力是會變更大,還是會變更小 "。類似這樣的問題,新模型拒絕回答。這些問題并沒有標準答案。但很多時候人們希望大語言模型提供的,正是對未知的、沒有標準答案的問題提供參考。如果這些語言模型以前能回答,現在卻回答不了,這可能會讓大家很失望。

36 氪:新模型拒絕回答敏感問題,是因為開發者在模型里加入了安全機制嗎?

陳凌蛟:這是一種合理的推測。但我們無法確定原因,因為模型是閉源的。缺少技術細節的情況下,我們不能做確定性的回答。

36 氪:關于模型行為變化的根本原因,你的推測是什么?是跟模型本身、訓練數據,還是掩蓋機制等相關?

陳凌蛟:我們也很希望搞清楚這個問題的原因,但是目前沒有結論。你說的數據、模型結構,或者其他機制,都有可能。

這也是很多用戶面臨的實際問題:只掌握大語言模型的接口,但缺少內部信息。我們希望(這個研究)給用戶提供一個參考。雖然不知道為什么變化,但至少知道發生了什么變化,從而在使用時心里有數。

36 氪:整個研究過程中有沒有比較麻煩或糾結的時候?

陳凌蛟:這個項目最大的難點,或者說最有意思的部分,就是對問題的設計。你可以問它任何問題,它總能給你答案,那么你到底問哪些問題?這個設計是比較有趣,也有一定難度。另外,你怎么設計你的指標?你問了很多問題,也得到答案,這些答案可能是千奇百怪的,那你怎么去做自動化分析,然后設計出讓大家一下就明白了的這種指標。

36 氪:具體應該如何設計呢?

陳凌蛟:在設計過程中,很多時候你最初的設想,和你看到的結果完全不一致,應該怎么調整。我舉個例子。還是剛才那個 " 美國是更重要了還是不重要了 " 的問題。模型版本迭代了,我想看是不是同個問題的答案發生變化。那我就去測了,結果發現變化完全不是這么回事。

老模型會從四個選項挑一個,新模型沒有選任何一個選項,直接說我不能回答這個問題。后來我把拒絕回答也變成其中一個選項。但新模型還是拒絕做選擇,它就說,我沒有辦法回答帶有主觀性的問題。

這就得重新調整評估指標,才變成后來大家看到的回答頻率,就是多少問題真正回答,多少問題拒絕回答。

36 氪:你覺得這篇論文還有哪些不足?

陳凌蛟:其實有很多還沒做的事情。例如,我們的測試還是停留在相對比較簡單的問題上。模型在更復雜的應用場景上的變化還有待分析。

論文讓 OpenAI 延遲下架舊模型

36 氪:這篇論文在網上很火,你收到了哪些評價和反饋?

陳凌蛟:有很多建設性的反饋和建議。比如來自加州大學伯克利分校的自然語言或文學方向的教授,他對我們這個事情很感興趣。這些大模型都是在語料很豐富的語言上訓練,比如英語,那在很多語料不豐富的小語種上,這些模型呈現什么樣的行為變化呢?他們很關心,建議說是不是可以對小語種做一些探索和研究,我覺得是很有價值的。

36 氪:論文發表后,有兩位普林斯頓教授提出質疑,覺得論文只是簡單顯示 GPT-4 行為的改變,不能等同于能力的下降。你怎么看待這個反對意見?

陳凌蛟:我們的文章在 8 月份有一個更新,其中對他們的質疑其實做了更完整的回應。我這邊可以簡單講兩句。首先我覺得他們做的分析很深入,非常好。他們質疑的也不是我們的工作,而是 "GPT-4 變差了 " 這種簡單的結論。實際上我們論文里的結論一直強調是模型的行為發生了變化。更嚴格地說,他們的工作是對我們的一種補充。

我們最近做了額外的實驗,一部分驗證了他們的判斷,但也得出新結論。他們認為模型的先驗知識發生了變化,比如說原先傾向于認為一個數更可能是素數,但現在傾向于不是素數。但是我們也看到這種傾向性的調整在老模型上是不明顯的。

36 氪:" 先驗知識 " 該怎么理解?

陳凌蛟:可以理解為模型在沒有外部信息時對特定問題的預設立場。拿人來類比,比如,在不看天氣預報時,有人根據經驗認為第二天大概率下雨,有人則認為是晴天,這就是先驗。

36 氪:你們又做了哪些實驗?

陳凌蛟:他們(普林斯頓教授)之前說實驗只做了素數,沒做合數。那我們把素數跟合數放在一塊,老模型大概有 84、85 的精度,說明它并不是純粹的先驗知識,但新模型的精度很一般,只有 50% 左右,就跟瞎猜差不多了。

所以說,新老模型都有先驗,但是新模型受到先驗影響很大。通俗地說,新模型更固執,不會變通。

36 氪:所以你們想把這個研究作為長期項目進行下去?

陳凌蛟:對,我們還在持續跟進這個領域,而且我們會對后面更新的模型進行性能分析和監測。

36 氪:這項研究對 GPT 的普通用戶有什么意義?

陳凌蛟:我覺得至少有幾個方面。第一個就是在使用過程當中,可以意識到 GPT-4 性能會有很大的波動。所以大家可能要有,我不能說警惕心,至少應該是一些心理準備。

第二個就是我們為那些非常小心或警惕的用戶延長了使用老模型的時間。也就在我們文章剛掛出來沒多久,OpenAI 做了一個我認為是非常好的一個決策。他們把三月份版本的使用時間延長了,原本就要下架,現在至少支持到明年的七八月份。

可能 OpenAI 為了留住那些更認可舊模型的用戶,這是比較實在的(影響),至少給大家爭取到一年的使用時間。

36 氪:OpenAI 的人有沒有找到你們做交流?

陳凌蛟:暫時沒有面對面的溝通,但在網絡上他們有回應。除了延長老模型的時間,他們一個相關負責人在推特上做了回應。他說他們很感謝我們的工作,已經注意到模型行為的變化,并會進一步探究到底發生什么事情。

36 氪:很多媒體對這篇論文的解讀就是斯坦福大學證明了 GPT-4 變笨了,你看到這些報道,是什么樣的感受?

陳凌蛟:我能看到正面和負面的部分。從正面來說引起大家的重視,這些大模型并不是總是在各個方面都在變好的。

但反過來說,我更大的擔心是,這些并不非常準確的解讀會不會帶給大家更多的困惑或誤導。比如有的人看了之后可能理解為 GPT-4 不能再用了。這不是我們的初衷。恰恰相反,我們支持大家開發與使用大模型,但建議大家能夠謹慎而負責地對待這些模型。

更多人涌進 AI 研究

36 氪:你自己主要的研究方向是什么?

陳凌蛟:主要是兩個比較大的方向。一個是提供大語言模型服務,用戶如何使用這種服務,如何優化使用策略。不光是性能,包括反應延遲,還有開銷,可能有的模型貴,有的模型便宜一點,那么用戶如何做這種取舍。這其實是一個很大的研究方向。包括我們研究這種模型的行為變遷,也是使用決策當中需要去考慮的部分。

還有就是研究數據服務。模型背后支撐的重要來源就是數據。我們如何在這個數據市場里幫助用戶取得比較好的性能,或者做比較明智的決策。應該買哪些數據,不應該買哪些,應該用哪些數據進行整合。我個人專注在如何去理解、使用和優化人工智能和數據的服務。

36 氪:斯坦福大學在人工智能研究有很強的實力,你置身其中有哪些感受?

陳凌蛟:第一是我們這兒,至少我看到的情況,大家非常樂于去擁抱很新的技術,非常愿意學習新的知識,非常敢于進入到一個可能自己從前幾乎不了解的領域。包括非常資深的老教授,并沒有說為了我的名聲或者怎么樣,我不碰新東西。這個非常讓我震撼。

第二是斯坦福有非常好的產學結合的機會。它就在硅谷,有個笑話是你在斯坦福計算系跟教授聊天,每一個人都開了一家自己的公司。這里有很多的機會,有很多投資人和公司。很多學術上的想法可以很快投入應用和生產場景當中去。

36 氪:人工智能研究現在非常熱門,你會感到一些競爭壓力嗎?

陳凌蛟:壓力是有啊。我看到非常多來自各個領域的優秀學者,都涌進了人工智能領域。和優秀人才在一起,壓力不可能小啦。

36 氪:今年這波 AI 大浪潮,對產業界的沖擊很大,你覺得對學術界有什么影響?

陳凌蛟:現在很多人在做大模型(研究)。我不覺得這是個壞事情。因為大模型在很多領域產生了革命性的變化。比如研究發現 GPT-4 這樣級別的模型可以通過包括醫師資格考試、律師資格考試在內的許多專業考試。這給人才培養與選拔提出了新問題:究竟什么樣的考核方式,才能適應后大模型時代的人才選拔?從這個意義上,大模型至少幫助我們重新去審視人才培養乃至專業教育的問題。

歡迎交流

標簽:

上一篇:車評頭條:2020款華晨寶馬3系日常實用性測試報告
下一篇:最后一頁
精品一区二区三区四区电影_亚洲人在线视频_久久久91精品_日本欧美黄色

            极品粉嫩美女露脸啪啪| 国产3p在线播放| www.com久久久| 手机看片福利盒子久久| 成人在线免费在线观看| 人人妻人人添人人爽欧美一区| 99热这里只有精品免费| 国产奶头好大揉着好爽视频| 日本福利视频导航| 国产盗摄视频在线观看| 一级黄色录像免费看| 午夜在线视频免费观看| 欧美另类videos| 日本男女交配视频| 欧美在线一区视频| 亚洲 自拍 另类小说综合图区| 国产美女在线一区| 大陆极品少妇内射aaaaa| 116极品美女午夜一级| 欧美一区二区三区爽大粗免费| 免费无遮挡无码永久视频| 熟女性饥渴一区二区三区| 午夜激情福利在线| 99日在线视频| 日本一二三区视频在线| 欧美成人三级在线视频| 成年人视频在线免费| 亚洲欧美自拍另类日韩| 国产精品av免费| 成人网站免费观看入口| 日韩欧美在线播放视频| 亚洲天堂2018av| 99久久久无码国产精品性色戒| 草草草视频在线观看| 久久久免费视频网站| 波多野结衣xxxx| 香蕉视频xxxx| 色哟哟免费网站| 国产精品裸体瑜伽视频| 杨幂毛片午夜性生毛片| 青青草原国产免费| 欧美a v在线播放| 中文字幕第88页| 男女裸体影院高潮| 青青视频在线播放| 在线免费看污网站| 国产3p露脸普通话对白| 国产精品一区二区羞羞答答| 老汉色影院首页| 成年网站在线免费观看| 免费成人黄色大片| 欧美亚洲日本一区二区三区| 亚洲少妇久久久| av在线com| www.亚洲高清| 国产欧美日韩网站| 99视频在线观看视频| 国产a级一级片| www.黄色网址.com| 9久久婷婷国产综合精品性色| 欧美 亚洲 视频| 天天干天天爽天天射| 丝袜人妻一区二区三区| а 天堂 在线| 日韩av一二三四| 久久这里只有精品8| 57pao国产成永久免费视频| 91九色丨porny丨国产jk| 午夜一区二区视频| 97国产精东麻豆人妻电影 | 99久久免费观看| 九九热免费在线观看| 日本一道本久久| 国产成人精品免费看在线播放| 成人三级视频在线播放| av影院在线播放| 亚洲va在线va天堂va偷拍| 99福利在线观看| www.日本少妇| 污免费在线观看| 艹b视频在线观看| 美女av免费在线观看| 日本a在线天堂| 日本高清免费在线视频| 91在线视频观看免费| 国产午夜大地久久| a级片一区二区| 91欧美一区二区三区| 污片在线免费看| 激情婷婷综合网| 久久国产亚洲精品无码| 91免费国产精品| 中国一级黄色录像| 亚洲午夜激情影院| 香港日本韩国三级网站| 内射国产内射夫妻免费频道| 日韩小视频网站| 9色视频在线观看| 欧美h视频在线观看| 日韩a一级欧美一级| 中文字幕中文在线| 色播五月综合网| 天天操天天爱天天爽| 亚洲五月天综合| 日韩一级在线免费观看| 国产1区2区在线| 国产偷人视频免费| 国产免费人做人爱午夜视频| 女人天堂av手机在线| 久久久久久久中文| 日韩免费视频播放| 三上悠亚久久精品| 91视频 -- 69xx| 欧美 日韩精品| 日韩中文字幕二区| 美女黄色片视频| 亚洲娇小娇小娇小| 午夜天堂在线视频| 99久久久无码国产精品性色戒| 亚洲欧美一二三| 国产在线视频综合| 国产主播自拍av| 极品美女扒开粉嫩小泬| 欧美精品色婷婷五月综合| av免费在线播放网站| 免费一级特黄录像| 中文字幕日韩综合| 免费国产成人看片在线| 久久在线中文字幕| 浮妇高潮喷白浆视频| 99久久国产宗和精品1上映| 国产免费又粗又猛又爽| 国产成人在线综合| 国产激情在线看| 久久久999免费视频| 毛葺葺老太做受视频| 亚洲精品免费一区亚洲精品免费精品一区| 在线视频观看一区二区| 欧美少妇在线观看| 大陆极品少妇内射aaaaa| 欧美性猛交久久久乱大交小说 | 玖玖精品在线视频| 可以看毛片的网址| 国产熟人av一二三区| 国产高清av片| 97在线国产视频| www.色就是色| 青娱乐精品在线| 免费观看美女裸体网站| 2025韩国理伦片在线观看| 欧美少妇一级片| 国产日韩一区二区在线| www.成年人| 国产v片免费观看| 欧美wwwwwww| 国产精品久久久久7777| 亚洲色图久久久| 国产精品无码电影在线观看| 久久人妻精品白浆国产| 亚洲制服中文字幕| 国产综合av在线| 在线一区二区不卡| 俄罗斯av网站| 999热精品视频| 1024精品视频| 好色先生视频污| 妞干网在线免费视频| 欧美大片免费播放| 人人爽人人av| 国产日韩欧美精品在线观看| xxww在线观看| 国产精品后入内射日本在线观看| 午夜福利123| 中文字幕无码精品亚洲35| 在线观看视频在线观看| 日韩av资源在线| 黄网站色视频免费观看| 中文av一区二区三区| 9久久9毛片又大又硬又粗| 欧美 另类 交| 成人3d动漫一区二区三区| 免费视频爱爱太爽了| 日本中文字幕二区| 超碰97人人射妻| 日本wwwcom| 裸体裸乳免费看| 久久久久久久久久久久91| 日本福利视频在线| www婷婷av久久久影片| 亚洲欧美手机在线| 日本熟妇人妻中出| 免费欧美一级视频| 免费特级黄色片| 国产对白在线播放| 中文字幕在线观看日| www.欧美日本| 免费在线观看亚洲视频| 加勒比海盗1在线观看免费国语版| www.夜夜爽| 手机在线免费观看毛片|