大語言模型誰最會“睜眼說瞎話”?最新報告揭示答案
隨著ChatGPT火爆全球,很多科技公司都相繼推出了自己的大語言模型。大語言模型的應用范圍非常廣泛,可以為各種行業(yè)提供智能化解決方案,但有時這些大模型也會憑空捏造答案,這一點成為人們最大的擔憂之一。
(相關資料圖)
根據(jù)機器學習監(jiān)控平臺Arthur AI的研究人員周四發(fā)布的一份報告,在頂級AI模型中,Cohere的大語言模型最能“說瞎話”,并且“能夠自信地給出不正確的答案”。
報告比較了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2,以及Cohere的Command“產(chǎn)生幻覺”的能力。
Cohere是一家位于加拿大的初創(chuàng)公司,6月剛獲2.7億美元的融資,英偉達、甲骨文、Salesforce Ventures等公司參與投資。而Anthropic是一家美國創(chuàng)業(yè)公司,幾天前剛獲韓國SK電信的1億美元融資,谷歌也是其投資人。
這兩家公司均以OpenAI為主要競爭對手。
總體而言,OpenAI的GPT-4在所有測試模型中表現(xiàn)最好,研究人員發(fā)現(xiàn),它的幻覺發(fā)生率比之前的版本GPT-3.5少——在數(shù)學問題上,它的幻覺發(fā)生率減少了33%到50%。
研究人員還發(fā)現(xiàn),Meta的Llama 2比GPT-4和Anthropic的Claude 2更易產(chǎn)生幻覺。
在實驗中,研究人員用組合數(shù)學、美國總統(tǒng)和摩洛哥政治領導人等不同類別的問題考察AI模型,“旨在包含導致大語言模型犯錯的關鍵因素,需要它們對信息進行多個推理步驟。”
Arthur的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Adam Wenchel表示,這是第一份“全面研究(AI模型)幻覺發(fā)生率的報告”。
報告發(fā)布之際,隨著AI進入發(fā)展快車道,人們比以往任何時候都更關注AI系統(tǒng)產(chǎn)生的錯誤信息。
“AI幻覺”(hallucinations)指的是大型語言模型完全捏造信息,并表現(xiàn)得好像他們在滔滔不絕地講事實。
舉例來說,在谷歌 2 月份為巴德拍攝的宣傳視頻中,這個聊天機器人對詹姆斯?韋伯太空望遠鏡做出了不真實的陳述;今年6月,ChatGPT 在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,涉案的紐約律師可能面臨制裁。
其它能力對比
這份報告還對AI模型的其它“能力”進行了對比,發(fā)現(xiàn)OpenAI的GPT-4最擅長數(shù)學,Meta的Llama 2各方面能力較為中規(guī)中矩,Anthropic的Claude 2最擅長了解自身局限性。
在另一個實驗中,研究人員還測試了AI模型會在多大程度上用警告短語來“對沖”它們給出的答案的風險,常見警告語包括“作為一個人工智能模型,我無法提供意見”。
研究人員發(fā)現(xiàn),GPT-4比GPT-3.5的警告語相對增加了50%。而Cohere的AI模型在任何回應中都沒有提供規(guī)避風險的警示語。相比之下,Anthropic的Claude-2在“自我意識”方面最可靠,即能夠準確地判斷自己知道什么、不知道什么,并且只回答有訓練數(shù)據(jù)支持的問題。
(來源:財聯(lián)社)
標簽:
- 01 寧德時代發(fā)布神行超充電池 全面開啟新能源車超充時代
- 02 上半年20-30萬元級別車型遠不如去年同期銷量好
- 03 濟南市歷城區(qū):工友創(chuàng)業(yè)園遍布田間地頭 搭建致富新路子
- 04 江蘇多地推遲中小學開學時間:南京、常州、南通等地推至9月4日上課
- 05 國元證券給予光庭信息買入評級,2023年半年度報告點評:業(yè)績實現(xiàn)快速增長,不斷加大研發(fā)投入
- 06 推薦首選領航版,全新一代日產(chǎn)逍客購車手冊
- 07 比亞迪方程豹發(fā)布會舉辦,王傳福開啟新能源汽車“更大的變革”
- 08 東風eπ品牌S73在吐魯番進行極熱測試:成功通過“烤”驗
- 09 “聚光燈”外的中國醫(yī)師
- 010 南京證券大宗交易溢價成交1171.16萬股,成交額1.16億元