亚洲综合av一区,国产精品美女久久久久久久久久久,国产成人精品网址

海天瑞聲發(fā)布中文千萬輪對話語料庫DOTS-NLP-216

2023-07-31 12:02:42來源:永州新聞網(wǎng)

近年來，隨著數(shù)據(jù)處理技術(shù)的飛速進(jìn)化以及計算能力的不斷提升，大模型及其在生成式人工智能中的應(yīng)用得到了迅猛發(fā)展。這一領(lǐng)域的突破性進(jìn)展不僅為各行各業(yè)帶來了巨大的變革潛力，也為我們對人工智能的未來發(fā)展充滿了無限想象。

【資料圖】

近期，Llama 2 發(fā)布的消息在AI圈引起了巨大轟動。在 Llama 2 官網(wǎng)公布的50余家合作伙伴中，作為唯一的中國企業(yè)，海天瑞聲榜上有名，成為 Llama 2 全球合作伙伴。同時，海天瑞聲COO李科及CTO黃宇凱作為 Supporter，支持 Meta AI 的這種開源行為。可以讓每個人都能從這個技術(shù)中受益良多，并為技術(shù)帶來足夠的透明度、審慎性和可信性。

當(dāng)前在中文對話領(lǐng)域，公開的數(shù)據(jù)集往往量少、分布有偏、價格昂貴甚至不能商用。導(dǎo)致一些大模型在中文對話方面的能力，相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景，無論開源的還是閉源的大模型，都往往表現(xiàn)不佳。

海天瑞聲正式推出「中文千萬輪對話語料庫DOTS-NLP-216」。真實場景采集，符合中文表達(dá)習(xí)慣的自然對話數(shù)據(jù)，將為中文大語言模型（LLM）帶來新動能。我們致力于在安全合規(guī)的基礎(chǔ)上，為大模型提供更好的性能和魯棒性，幫助企業(yè)更輕松的構(gòu)建高質(zhì)量生成式AI應(yīng)用。

數(shù)據(jù)集優(yōu)勢：

·中文多輪對話：符合中文表達(dá)習(xí)慣，真實場景采集的自然對話

·超大規(guī)模：上億級 token

·立等可取：成品數(shù)據(jù)集

·自有版權(quán)：安全合規(guī)，可授權(quán)商用

數(shù)據(jù)集詳情：

這是一個符合中國人表達(dá)習(xí)慣的自然對話數(shù)據(jù)集，共計約1,0000,000輪，上億級token，包含正式&非正式風(fēng)格對話，使用偏口語化自然表達(dá)。覆蓋工作、生活、校園等場景，及金融、教育、娛樂、體育、汽車、科技等領(lǐng)域。

在數(shù)據(jù)集構(gòu)成上，DOTS-NLP-216包含了對真實場景的對話采集，及高度還原真實場景的模擬對話這兩種方式，兼顧分布的代表性、多樣性和樣本規(guī)模。

樣例：

據(jù)悉，海天瑞聲近期還發(fā)布了再融資預(yù)案，將建設(shè)不少于10大類型的大模型數(shù)據(jù)集系列產(chǎn)品，用于大語言模型、多模態(tài)大模型的訓(xùn)練和大模型評測。

標(biāo)簽：