海天瑞聲發布中文千萬輪對話語料庫DOTS-NLP-216
近年來,隨著數據處理技術的飛速進化以及計算能力的不斷提升,大模型及其在生成式人工智能中的應用得到了迅猛發展。這一領域的突破性進展不僅為各行各業帶來了巨大的變革潛力,也為我們對人工智能的未來發展充滿了無限想象。
【資料圖】
近期,Llama 2 發布的消息在AI圈引起了巨大轟動。在 Llama 2 官網公布的50余家合作伙伴中,作為唯一的中國企業,海天瑞聲榜上有名,成為 Llama 2 全球合作伙伴。同時,海天瑞聲COO李科及CTO黃宇凱作為 Supporter,支持 Meta AI 的這種開源行為。可以讓每個人都能從這個技術中受益良多,并為技術帶來足夠的透明度、審慎性和可信性。
當前在中文對話領域,公開的數據集往往量少、分布有偏、價格昂貴甚至不能商用。導致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現不佳。
海天瑞聲正式推出「中文千萬輪對話語料庫DOTS-NLP-216」。真實場景采集,符合中文表達習慣的自然對話數據,將為中文大語言模型(LLM)帶來新動能。我們致力于在安全合規的基礎上,為大模型提供更好的性能和魯棒性,幫助企業更輕松的構建高質量生成式AI應用。
數據集優勢:
·中文多輪對話:符合中文表達習慣,真實場景采集的自然對話
·超大規模:上億級 token
·立等可取:成品數據集
·自有版權:安全合規,可授權商用
數據集詳情:
這是一個符合中國人表達習慣的自然對話數據集,共計約1,0000,000輪,上億級token,包含正式&非正式風格對話,使用偏口語化自然表達。覆蓋工作、生活、校園等場景,及金融、教育、娛樂、體育、汽車、科技等領域。
在數據集構成上,DOTS-NLP-216包含了對真實場景的對話采集,及高度還原真實場景的模擬對話這兩種方式,兼顧分布的代表性、多樣性和樣本規模。
樣例:
據悉,海天瑞聲近期還發布了再融資預案,將建設不少于10大類型的大模型數據集系列產品,用于大語言模型、多模態大模型的訓練和大模型評測。
標簽: