在當(dāng)今數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的時(shí)代,數(shù)據(jù)已然躍升為基礎(chǔ)性資源、關(guān)鍵生產(chǎn)要素,更成為推動(dòng)生產(chǎn)力進(jìn)步的核心力量。近年來(lái),大模型技術(shù)領(lǐng)域取得了令人矚目的突破,而大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的投入無(wú)疑是這場(chǎng)技術(shù)飛躍的關(guān)鍵引擎,促使 “以數(shù)據(jù)為中心的人工智能” 邁入全新發(fā)展階段。以近期發(fā)布的DeepSeek系列模型為例,其在訓(xùn)練過(guò)程中大量運(yùn)用高質(zhì)量推理數(shù)據(jù)集,有力地彰顯了高質(zhì)量數(shù)據(jù)對(duì)于大模型與垂直領(lǐng)域深度融合的重要意義。
政府與業(yè)界對(duì)于行業(yè)高質(zhì)量發(fā)展所急需的數(shù)據(jù)缺乏清晰認(rèn)知。行業(yè)大模型的數(shù)據(jù)需求呈現(xiàn)出多樣性與復(fù)雜性的特征。不同行業(yè)部門對(duì)于模型場(chǎng)景數(shù)據(jù)的需求大相徑庭,涉及分析、決策、生成等不同任務(wù)類型,這就要求對(duì)業(yè)務(wù)場(chǎng)景有深刻透徹的理解。與此同時(shí),大模型訓(xùn)練涵蓋預(yù)訓(xùn)練、微調(diào)、反饋強(qiáng)化學(xué)習(xí)等多個(gè)階段,需要融合對(duì)齊多個(gè)數(shù)據(jù)源、多種數(shù)據(jù)類型,極大地增加了數(shù)據(jù)處理與管理的難度。
行業(yè)企業(yè)在高質(zhì)量數(shù)據(jù)集構(gòu)建方法與經(jīng)驗(yàn)方面存在明顯不足。構(gòu)建大模型數(shù)據(jù)集涉及數(shù)據(jù)采集、清洗、標(biāo)注、質(zhì)量評(píng)估等核心環(huán)節(jié),需要依據(jù)數(shù)據(jù)集規(guī)模龐大、多樣性豐富、行業(yè)垂直屬性強(qiáng)等特點(diǎn),開(kāi)展針對(duì)性的技術(shù)研發(fā)與適配。但傳統(tǒng)的數(shù)據(jù)處理工具與技術(shù)難以滿足大模型的嚴(yán)苛需求,急需引入先進(jìn)技術(shù)與工具,以提升數(shù)據(jù)處理的效率與準(zhǔn)確性。
目前,業(yè)界對(duì)于行業(yè)數(shù)據(jù)集質(zhì)量的評(píng)價(jià)缺乏統(tǒng)一且明確的標(biāo)準(zhǔn)。不同行業(yè)、不同數(shù)據(jù)源的數(shù)據(jù)在完整性與準(zhǔn)確性方面參差不齊,嚴(yán)重影響大模型的訓(xùn)練效果與預(yù)測(cè)準(zhǔn)確性,造成大量訓(xùn)練資源的浪費(fèi)。此外,數(shù)據(jù)獲取過(guò)程包含收集、清洗、標(biāo)注等多個(gè)環(huán)節(jié),耗費(fèi)大量時(shí)間與經(jīng)濟(jì)成本,而現(xiàn)有的數(shù)據(jù)構(gòu)建與采買缺乏統(tǒng)一衡量標(biāo)準(zhǔn),導(dǎo)致難以高效獲取高質(zhì)量數(shù)據(jù)集資源。
通識(shí)類數(shù)據(jù)集主要由政府機(jī)構(gòu)、科研機(jī)構(gòu)、開(kāi)源社區(qū)或大型互聯(lián)網(wǎng)企業(yè)等公開(kāi)數(shù)據(jù)構(gòu)建而成,具有廣泛的通用性,覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。
行業(yè)通用類數(shù)據(jù)集聚焦某一特定行業(yè)或領(lǐng)域的知識(shí),具有高度專業(yè)性與針對(duì)性。其中包含特定行業(yè)的知識(shí)、術(shù)語(yǔ)、場(chǎng)景以及業(yè)務(wù)流程等信息。
行業(yè)專用數(shù)據(jù)集依據(jù)企業(yè)自身業(yè)務(wù)場(chǎng)景與需求進(jìn)行收集,包含企業(yè)內(nèi)部業(yè)務(wù)流程、用戶行為、產(chǎn)品信息等關(guān)鍵信息,具有鮮明的定制化特點(diǎn)。
智政擁有跨學(xué)科、跨專業(yè)的數(shù)據(jù)工程團(tuán)隊(duì),可編制行業(yè)數(shù)據(jù)資源目錄,對(duì)數(shù)據(jù)集進(jìn)行細(xì)致分類與分級(jí),清晰界定結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)類型,依據(jù)數(shù)據(jù)清洗處理程度實(shí)施資源管理。構(gòu)建高效協(xié)同的組織架構(gòu),確保實(shí)現(xiàn)從數(shù)據(jù)采集到模型應(yīng)用的全流程無(wú)縫管理。
智政自研的“數(shù)智平臺(tái)”,對(duì)數(shù)據(jù)具有全流程管理、處理能力。在數(shù)據(jù)采集環(huán)節(jié),具備高效抓取、清洗與整合數(shù)據(jù)的能力,確保數(shù)據(jù)的全面性與多樣性;數(shù)據(jù)預(yù)處理涵蓋清洗、去噪、歸一化等技術(shù)手段,旨在提升數(shù)據(jù)質(zhì)量。
從流程管理、質(zhì)量評(píng)估和組織規(guī)范三個(gè)維度,對(duì)數(shù)據(jù)集從生產(chǎn)到管理的各個(gè)環(huán)節(jié)進(jìn)行能力規(guī)范與等級(jí)評(píng)定,從源頭上確保高質(zhì)量數(shù)據(jù)集的生產(chǎn)與管理。在質(zhì)量評(píng)估方面,需針對(duì)行業(yè)大模型對(duì)數(shù)據(jù)質(zhì)量的多維度要求,設(shè)計(jì)具體的規(guī)則與方法。采用自動(dòng)化標(biāo)注和人工抽樣相結(jié)合的方式,對(duì)數(shù)據(jù)集自身質(zhì)量進(jìn)行前置檢測(cè);通過(guò)模型驗(yàn)證和消融實(shí)驗(yàn),對(duì)數(shù)據(jù)集在大模型中的應(yīng)用效果進(jìn)行后置檢測(cè),并依據(jù)模型效果反饋持續(xù)優(yōu)化數(shù)據(jù)集質(zhì)量。
智政通過(guò)制定、實(shí)施數(shù)據(jù)質(zhì)量檢核,暴露各系統(tǒng)數(shù)據(jù)質(zhì)量問(wèn)題。持續(xù)監(jiān)控各系統(tǒng)數(shù)據(jù)質(zhì)量波動(dòng)情況及數(shù)據(jù)質(zhì)量規(guī)則占比分析,定期生成各系統(tǒng)關(guān)鍵數(shù)據(jù)質(zhì)量報(bào)告,掌握系統(tǒng)數(shù)據(jù)質(zhì)量狀況。