您所在的位置: 首頁 >
新聞資訊 >
技術(shù)前沿 >
大模型時(shí)代公共數(shù)據(jù)分類分級(jí)治理
以大語言模型為代表的新型人工智能技術(shù)取得重要突破,為經(jīng)濟(jì)社會(huì)發(fā)展帶來機(jī)遇的同時(shí),也產(chǎn)生了數(shù)據(jù)安全和隱私、侵害個(gè)人信息權(quán)益等問題。近日,國家網(wǎng)信辦等七部委印發(fā)了《生成式人工智能服務(wù)管理暫行辦法》,首次提出對(duì)生成式人工智能服務(wù)實(shí)行包容審慎和分類分級(jí)監(jiān)管,明確了訓(xùn)練數(shù)據(jù)處理活動(dòng)和數(shù)據(jù)標(biāo)注等要求,規(guī)定了生成式人工智能服務(wù)規(guī)范。該辦法亦提出推動(dòng)公共數(shù)據(jù)分類分級(jí)有序開放,擴(kuò)展高質(zhì)量的公共訓(xùn)練數(shù)據(jù)資源。進(jìn)入大模型時(shí)代,公共數(shù)據(jù)安全將面臨極大的風(fēng)險(xiǎn)和挑戰(zhàn),生成式人工智能發(fā)展既要加強(qiáng)高質(zhì)量公共數(shù)據(jù)有效供給,也要加強(qiáng)對(duì)公共數(shù)據(jù)的安全保護(hù),推動(dòng)公共數(shù)據(jù)分類分級(jí)和合規(guī)使用,防范人工智能服務(wù)風(fēng)險(xiǎn) 。
大模型時(shí)代的數(shù)據(jù)安全風(fēng)險(xiǎn)新變化
近年來,我國陸續(xù)出臺(tái)了一系列法律法規(guī),包括《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》,明確堅(jiān)持?jǐn)?shù)據(jù)分類分級(jí)的安全保護(hù)制度,保護(hù)個(gè)人信息,堅(jiān)持保障數(shù)據(jù)安全與促進(jìn)數(shù)據(jù)安全開放并重利用。應(yīng)該看到,生成式人工智能訓(xùn)練過程中涉及多源數(shù)據(jù)融合應(yīng)用。研究表明,公共數(shù)據(jù)資源占全社會(huì)數(shù)據(jù)資源總量的80%左右,公共數(shù)據(jù)安全和隱私將是大模型使用和研發(fā)過程中一個(gè)極為重要的問題。大模型時(shí)代的數(shù)據(jù)安全風(fēng)險(xiǎn)正在面臨新的變化。
第一,從文本數(shù)據(jù)到多模態(tài)數(shù)據(jù),數(shù)據(jù)分類分級(jí)難度增大。盡管OpenAI并未公開GPT-4語言模型數(shù)據(jù)量,但從公開數(shù)據(jù)來看,GPT-3語言模型由1750億個(gè)參數(shù)訓(xùn)練而成,由此迭代而來的GPT-4語言模型顯然需要更龐大的數(shù)據(jù)量作為支撐。大模型加速多模態(tài)發(fā)展,數(shù)據(jù)類型從文本拓展到圖片、音頻、視頻。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)需求對(duì)數(shù)據(jù)分類分級(jí)的效率、成本提出了挑戰(zhàn)。
第二,從靜態(tài)保護(hù)到數(shù)據(jù)全生命周期,數(shù)據(jù)安全環(huán)境日益復(fù)雜。傳統(tǒng)數(shù)據(jù)安全以靜態(tài)保護(hù)數(shù)據(jù)實(shí)體為主,大模型需要依賴海量數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),數(shù)據(jù)由靜止轉(zhuǎn)向流動(dòng),數(shù)據(jù)安全場景發(fā)生了變化。數(shù)據(jù)安全不僅要保護(hù)數(shù)據(jù)實(shí)體,還要以數(shù)據(jù)分類分級(jí)為基礎(chǔ),對(duì)生成式人工智能從訓(xùn)練到投入使用的全生命周期的個(gè)人信息處理和數(shù)據(jù)保護(hù)作出規(guī)范。比如,數(shù)據(jù)收集階段通過網(wǎng)絡(luò)爬蟲抓取、直接向個(gè)人信息主體收集、進(jìn)行數(shù)據(jù)交易等方式均涉及大量的合規(guī)風(fēng)險(xiǎn)點(diǎn),數(shù)據(jù)預(yù)處理階段對(duì)所收集數(shù)據(jù)進(jìn)行清洗、標(biāo)準(zhǔn)化、標(biāo)注與特征提取等步驟可能涉及演繹侵權(quán)。
第三,從單一主體到多元主體,數(shù)據(jù)安全管控形勢(shì)嚴(yán)峻。生成式人工智能的模型開發(fā)涉及多個(gè)步驟,包括數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)清洗、模型訓(xùn)練、模型優(yōu)化等。鑒于模型開發(fā)涉及大量的數(shù)據(jù)處理活動(dòng),其中各環(huán)節(jié)通常不會(huì)由同一主體執(zhí)行,而是由行業(yè)內(nèi)不同主體分工協(xié)作、共同完成。比如,企業(yè)通常以外包的方式將數(shù)據(jù)標(biāo)注任務(wù)通過其自有的平臺(tái)分包給從業(yè)的公司或個(gè)人,因此管理難度增大,對(duì)履行合規(guī)義務(wù)提出了更大的挑戰(zhàn)。過長的模型開發(fā)鏈路以及多主體間的數(shù)據(jù)處理導(dǎo)致數(shù)據(jù)安全風(fēng)險(xiǎn)責(zé)任不清,追蹤溯源更加困難。
推動(dòng)公共數(shù)據(jù)分類分級(jí)治理的路徑選擇
公共數(shù)據(jù)分類分級(jí)治理是一項(xiàng)復(fù)雜的系統(tǒng)工程,必須完整、準(zhǔn)確、全面貫徹黨中央決策部署,梳理數(shù)據(jù)在采集、預(yù)訓(xùn)練、結(jié)果輸出等全生命周期過程中面臨的安全風(fēng)險(xiǎn),以分類分級(jí)為關(guān)鍵抓手,建構(gòu)大模型時(shí)代的公共數(shù)據(jù)分類分級(jí)治理體系。
第一,在制度上兼顧數(shù)據(jù)安全和發(fā)展。數(shù)據(jù)分類分級(jí)是大模型時(shí)代數(shù)據(jù)安全保護(hù)和數(shù)據(jù)要素市場化的前提,只有做好分類分級(jí)才能對(duì)數(shù)據(jù)安全管理采用更加精細(xì)化的措施。國家層面需盡快建立數(shù)據(jù)分類分級(jí)保護(hù)制度框架,制定清晰、具體、可操作的大模型訓(xùn)練數(shù)據(jù)需求清單及負(fù)面清單,對(duì)不同類型和不同風(fēng)險(xiǎn)等級(jí)的數(shù)據(jù)采取差異化的管理措施。適時(shí)擴(kuò)大數(shù)據(jù)分類分級(jí)的法律適用范圍,不能囿于安全保護(hù)視域,既要強(qiáng)調(diào)數(shù)據(jù)監(jiān)管和規(guī)則,同時(shí)也要強(qiáng)調(diào)數(shù)據(jù)開發(fā)利用。加快推動(dòng)公共數(shù)據(jù)授權(quán)運(yùn)營,規(guī)范公共數(shù)據(jù)授權(quán)、加工、經(jīng)營、安全監(jiān)管等數(shù)據(jù)活動(dòng),推動(dòng)公共數(shù)據(jù)資源有序合規(guī)進(jìn)入一級(jí)市場。
第二,在管理上建立多方聯(lián)動(dòng)機(jī)制。建立政府部門、行業(yè)組織、開發(fā)者等不同主體參與的聯(lián)動(dòng)機(jī)制,及時(shí)反饋、共同治理生成式人工智能數(shù)據(jù)安全面臨的新風(fēng)險(xiǎn)、新進(jìn)展、新挑戰(zhàn),實(shí)現(xiàn)大模型數(shù)據(jù)安全與發(fā)展的多元共治。政府要發(fā)揮主導(dǎo)作用,對(duì)參與公共數(shù)據(jù)治理的數(shù)據(jù)運(yùn)營商、研究支撐機(jī)構(gòu)、數(shù)據(jù)交易機(jī)構(gòu)等主體實(shí)施分類分級(jí)監(jiān)管,落實(shí)網(wǎng)絡(luò)安全、數(shù)據(jù)安全、個(gè)人信息保護(hù)等相關(guān)要求。行業(yè)組織可依法制定本行業(yè)數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn),結(jié)合行業(yè)具體應(yīng)用場景、數(shù)據(jù)屬性和重要程度,制定和推廣數(shù)據(jù)安全規(guī)范和團(tuán)體標(biāo)準(zhǔn)。同時(shí),鼓勵(lì)生成式人工智能產(chǎn)業(yè)鏈條上的各類管理、開發(fā)、研究人員合法合規(guī)地發(fā)掘數(shù)據(jù)資產(chǎn),開放數(shù)據(jù)資源、參與數(shù)據(jù)交易。
第三,在技術(shù)上創(chuàng)新智能分類分級(jí)方法。建設(shè)公共訓(xùn)練數(shù)據(jù)資源平臺(tái),聚焦金融、醫(yī)療、交通、空間等建設(shè)公共數(shù)據(jù)專區(qū),提供安全、可信的數(shù)據(jù)清洗、加工環(huán)境,打造高質(zhì)量的人工智能訓(xùn)練數(shù)據(jù)集和中文語料數(shù)據(jù)。利用自然語言處理、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)對(duì)公共數(shù)據(jù)進(jìn)行智能識(shí)別,對(duì)數(shù)據(jù)編目識(shí)別模型進(jìn)行快速分級(jí),用實(shí)例數(shù)據(jù)識(shí)別模型對(duì)分級(jí)模型進(jìn)行深度識(shí)別,動(dòng)態(tài)掃描數(shù)據(jù)資產(chǎn),從而實(shí)現(xiàn)智能化自動(dòng)化公共數(shù)據(jù)分類分級(jí)。根據(jù)分詞結(jié)果、詞性屬性以及不同的數(shù)據(jù)責(zé)任主體,探索利用多方安全計(jì)算、區(qū)塊鏈等新技術(shù)構(gòu)建與之匹配的公共數(shù)據(jù)集開放共享機(jī)制,在確保數(shù)據(jù)安全可控的前提下,實(shí)現(xiàn)公共數(shù)據(jù)可信流通。(文 | 之江實(shí)驗(yàn)室智能社會(huì)治理研究中心高級(jí)工程專員 黃成鳳;之江實(shí)驗(yàn)室智能社會(huì)治理研究中心正高級(jí)工程師、信息技術(shù)部主任 丁萬夫)
來源:中國社會(huì)科學(xué)網(wǎng)