久久精品手机视频,草草草在线视频,www99热,国产成人免费播放,天天干天天操天天搞,国产一区二区在线免费观看 ,中文字幕在线观看电影

法治號 手機(jī)版| 站內(nèi)搜索

網(wǎng)上有害信息舉報

大模型訓(xùn)練數(shù)據(jù)合規(guī)探究

2025-07-02 16:43:06 來源:法人雜志 -標(biāo)準(zhǔn)+

隨著《生成式人工智能服務(wù)管理暫行辦法》(以下簡稱“暫行辦法”)、《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》(GB/T 45652-2025,以下簡稱“安全規(guī)范”)等監(jiān)管法規(guī)的出臺,企業(yè)在數(shù)據(jù)采集、處理和使用各環(huán)節(jié)都面臨著嚴(yán)格的合規(guī)考驗。本文將分析不同來源訓(xùn)練數(shù)據(jù)的法律風(fēng)險,并提出相應(yīng)的建議。

訓(xùn)練數(shù)據(jù)的不同來源

訓(xùn)練數(shù)據(jù)的來源一般包括自采數(shù)據(jù)、自有數(shù)據(jù)、商業(yè)授權(quán)數(shù)據(jù)和開源數(shù)據(jù)集。大模型訓(xùn)練數(shù)據(jù)的獲取途徑中,部分企業(yè)通過爬蟲等技術(shù)手段從互聯(lián)網(wǎng)公開渠道獲取訓(xùn)練數(shù)據(jù),但此類方式可能面臨多重法律風(fēng)險。

▲CFP

首先,技術(shù)層面上,由于眾多網(wǎng)站通過“反爬蟲安排”措施(包括robots協(xié)議、探嗅訪問者信息軟件等)限制數(shù)據(jù)訪問和采集,企業(yè)若繞過或違反前述技術(shù)限制,不僅可能構(gòu)成侵犯著作權(quán)、不正當(dāng)競爭等民事侵權(quán)行為,嚴(yán)重情形還可能被追究非法侵入計算機(jī)信息系統(tǒng)罪、破壞計算機(jī)信息系統(tǒng)罪、非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪等刑事責(zé)任。

其次,個人信息保護(hù)方面,未經(jīng)授權(quán)爬取或過度收集個人信息的行為可能違反《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國個人信息保護(hù)法》(以下簡稱“個人信息保護(hù)法”)等,導(dǎo)致企業(yè)及其負(fù)責(zé)人面臨處罰。處罰包括責(zé)令改正、警告、罰款,甚至被責(zé)令停業(yè)整頓、吊銷營業(yè)執(zhí)照,相關(guān)責(zé)任人還可能被禁止擔(dān)任企業(yè)高管及個人信息保護(hù)負(fù)責(zé)人。

再次,對于他人享有著作權(quán)的作品(如文本、圖像和網(wǎng)站布局等),若在保護(hù)期限內(nèi)(自然人作品為作者終生后50年,法人作品為首次發(fā)表后50年)未經(jīng)授權(quán)使用,則構(gòu)成侵權(quán),企業(yè)將面臨相關(guān)的知識產(chǎn)權(quán)訴訟風(fēng)險。

實踐中,有些企業(yè)依賴自有數(shù)據(jù)豐富應(yīng)用場景,將企業(yè)經(jīng)營過程積累的用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)用于模型訓(xùn)練,但在使用過程存在顯著的法律風(fēng)險。當(dāng)企業(yè)將包含技術(shù)信息、經(jīng)營信息等商業(yè)秘密的內(nèi)部數(shù)據(jù)用于模型訓(xùn)練時,存在通過模型輸出泄露商業(yè)秘密的重大風(fēng)險。尤其在公開服務(wù)場景下,其他用戶通過精心設(shè)計的提示詞可能誘導(dǎo)模型泄露訓(xùn)練數(shù)據(jù)的敏感信息,導(dǎo)致企業(yè)商業(yè)秘密被非法獲取和使用。

對于員工個人信息的使用,若企業(yè)未經(jīng)員工明確同意即將內(nèi)部人事檔案、績效考核、健康檔案等員工個人信息用于模型訓(xùn)練,或超出必要范圍使用員工個人信息,不僅違反個人信息保護(hù)法的相關(guān)規(guī)定,還可能損害勞動關(guān)系穩(wěn)定,引發(fā)勞動爭議。此外,企業(yè)在日常經(jīng)營中收集的用戶數(shù)據(jù),如消費記錄、行為偏好、聯(lián)系方式等,若未在用戶協(xié)議中明確約定將相關(guān)數(shù)據(jù)用于模型訓(xùn)練,或未獲得用戶單獨授權(quán)同意便將數(shù)據(jù)用于訓(xùn)練目的,則可能因超出用戶授權(quán)范圍而承擔(dān)相應(yīng)的法律責(zé)任。嚴(yán)重時還可能面臨用戶集體訴訟,造成重大經(jīng)濟(jì)損失和聲譽(yù)損害。

向第三方數(shù)據(jù)供應(yīng)商購買商業(yè)授權(quán)訓(xùn)練數(shù)據(jù)場景中,企業(yè)常面臨因盡職調(diào)查不足而產(chǎn)生的法律風(fēng)險。在供應(yīng)商主體資質(zhì)方面,若未對數(shù)據(jù)供應(yīng)商的經(jīng)營范圍、業(yè)務(wù)資質(zhì)、數(shù)據(jù)來源等進(jìn)行全面審查,可能導(dǎo)致從無合法數(shù)據(jù)處理資質(zhì)的供應(yīng)商處獲取數(shù)據(jù),或獲取來源不明的數(shù)據(jù),進(jìn)而承擔(dān)數(shù)據(jù)來源不合法的連帶責(zé)任。在合同權(quán)責(zé)劃分方面,若未在數(shù)據(jù)購買合同中明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、安全保護(hù)措施、侵權(quán)責(zé)任承擔(dān)等核心條款,一旦發(fā)生數(shù)據(jù)泄露、質(zhì)量問題或權(quán)屬爭議,企業(yè)可能因合同約定不明而無法向供應(yīng)商追責(zé)或主張賠償。

數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)中,若未要求供應(yīng)商提供數(shù)據(jù)的完整授權(quán)鏈條證明,或者未核實供應(yīng)商是否就個人信息的收集、使用取得了數(shù)據(jù)主體的授權(quán)同意,則可能面臨侵犯個人信息權(quán)益的法律風(fēng)險。

數(shù)據(jù)安全保護(hù)方面,若未在合同中明確要求供應(yīng)商對敏感數(shù)據(jù)進(jìn)行脫敏處理,或者未約定數(shù)據(jù)傳輸、存儲的具體安全標(biāo)準(zhǔn),可能因數(shù)據(jù)泄露等數(shù)據(jù)安全事故而承擔(dān)相關(guān)法律責(zé)任。

很多企業(yè)為了節(jié)約成本,會選擇使用開源數(shù)據(jù)集進(jìn)行模型訓(xùn)練,但其面臨著因違反開源許可協(xié)議而產(chǎn)生的法律風(fēng)險。目前,主流的開源數(shù)據(jù)集通常采用不同類型的開源許可協(xié)議。每種協(xié)議對數(shù)據(jù)的使用范圍、條件和限制都有特定要求,若違反相關(guān)規(guī)定,可能引發(fā)侵權(quán)糾紛。其中,較為常見的開源許可協(xié)議包括:CC(Creative Commons)系列協(xié)議,如CC BY要求在使用數(shù)據(jù)時必須注明原作者,CC BY-SA則額外要求使用者必須以相同方式共享,CC BY-NC禁止將數(shù)據(jù)用于商業(yè)用途;MIT許可證雖然較為寬松,允許商業(yè)使用且對再分發(fā)無限制,但仍要求在產(chǎn)品中包含版權(quán)聲明和許可證聲明;Apache許可證在允許商業(yè)使用的同時,還要求用戶在進(jìn)行修改時保留原有的版權(quán)說明,并對所作修改進(jìn)行聲明;GPL(GNU通用公共許可證)則更為嚴(yán)格,要求任何基于GPL協(xié)議的衍生作品必須同樣采用GPL協(xié)議,意味著使用GPL數(shù)據(jù)訓(xùn)練的模型可能需要開源。

此外,由于開源數(shù)據(jù)集大多來源于境外,其中包含大量與我國法律法規(guī)、價值觀念不相符的內(nèi)容。如果企業(yè)未經(jīng)過充分的內(nèi)容審核和安全評估,將其用于模型訓(xùn)練,可能導(dǎo)致模型輸出違法違規(guī)內(nèi)容,面臨受監(jiān)管處罰風(fēng)險。

訓(xùn)練數(shù)據(jù)的合規(guī)建議

企業(yè)通過爬蟲等技術(shù)手段進(jìn)行數(shù)據(jù)采集時,應(yīng)建立完善的數(shù)據(jù)來源記錄制度。根據(jù)安全規(guī)范的要求,對采集的互聯(lián)網(wǎng)網(wǎng)站數(shù)據(jù)需記錄其統(tǒng)一資源定位符,確保不同類型數(shù)據(jù)具備多個不同來源,保障數(shù)據(jù)來源的多樣性與可追溯性。筆者認(rèn)為,企業(yè)應(yīng)建立嚴(yán)格的分級管控機(jī)制,對擬采集的數(shù)據(jù)來源進(jìn)行事前評估,若某一來源的語料內(nèi)容含違法不良信息超過5%,則應(yīng)放棄采集該來源語料。

在數(shù)據(jù)預(yù)處理和使用環(huán)節(jié),企業(yè)應(yīng)為所采集的數(shù)據(jù)樣本添加包含數(shù)據(jù)來源網(wǎng)頁統(tǒng)一資源定位符在內(nèi)的元數(shù)據(jù)信息,通過不少于10000個關(guān)鍵詞的關(guān)鍵詞庫以及覆蓋全部29種安全風(fēng)險的分類模型進(jìn)行安全風(fēng)險識別。對于經(jīng)識別存在安全風(fēng)險的數(shù)據(jù)樣本應(yīng)予以徹底過濾,包含個人信息的數(shù)據(jù)需嚴(yán)格遵守個人信息保護(hù)法的規(guī)定,確保取得相關(guān)個人的同意,涉及敏感個人信息的數(shù)據(jù)更應(yīng)取得個人的單獨同意,存在知識產(chǎn)權(quán)侵權(quán)問題的數(shù)據(jù)不得用于模型訓(xùn)練。

企業(yè)使用自身積累的數(shù)據(jù)進(jìn)行模型訓(xùn)練時,應(yīng)當(dāng)格外注意商業(yè)秘密保護(hù)、個人信息保護(hù)和數(shù)據(jù)使用授權(quán)等方面的合規(guī)要求。根據(jù)安全規(guī)范的規(guī)定,企業(yè)應(yīng)對內(nèi)部業(yè)務(wù)數(shù)據(jù)進(jìn)行嚴(yán)格的分類分級管理,采取身份鑒別、訪問控制、加密、備份等技術(shù)措施進(jìn)行安全防護(hù),并建立完整的數(shù)據(jù)處理活動記錄機(jī)制。企業(yè)應(yīng)建立知識產(chǎn)權(quán)負(fù)責(zé)人制度,對包含商業(yè)秘密的內(nèi)部數(shù)據(jù)進(jìn)行充分的安全風(fēng)險評估,確保相關(guān)商業(yè)秘密不會通過模型輸出被泄露。

個人信息保護(hù)和用戶數(shù)據(jù)使用方面,對于員工人事檔案、績效考核、健康檔案等個人信息的使用,應(yīng)嚴(yán)格遵循個人信息保護(hù)法規(guī)定,取得員工明確同意,涉及敏感信息時需獲得單獨同意。針對用戶消費記錄、行為偏好等數(shù)據(jù),應(yīng)在用戶服務(wù)協(xié)議中明確約定用于模型訓(xùn)練的目的、方式和范圍,并告知知識產(chǎn)權(quán)相關(guān)風(fēng)險,同時建立數(shù)據(jù)安全事件應(yīng)急響應(yīng)機(jī)制,確保及時有效處置安全事件。

向第三方數(shù)據(jù)供應(yīng)商購買訓(xùn)練數(shù)據(jù)時,企業(yè)應(yīng)建立供應(yīng)商管理體系和數(shù)據(jù)質(zhì)量控制機(jī)制。根據(jù)安全規(guī)范的要求,交易合同應(yīng)確保具備法律效力,并對供應(yīng)商數(shù)據(jù)進(jìn)行嚴(yán)格審核。企業(yè)應(yīng)重點核實供應(yīng)商的數(shù)據(jù)處理資質(zhì)和安全保護(hù)機(jī)制,要求提供數(shù)據(jù)來源的完整授權(quán)鏈條證明,無法提供語料來源、質(zhì)量、安全承諾及證明材料的供應(yīng)商不應(yīng)采用。

合同權(quán)責(zé)和數(shù)據(jù)安全管控方面,應(yīng)明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、質(zhì)量標(biāo)準(zhǔn)及安全措施,明確知識產(chǎn)權(quán)風(fēng)險和個人信息保護(hù)的責(zé)任劃分。供應(yīng)商應(yīng)對數(shù)據(jù)權(quán)屬作出無瑕疵保證,并對個人信息進(jìn)行脫敏處理。企業(yè)應(yīng)通過關(guān)鍵詞庫、分類模型等技術(shù)識別安全風(fēng)險,重點關(guān)注違法不良信息和知識產(chǎn)權(quán)侵權(quán)問題,保存完整的數(shù)據(jù)處理記錄,確??勺匪?、可審計。

使用開源數(shù)據(jù)集進(jìn)行模型訓(xùn)練時,企業(yè)應(yīng)當(dāng)建立完善的開源數(shù)據(jù)集合規(guī)管理制度。根據(jù)安全規(guī)范第5.1條的要求,企業(yè)在使用開源語料時,應(yīng)具備該語料來源的開源許可協(xié)議或相關(guān)授權(quán)文件,并對其中所涉及的主要知識產(chǎn)權(quán)侵權(quán)風(fēng)險進(jìn)行識別,特別是對于包含文學(xué)、藝術(shù)、科學(xué)作品的數(shù)據(jù),應(yīng)重點識別其中的著作權(quán)侵權(quán)問題。

開源協(xié)議管理方面,企業(yè)應(yīng)充分了解并遵守不同開源許可協(xié)議的具體要求,如CC協(xié)議族中CC BY要求注明原作者,而GPL協(xié)議則要求衍生作品必須采用相同協(xié)議,意味著企業(yè)如果使用GPL許可的代碼進(jìn)行開發(fā),最終產(chǎn)品及其源代碼都必須以GPL方式開源,企業(yè)如遵循其開源要求很可能導(dǎo)致商業(yè)機(jī)密泄露或引發(fā)法律風(fēng)險。因此,在選用時需要特別謹(jǐn)慎。

數(shù)據(jù)安全評估方面,鑒于開源數(shù)據(jù)集多來源于境外,其中可能包含與我國法律法規(guī)和價值觀念不相符的內(nèi)容,企業(yè)應(yīng)建立嚴(yán)格的數(shù)據(jù)內(nèi)容審核機(jī)制,采用關(guān)鍵詞庫、分類模型和人工抽檢等多重方式對數(shù)據(jù)進(jìn)行安全風(fēng)險識別。對于違反社會主義核心價值觀、包含歧視性內(nèi)容、涉及商業(yè)違法違規(guī)或侵犯他人合法權(quán)益等內(nèi)容,應(yīng)予以及時識別和過濾。

實際應(yīng)用中,企業(yè)還應(yīng)建立開源數(shù)據(jù)使用臺賬,記錄數(shù)據(jù)來源、開源協(xié)議類型、使用范圍等信息,并定期對開源數(shù)據(jù)的使用情況進(jìn)行合規(guī)審計。此外,企業(yè)宜建立開源社區(qū)監(jiān)測機(jī)制,及時跟蹤和評估開源數(shù)據(jù)的更新變化情況,確保持續(xù)符合相關(guān)法律法規(guī)要求。

訓(xùn)練數(shù)據(jù)處理的合規(guī)重點

實踐中,訓(xùn)練數(shù)據(jù)處理的通用合規(guī)重點包括以下幾個方面:數(shù)據(jù)安全防護(hù)措施;應(yīng)急響應(yīng)機(jī)制建設(shè);數(shù)據(jù)處理活動的審計與追溯要求。

大模型訓(xùn)練數(shù)據(jù)的安全防護(hù)體系中,根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建從數(shù)據(jù)分類分級到技術(shù)防護(hù)措施的全方位防護(hù)機(jī)制。

數(shù)據(jù)分類分級管理方面,企業(yè)應(yīng)基于數(shù)據(jù)的敏感程度、重要性和潛在影響建立科學(xué)的分級標(biāo)準(zhǔn),對預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)進(jìn)行系統(tǒng)化分類,并針對不同級別的數(shù)據(jù)制定差異化的管理策略和防護(hù)要求,從而實現(xiàn)數(shù)據(jù)安全防護(hù)資源的合理配置。

技術(shù)防護(hù)措施層面,企業(yè)應(yīng)構(gòu)建多層次的安全防護(hù)體系,通過身份鑒別確保只有經(jīng)過授權(quán)的人員才能訪問訓(xùn)練數(shù)據(jù)。通過訪問控制機(jī)制對不同角色人員的數(shù)據(jù)訪問權(quán)限進(jìn)行精細(xì)化管理,采用加密技術(shù)對數(shù)據(jù)的存儲和傳輸進(jìn)行安全保護(hù),并通過數(shù)據(jù)備份確保在發(fā)生安全事件時能夠及時恢復(fù)數(shù)據(jù)。同時,企業(yè)還應(yīng)建立安全監(jiān)測預(yù)警機(jī)制,采用漏洞掃描、入侵檢測等技術(shù)手段對訓(xùn)練數(shù)據(jù)的安全狀況進(jìn)行持續(xù)性監(jiān)測,及時發(fā)現(xiàn)數(shù)據(jù)安全缺陷并采取相應(yīng)的防護(hù)措施。

人員管理方面,企業(yè)應(yīng)建立數(shù)據(jù)安全管理團(tuán)隊,明確相關(guān)人員的職責(zé)分工,并定期開展數(shù)據(jù)安全意識教育和技能培訓(xùn)。對于直接接觸訓(xùn)練數(shù)據(jù)的人員,應(yīng)實施嚴(yán)格的準(zhǔn)入管理和行為監(jiān)控,確保相關(guān)人員具備必要的數(shù)據(jù)安全意識和操作技能。

根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建針對預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)的專項應(yīng)急響應(yīng)機(jī)制。在組織架構(gòu)方面,應(yīng)設(shè)立應(yīng)急響應(yīng)小組并明確職責(zé)分工,包括應(yīng)急決策、事件處置、技術(shù)支持、信息通報等角色;在預(yù)案制定方面,應(yīng)針對數(shù)據(jù)泄露、數(shù)據(jù)竊取、數(shù)據(jù)投毒等不同類型的安全風(fēng)險制定詳細(xì)的處置流程和應(yīng)對措施,確保事件發(fā)生時能夠快速響應(yīng)、有效處置;在演練評估方面,應(yīng)定期組織應(yīng)急演練并對演練效果進(jìn)行評估,持續(xù)優(yōu)化應(yīng)急響應(yīng)機(jī)制,確保在發(fā)生數(shù)據(jù)安全事件時能夠及時恢復(fù)業(yè)務(wù)運營。

根據(jù)安全規(guī)范和暫行辦法以及《生成式人工智能服務(wù)安全基本要求》的規(guī)定,企業(yè)應(yīng)對訓(xùn)練數(shù)據(jù)處理活動建立完整的審計追溯體系。在數(shù)據(jù)采集環(huán)節(jié),應(yīng)記錄數(shù)據(jù)來源及其統(tǒng)一資源定位符、采集時間、采集方式等基礎(chǔ)信息;在數(shù)據(jù)預(yù)處理環(huán)節(jié),應(yīng)記錄數(shù)據(jù)清洗規(guī)則、標(biāo)注人員信息、標(biāo)注規(guī)則、人工標(biāo)注數(shù)據(jù)的規(guī)模和類型等內(nèi)容;在數(shù)據(jù)使用環(huán)節(jié),應(yīng)記錄數(shù)據(jù)的訪問、調(diào)用和處理等操作信息。特別是對于標(biāo)注活動,應(yīng)記錄標(biāo)注任務(wù)規(guī)則、標(biāo)注工具使用方法、標(biāo)注內(nèi)容質(zhì)量核驗方法等信息,確保數(shù)據(jù)處理活動的每個關(guān)鍵節(jié)點均可追溯、可還原。【作者:馬軍,系寧人律師事務(wù)所 主任;買爾旦·買買提,系寧人律師事務(wù)所 律師助理】


編輯:范學(xué)偉