日本一区二区不卡视频,高清成人免费视频,日日碰日日摸,国产精品夜间视频香蕉,免费观看在线黄色网,国产成人97精品免费看片,综合色在线视频

申請實習(xí)證 兩公律師轉(zhuǎn)社會律師申請 注銷人員證明申請入口 結(jié)業(yè)人員實習(xí)鑒定表申請入口 網(wǎng)上投稿 《上海律師》 切換新版
當(dāng)前位置: 首頁 >> 業(yè)務(wù)研究大廳 >> 專業(yè)委員會 >> 數(shù)字科技與人工智能專業(yè)委員會 >> 專業(yè)論文

AI開拓者指南:模型訓(xùn)練、應(yīng)用、優(yōu)化三階段數(shù)據(jù)合規(guī)風(fēng)險清單

    日期:2025-12-15     作者:張逸瑞(數(shù)字科技與人工智能專業(yè)委員會、北京市金杜律師事務(wù)所上海分所)、張津豪(北京市金杜律師事務(wù)所)

生成式人工智能(AIGC)作為人工智能領(lǐng)域的一項革命性技術(shù),正迅速改變著內(nèi)容創(chuàng)作的生態(tài)。AIGC技術(shù)通過深度學(xué)習(xí)模型,能夠自動生成文字、圖像、音頻、視頻等多種形式的內(nèi)容,為創(chuàng)意產(chǎn)業(yè)帶來了前所未有的機(jī)遇。然而,隨著技術(shù)的快速發(fā)展,數(shù)據(jù)方面的問題也逐漸顯現(xiàn),成為制約AIGC健康發(fā)展的關(guān)鍵因素之一。2023815日生效的《生成式人工智能服務(wù)管理暫行辦法》(《暫行辦法》)旨在通過法律手段引導(dǎo)和促進(jìn)AIGC技術(shù)的合規(guī)使用,保護(hù)數(shù)據(jù)安全,尊重知識產(chǎn)權(quán)和個人隱私,同時防止數(shù)據(jù)偏見和歧視的產(chǎn)生。

本文將從模型訓(xùn)練、模型應(yīng)用以及模型優(yōu)化三個階段對AIGC可能涉及的數(shù)據(jù)合規(guī)風(fēng)險進(jìn)行分析,并為AIGC技術(shù)支持方、AIGC平臺運營方 [1] 以及AIGC服務(wù)使用者等提供相關(guān)合規(guī)建議。

一、 模型訓(xùn)練階段

《暫行辦法》第七條規(guī)定,生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,遵守以下規(guī)定:(一)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;(二)涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán);(三)涉及個人信息的,應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(四)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性;(五)《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。第八條規(guī)定,在生成式人工智能技術(shù)研發(fā)過程中進(jìn)行數(shù)據(jù)標(biāo)注的,提供者應(yīng)當(dāng)制定符合本辦法要求的清晰、具體、可操作的標(biāo)注規(guī)則;開展數(shù)據(jù)標(biāo)注質(zhì)量評估,抽樣核驗標(biāo)注內(nèi)容的準(zhǔn)確性;對標(biāo)注人員進(jìn)行必要培訓(xùn),提升尊法守法意識,監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開展標(biāo)注工作。

結(jié)合上述規(guī)定,模型訓(xùn)練階段數(shù)據(jù)合規(guī)相關(guān)的要素主要涉及訓(xùn)練數(shù)據(jù)來源以及數(shù)據(jù)質(zhì)量兩方面。

(一)     數(shù)據(jù)來源

訓(xùn)練數(shù)據(jù)來源合法是訓(xùn)練數(shù)據(jù)合規(guī)討論的起點,AIGC技術(shù)支持方往往會通過公開收集、自行采集、第三方采購等方式獲取訓(xùn)練數(shù)據(jù),在該等過程中其可能面臨的主要風(fēng)險如下:

1.          侵犯知識產(chǎn)權(quán)

《中華人民共和國著作權(quán)法》(《著作權(quán)法》)第五十三條規(guī)定,有下列侵權(quán)行為的,應(yīng)當(dāng)根據(jù)情況,承擔(dān)本法第五十二條規(guī)定的民事責(zé)任……:(一)未經(jīng)著作權(quán)人許可,復(fù)制、發(fā)行、表演、放映、廣播、匯編、通過信息網(wǎng)絡(luò)向公眾傳播其作品的,本法另有規(guī)定的除外;……

基于上述規(guī)定,如果AIGC技術(shù)支持方獲取的數(shù)據(jù)包含受著作權(quán)等知識產(chǎn)權(quán)保護(hù)的材料,倘若其并未獲得完整授權(quán),往往涉及著作權(quán)等知識產(chǎn)權(quán)侵權(quán)。例如,在采用爬蟲方式獲取的情況下,無論是網(wǎng)絡(luò)上的文章、圖片、用戶評論乃至網(wǎng)站自身的數(shù)據(jù)庫,都有可能在具備獨創(chuàng)性的情況下構(gòu)成著作權(quán)法意義上的作品,不論其在原網(wǎng)站上是否可免費公開訪問,未經(jīng)許可對于該等數(shù)據(jù)的抓取和使用可能構(gòu)成著作權(quán)侵權(quán)。

值得探討的是,AIGC技術(shù)支持方獲取數(shù)據(jù)后用于模型訓(xùn)練的行為是否適用合理使用。一方面,AIGC技術(shù)支持方一般會將相關(guān)訓(xùn)練數(shù)據(jù)復(fù)制或者下載到自己所有或者第三方服務(wù)器中進(jìn)行保存以便于使用,該種行為往往涉及著作權(quán)中的復(fù)制行為,且AIGC技術(shù)支持方對訓(xùn)練數(shù)據(jù)的使用一般系用于自身商業(yè)目的之使用,似乎很難滿足《著作權(quán)法》明確規(guī)定的合理使用的條件。但另一方面,大模型訓(xùn)練對于作品的復(fù)制是中間復(fù)制,即在大模型訓(xùn)練階段,盡管可能涉及對于訓(xùn)練數(shù)據(jù)(其中可能含有大量受著作權(quán)法保護(hù)的作品)的復(fù)制,但該等復(fù)制件并不是大模型產(chǎn)品的最終形態(tài)。通常情況下,AIGC技術(shù)支持方也不會對外傳播、展示該等復(fù)制件。此外,從使用目的的角度,事實上,AIGC技術(shù)支持方復(fù)制訓(xùn)練數(shù)據(jù)并對相關(guān)訓(xùn)練數(shù)據(jù)進(jìn)行清洗、標(biāo)注等預(yù)處理步驟,其目的是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為便于機(jī)器理解的數(shù)值數(shù)據(jù),以便對其內(nèi)含規(guī)律、特征進(jìn)行總結(jié)和學(xué)習(xí)。因此,大模型訓(xùn)練是否適用合理使用原則值得深入探討。

此外,根據(jù)《中華人民共和國反不正當(dāng)競爭法》(《反不正當(dāng)競爭法》),商業(yè)秘密是指不為公眾所知悉、具有商業(yè)價值并經(jīng)權(quán)利人采取相應(yīng)保密措施的技術(shù)信息、經(jīng)營信息等商業(yè)信息。在AIGC技術(shù)支持方獲取訓(xùn)練數(shù)據(jù)的過程中,倘若相關(guān)數(shù)據(jù)構(gòu)成商業(yè)秘密,AIGC技術(shù)支持方未能識別且未經(jīng)授權(quán)使用該等數(shù)據(jù),便可能構(gòu)成商業(yè)秘密侵權(quán),需要承擔(dān)商業(yè)秘密侵權(quán)責(zé)任。 

2.          不正當(dāng)競爭

實踐中,AIGC技術(shù)支持方往往會通過爬蟲等技術(shù)手段取得訓(xùn)練數(shù)據(jù),可能存在構(gòu)成不正當(dāng)競爭的風(fēng)險?!吨腥A人民共和國民法典》(《民法典》第一百二十七條規(guī)定,法律對數(shù)據(jù)、網(wǎng)絡(luò)虛擬財產(chǎn)的保護(hù)有規(guī)定的,依照其規(guī)定。這是數(shù)據(jù)權(quán)益保護(hù)的法律基礎(chǔ)。盡管如此,該條款僅為框架性、引致性規(guī)定,并未對數(shù)據(jù)的權(quán)利屬性及保護(hù)要求作出具體規(guī)定。司法實踐中,對于非法爬取數(shù)據(jù)的行為,法院更傾向于援引《反不正當(dāng)競爭法》的相關(guān)規(guī)定。

《反不正當(dāng)競爭法》第二條規(guī)定,經(jīng)營者在市場交易中,應(yīng)當(dāng)遵循自愿、平等、公平、誠實信用的原則,遵守公認(rèn)的商業(yè)道德。使用爬蟲技術(shù)繞開robots協(xié)議(尤其是目標(biāo)網(wǎng)站所采用的Disallow語句)爬取相關(guān)數(shù)據(jù)的行為將有可能被認(rèn)定為違反了上述公認(rèn)的商業(yè)道德,進(jìn)而被認(rèn)定為構(gòu)成不正當(dāng)競爭行為,相關(guān)技術(shù)的使用方也需要承擔(dān)停止侵害、損害賠償?shù)蓉?zé)任。更進(jìn)一步地,如果爬蟲的使用干擾了被訪問網(wǎng)站的正常運行,或者用于替代被爬取方的服務(wù),被認(rèn)定為構(gòu)成不正當(dāng)競爭的可能性更高。

例如,在抓取使用房產(chǎn)交易信息平臺房源數(shù)據(jù)案 [2] 中,法院認(rèn)為,S公司以技術(shù)手段大規(guī)模抓取涉案數(shù)據(jù),并將涉案數(shù)據(jù)存儲在自有服務(wù)器后去除原平臺網(wǎng)站水印、加入其他主體水印,傳播至社交媒體和第三方房產(chǎn)信息平臺等,為虛假房源發(fā)布提供了重要工具和便利條件,客觀上助長了虛假房源蔓延,明顯違背房產(chǎn)經(jīng)紀(jì)行業(yè)的誠信原則和商業(yè)道德。而且,S公司在訴訟中已明確承諾立即停止被訴行為的同時,又以更隱蔽的方式變相、持續(xù)實施被訴行為,主觀惡意極為明顯。被訴行為搶奪了本屬于L公司的用戶流量,影響了用戶粘性和信賴度,使消費者知情權(quán)、選擇權(quán)和交易安全因虛假房源直接受損,使靠誠信經(jīng)營獲取競爭優(yōu)勢的經(jīng)營者無法獲得有效激勵,破壞了房產(chǎn)經(jīng)紀(jì)行業(yè)的競爭生態(tài)和秩序,構(gòu)成不正當(dāng)競爭行為。

3.          侵犯人格權(quán)

《民法典》第九百九十條規(guī)定,人格權(quán)是民事主體享有的生命權(quán)、身體權(quán)、健康權(quán)、姓名權(quán)、名稱權(quán)、肖像權(quán)、名譽(yù)權(quán)、榮譽(yù)權(quán)、隱私權(quán)等權(quán)利。除前款規(guī)定的人格權(quán)外,自然人享有基于人身自由、人格尊嚴(yán)產(chǎn)生的其他人格權(quán)益?!睹穹ǖ洹返诰虐倬攀粭l規(guī)定,民事主體的人格權(quán)受法律保護(hù),任何組織或者個人不得侵害。特別地,《民法典》第一千零一十八條規(guī)定,自然人享有肖像權(quán),有權(quán)依法制作、使用、公開或者許可他人使用自己的肖像。第一千零一十九條規(guī)定,任何組織或者個人不得以丑化、污損,或者利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)。未經(jīng)肖像權(quán)人同意,不得制作、使用、公開肖像權(quán)人的肖像,但是法律另有規(guī)定的除外。第一千零二十三條規(guī)定,對自然人聲音的保護(hù),參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。

實踐中,考慮到訓(xùn)練數(shù)據(jù)可能包含了圖片、影片等內(nèi)容,倘若這些數(shù)據(jù)中的肖像或聲音能反映自然人的特征,或者社會大眾能夠通過相關(guān)形象或聲音與自然人的真實特征聯(lián)系起來,該等形象或聲音都有可能被視為屬于自然人肖像權(quán)和聲音權(quán)的范疇,AIGC技術(shù)支持方使用相關(guān)訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)就該等自然人的肖像或聲音取得授權(quán),否則將可能構(gòu)成侵權(quán)。

4.          侵害個人信息

《中華人民共和國網(wǎng)絡(luò)安全法》第四十四條規(guī)定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息。《中華人民共和國個人信息保護(hù)法》(《個人信息保護(hù)法》)第二十七條規(guī)定,個人信息處理者可以在合理的范圍內(nèi)處理個人自行公開或者其他已經(jīng)合法公開的個人信息;個人明確拒絕的除外。個人信息處理者處理已公開的個人信息,對個人權(quán)益有重大影響的,應(yīng)當(dāng)依照本法規(guī)定取得個人同意。特別地,處理敏感個人信息還用當(dāng)取得個人的單獨同意。因此,如果AIGC技術(shù)支持方獲取的用于模型訓(xùn)練的數(shù)據(jù)包含個人信息,則應(yīng)當(dāng)遵守上述《個人信息保護(hù)法》的相關(guān)規(guī)定,在未經(jīng)用戶同意的情況下收集用戶的個人信息,則可能構(gòu)成侵害個人信息的違法行為。

5.          處理核心數(shù)據(jù)、重要數(shù)據(jù)

《中華人民共和國數(shù)據(jù)安全法》(《數(shù)據(jù)安全法》)第二十一條規(guī)定,核心數(shù)據(jù)是指關(guān)系國家安全、國民經(jīng)濟(jì)命脈、重要民生、重大公共利益等數(shù)據(jù)。《數(shù)據(jù)出境安全評估辦法》第十九條規(guī)定,重要數(shù)據(jù)是指一旦遭到篡改、破壞、泄露或者非法獲取、非法利用等,可能危害國家安全、經(jīng)濟(jì)運行、社會穩(wěn)定、公共健康和安全等的數(shù)據(jù)。目前,諸多地方、各行業(yè)以及部分先行區(qū)已出臺規(guī)則或目錄明確核心數(shù)據(jù)和重要數(shù)據(jù)。例如,工業(yè)和信息化部在《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全管理辦法(試行)》中,對工業(yè)和信息化領(lǐng)域重要數(shù)據(jù)、核心數(shù)據(jù)的認(rèn)定標(biāo)準(zhǔn)進(jìn)行了細(xì)化;五部門聯(lián)合發(fā)布的《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》中,劃定了六條汽車行業(yè)重要數(shù)據(jù)的認(rèn)定范圍。倘若AIGC技術(shù)支持方用于訓(xùn)練大模型的數(shù)據(jù)涉及核心數(shù)據(jù)、重要數(shù)據(jù),其需要履行一系列更為嚴(yán)格的義務(wù),且各行業(yè)的具體義務(wù)履行方式各有差異,包括但不限于:(1)向監(jiān)管履行義務(wù),例如在其所在地區(qū)行業(yè)監(jiān)管部門備案并持續(xù)就備案內(nèi)容變化履行變更手續(xù)、開展風(fēng)險評估并報送風(fēng)險評估報告、定期報送數(shù)據(jù)安全管理情況;(2)數(shù)據(jù)安全管理義務(wù),例如建立單位相關(guān)部門的數(shù)據(jù)安全工作體系并明確數(shù)據(jù)安全責(zé)任、根據(jù)數(shù)據(jù)安全級別采取相應(yīng)安全措施等。

因此,AIGC技術(shù)支持方需要識別出訓(xùn)練數(shù)據(jù)中可能包含的重要數(shù)據(jù)、核心數(shù)據(jù),進(jìn)而根據(jù)其所屬行業(yè)、地區(qū)以及保密級別針對性地履行相關(guān)合規(guī)義務(wù)。盡管如此,當(dāng)前核心數(shù)據(jù)、重要數(shù)據(jù)的認(rèn)定標(biāo)準(zhǔn)及目錄分散在各部門規(guī)章、行業(yè)標(biāo)準(zhǔn)及地方性法規(guī)中,AIGC技術(shù)支持方可能難以確保這一識別工作的準(zhǔn)確性和完整性,進(jìn)而難以在此基礎(chǔ)上充分履行合規(guī)義務(wù)。

6.          刑事風(fēng)險

根據(jù)《中華人民共和國刑法》(《刑法》)第二百八十五條和第二百八十六條,未經(jīng)授權(quán)獲取計算機(jī)信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù)對計算機(jī)信息系統(tǒng)實施非法控制,或者對計算機(jī)信息系統(tǒng)功能進(jìn)行干擾,情節(jié)嚴(yán)重的可能會受到刑事處罰。例如,倘若AIGC技術(shù)支持方故意避開或強(qiáng)行突破網(wǎng)站的反爬蟲技術(shù)設(shè)置,或者侵入《刑法》第二百八十五條第一款 [3] 規(guī)定以外的計算機(jī)信息系統(tǒng)但網(wǎng)絡(luò)爬蟲過快或大量重復(fù)訪問,大量占用服務(wù)器帶寬和運算能力、大幅度增加計算機(jī)處理負(fù)擔(dān),進(jìn)而干擾計算機(jī)信息系統(tǒng)正常運行且后果嚴(yán)重,可能會涉及刑事責(zé)任。

AIGC技術(shù)支持方在模型訓(xùn)練階段訓(xùn)練數(shù)據(jù)獲取TIPs

?            取得訓(xùn)練數(shù)據(jù)權(quán)利主體授權(quán)同意:實踐中,模型訓(xùn)練需要海量的數(shù)據(jù),獲得每一個數(shù)據(jù)主體的授權(quán)一般難以實現(xiàn)。但對于某些風(fēng)險較大的數(shù)據(jù),例如生物識別、宗教信仰、特定身份、醫(yī)療健康、金融賬戶、行蹤軌跡等信息等敏感個人信息,AIGC技術(shù)支持方應(yīng)當(dāng)取得相關(guān)權(quán)利主體的單獨的授權(quán)同意。

?            合法使用爬蟲等技術(shù)手段:AIGC技術(shù)支持方在通過爬蟲等技術(shù)手段獲取訓(xùn)練數(shù)據(jù)時,不可突破、繞開技術(shù)措施爬取數(shù)據(jù),并遵守Robots協(xié)議;避免爬取個人信息、他人享有著作權(quán)的作品等;避免大量、高頻的爬取數(shù)據(jù),防止破壞網(wǎng)站正常經(jīng)營。此外,在爬取并使用開源數(shù)據(jù)集時,AIGC技術(shù)支持方還需要遵守開源許可證相關(guān)要求。

?            避免收集處理核心數(shù)據(jù)和重要數(shù)據(jù):原則上避免收集處理包含有核心數(shù)據(jù)、重要數(shù)據(jù)的訓(xùn)練數(shù)據(jù),同時對核心數(shù)據(jù)、重要數(shù)據(jù)的識別工作進(jìn)行關(guān)注,一旦用于模型訓(xùn)練的訓(xùn)練數(shù)據(jù)被識別或認(rèn)定為核心數(shù)據(jù)或重要數(shù)據(jù),AIGC技術(shù)支持方需要對該等核心數(shù)據(jù)或重要數(shù)據(jù)進(jìn)行重點保護(hù),履行數(shù)據(jù)處理者的相關(guān)義務(wù)。

?            嚴(yán)格審查第三方采購數(shù)據(jù)來源:AIGC技術(shù)支持方在從第三方數(shù)據(jù)供應(yīng)商處采購訓(xùn)練數(shù)據(jù)時,應(yīng)當(dāng)與第三方數(shù)據(jù)供應(yīng)商簽訂明確的合作協(xié)議,要求其對相關(guān)訓(xùn)練數(shù)據(jù)的知識產(chǎn)權(quán)、涉及第三方的民事權(quán)益(包括但不限于人格權(quán)、個人信息等)進(jìn)行不侵權(quán)的陳述保證,同時要求該等數(shù)據(jù)供應(yīng)商保證授權(quán)鏈條的完整性。

?            建立數(shù)據(jù)合規(guī)管理和技術(shù)應(yīng)對方案:AIGC技術(shù)支持方還應(yīng)當(dāng)遵守相關(guān)的數(shù)據(jù)保護(hù)法規(guī)和AI倫理準(zhǔn)則,利用技術(shù)手段建立健全風(fēng)險應(yīng)對方案,比如數(shù)據(jù)加密、匿名化處理等,對訓(xùn)練數(shù)據(jù)的使用、披露范圍進(jìn)行嚴(yán)格控制,保護(hù)相關(guān)訓(xùn)練數(shù)據(jù)不被未授權(quán)者訪問,以降低可能得侵權(quán)風(fēng)險。

(二)     數(shù)據(jù)質(zhì)量

訓(xùn)練大模型需要大規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù)集,通常需要從各個領(lǐng)域和多個數(shù)據(jù)源收集數(shù)據(jù),數(shù)據(jù)質(zhì)量直接影響到模型訓(xùn)練的效果。高質(zhì)量的數(shù)據(jù)應(yīng)具備準(zhǔn)確性和代表性,能夠全面反映模型需要學(xué)習(xí)的特征和模式。數(shù)據(jù)標(biāo)注的準(zhǔn)確性對于模型的理解能力同樣至關(guān)重要。標(biāo)注不僅需要精確無誤,還應(yīng)遵循道德和法律標(biāo)準(zhǔn),尊重數(shù)據(jù)中涉及的所有個體的權(quán)利,包括但不限于避免偏見、歧視以及確保數(shù)據(jù)的多樣性和包容性。具體而言,AIGC技術(shù)支持方在訓(xùn)練數(shù)據(jù)質(zhì)量方面可能面臨的主要風(fēng)險如下:

1.          標(biāo)注數(shù)據(jù)質(zhì)量參差不齊生成誤導(dǎo)性內(nèi)容

一方面,數(shù)據(jù)標(biāo)注的不一致性可能使模型對特定類別的識別產(chǎn)生偏差。例如,在圖像識別任務(wù)中,如果標(biāo)注者對圖像中的對象識別標(biāo)準(zhǔn)不一,模型可能會混淆不同類別,導(dǎo)致生成的內(nèi)容與實際情況不符。另一方面,數(shù)據(jù)集中的錯誤和噪聲會削弱模型的泛化能力。當(dāng)數(shù)據(jù)集中包含大量錯誤標(biāo)注的樣本時,模型可能會學(xué)習(xí)到這些錯誤特征,而非真實的數(shù)據(jù)分布,進(jìn)而影響模型在面對新數(shù)據(jù)時的表現(xiàn)。此外,數(shù)據(jù)標(biāo)注的偏見可能導(dǎo)致模型生成具有歧視性的內(nèi)容。如果標(biāo)注者在標(biāo)注過程中受到自身偏見的影響,模型可能會學(xué)習(xí)并復(fù)制這些偏見,進(jìn)而在生成內(nèi)容時表現(xiàn)出不公平。

2.          訓(xùn)練數(shù)據(jù)缺乏多樣性導(dǎo)致價值觀偏差

一方面,訓(xùn)練數(shù)據(jù)缺乏多樣性可能導(dǎo)致模型對某些群體或文化的理解存在偏差。如果訓(xùn)練數(shù)據(jù)主要來源于特定地區(qū)或社會群體,模型可能會過度強(qiáng)調(diào)這些群體的價值觀和觀點,而忽視其他群體的聲音,進(jìn)而導(dǎo)致生成的內(nèi)容在文化多樣性和包容性方面存在缺陷。另一方面,訓(xùn)練數(shù)據(jù)的局限性還可能導(dǎo)致模型在處理復(fù)雜主題和抽象概念時表現(xiàn)不佳。復(fù)雜主題和抽象概念往往需要更廣泛的知識和更深入的理解。如果訓(xùn)練數(shù)據(jù)缺乏這些方面的數(shù)據(jù),模型可能無法生成深入、全面的內(nèi)容,使得其在專業(yè)領(lǐng)域的應(yīng)用效果受到影響。此外,訓(xùn)練數(shù)據(jù)的偏差也可能導(dǎo)致模型在生成內(nèi)容時表現(xiàn)出不公正的傾向。如果訓(xùn)練數(shù)據(jù)中存在性別、種族或社會地位等方面的偏見,模型可能會在生成內(nèi)容時復(fù)制這些偏見,導(dǎo)致生成的內(nèi)容帶有歧視性。

3.          訓(xùn)練數(shù)據(jù)時效性偏差降低模型可信度

一方面,訓(xùn)練數(shù)據(jù)的時效性偏差可能使模型在處理最新事件或趨勢時顯得力不從心。例如,在新聞報道或市場分析等領(lǐng)域,如果模型依賴的是過時的數(shù)據(jù),其生成的內(nèi)容可能無法準(zhǔn)確反映最新的發(fā)展動態(tài),從而誤導(dǎo)用戶決策。另一方面,訓(xùn)練數(shù)據(jù)的時效性不足可能影響模型在特定領(lǐng)域的專業(yè)性和權(quán)威性。在法律、醫(yī)療等專業(yè)領(lǐng)域,知識的更新?lián)Q代非???,如果模型所依賴的訓(xùn)練數(shù)據(jù)未能跟上最新的研究成果或法規(guī)變化,其生成的內(nèi)容可能失去專業(yè)性,甚至產(chǎn)生誤導(dǎo)。此外,訓(xùn)練數(shù)據(jù)的時效性問題還可能引發(fā)用戶的不信任。用戶期望模型能夠提供準(zhǔn)確、可靠的信息。如果模型頻繁輸出過時或不準(zhǔn)確的內(nèi)容,用戶可能會對模型的可信度產(chǎn)生質(zhì)疑,進(jìn)而影響模型的長期發(fā)展。

AIGC技術(shù)支持方在模型訓(xùn)練階段訓(xùn)練數(shù)據(jù)質(zhì)量管理TIPs

?            采取嚴(yán)格的數(shù)據(jù)質(zhì)量管理措施:對訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)行嚴(yán)格管理,包括數(shù)據(jù)清洗、標(biāo)注者培訓(xùn)、多輪標(biāo)注和驗證等;持續(xù)監(jiān)控和評估模型的輸出內(nèi)容,確保其質(zhì)量和安全性,最大限度地減少數(shù)據(jù)標(biāo)注質(zhì)量參差不齊帶來的風(fēng)險,提高模型的可靠性和有效性。

?            提升訓(xùn)練數(shù)據(jù)多樣性:確保訓(xùn)練數(shù)據(jù)具有足夠的代表性,涵蓋不同的文化、地區(qū)和社會群體;對訓(xùn)練數(shù)據(jù)進(jìn)行細(xì)致的分析和篩選,以確保其質(zhì)量和多樣性;對模型進(jìn)行持續(xù)的監(jiān)控和評估,以確保其生成的內(nèi)容符合社會價值觀和倫理標(biāo)準(zhǔn)。

?            定期更新并監(jiān)控訓(xùn)練數(shù)據(jù):定期更新訓(xùn)練數(shù)據(jù),確保其反映的信息與當(dāng)前實際情況相符;建立有效的數(shù)據(jù)監(jiān)控和反饋機(jī)制,及時發(fā)現(xiàn)并糾正訓(xùn)練數(shù)據(jù)中的時效性問題;加強(qiáng)與專業(yè)領(lǐng)域的合作,確保模型能夠及時吸收最新的研究成果和知識更新。

二、 模型應(yīng)用階段 

《暫行辦法》第十一條規(guī)定,提供者對使用者的輸入信息和使用記錄應(yīng)當(dāng)依法履行保護(hù)義務(wù),不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應(yīng)當(dāng)依法及時受理和處理個人關(guān)于查閱、復(fù)制、更正、補(bǔ)充、刪除其個人信息等的請求。在模型應(yīng)用階段,AIGC服務(wù)提供者需要處理AIGC服務(wù)使用者在使用AIGC服務(wù)時輸入的相關(guān)數(shù)據(jù),在該等過程中,AIGC服務(wù)提供者和AIGC服務(wù)使用者均可能面臨一定的數(shù)據(jù)合規(guī)風(fēng)險,主要如下:

(一)     數(shù)據(jù)處理 

1.          處理個人信息不具備合法性基礎(chǔ)

《個人信息保護(hù)法》第五條規(guī)定,處理個人信息應(yīng)當(dāng)遵循合法、正當(dāng)、必要和誠信原則,不得通過誤導(dǎo)、欺詐、脅迫等方式處理個人信息。第六條規(guī)定,處理個人信息應(yīng)當(dāng)具有明確、合理的目的,并應(yīng)當(dāng)與處理目的直接相關(guān),采取對個人權(quán)益影響最小的方式。收集個人信息,應(yīng)當(dāng)限于實現(xiàn)處理目的的最小范圍,不得過度收集個人信息。第七條規(guī)定,處理個人信息應(yīng)當(dāng)遵循公開、透明原則,公開個人信息處理規(guī)則,明示處理的目的、方式和范圍。第十條規(guī)定,任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息;不得從事危害國家安全、公共利益的個人信息處理活動?!稌盒修k法》第十一條相關(guān)規(guī)定正是對《個人信息保護(hù)法》所確立的上述原則在人工智能語境下的重申。實踐中,通常由直接面向AIGC服務(wù)使用者提供服務(wù)的AIGC服務(wù)提供者履行上述義務(wù),在AIGC服務(wù)提供者超范圍或者非法處理AIGC服務(wù)使用者的個人信息的情況下還需承擔(dān)相應(yīng)的法律責(zé)任。 

2.          數(shù)據(jù)跨境傳輸風(fēng)險

AIGC服務(wù)提供者通過API等方式介入境外服務(wù)商提供的服務(wù)或AIGC服務(wù)提供者將自身的服務(wù)器部署在境外的情況下,AIGC服務(wù)使用者在使用相關(guān)服務(wù)時上傳的數(shù)據(jù)可能被傳輸至境外,考慮到AIGC服務(wù)提供者向境外提供的數(shù)據(jù)類型存在很大不確定性,因此可能觸發(fā)相關(guān)的數(shù)據(jù)出境合規(guī)義務(wù)要求。根據(jù)《數(shù)據(jù)安全法》《個人信息保護(hù)法》以及《數(shù)據(jù)出境安全評估辦法》等相關(guān)規(guī)定,我國明確了數(shù)據(jù)出境的三條主要路徑,包括通過國家網(wǎng)信部門組織的安全評估、經(jīng)專業(yè)機(jī)構(gòu)進(jìn)行個人信息保護(hù)認(rèn)證、或者按照國家網(wǎng)信部門制定的標(biāo)準(zhǔn)合同與境外接收方訂立合同約定雙方的權(quán)利和義務(wù)。與此同時,《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動的重要規(guī)定》還規(guī)定了數(shù)據(jù)出境的幾種豁免情形,例如出境數(shù)據(jù)不包含個人信息或者重要數(shù)據(jù)、或預(yù)計一年內(nèi)向境外提供不滿1萬人個人信息等情況的,則不需要申報安全評估、標(biāo)準(zhǔn)合同備案或通過認(rèn)證。

3.          數(shù)據(jù)主體權(quán)利保障缺失

《個人信息保護(hù)法》通過原則性條款明確了個人對其個人信息的處理享有知情權(quán)、決定權(quán),以及有權(quán)限制或者拒絕他人對其個人信息進(jìn)行處理,并具體規(guī)定了查閱復(fù)制和轉(zhuǎn)移權(quán)、更正和補(bǔ)充權(quán)、刪除權(quán)、要求解釋權(quán)等。同時,《個人信息保護(hù)法》還要求企業(yè)作為個人信息處理者應(yīng)當(dāng)建立便捷的個人行使權(quán)利的申請受理和處理機(jī)制,拒絕個人行使權(quán)利的請求的,應(yīng)當(dāng)說明理由。個人信息處理者若拒絕個人行使權(quán)利的請求,則個人信息主體可向法院提起訴訟。因此AIGC服務(wù)提供者應(yīng)審慎對待AIGC服務(wù)使用者的行權(quán)請求并及時響應(yīng),不能以存在困難為由不處理或不及時處理。

AIGC服務(wù)提供者在模型應(yīng)用階段數(shù)據(jù)處理TIPs

?            確保處理個人信息具備合法性基礎(chǔ):AIGC服務(wù)提供者處理AIGC服務(wù)使用者的輸入信息和使用記錄等個人信息時,應(yīng)當(dāng)明確并向AIGC服務(wù)使用者告知處理目的、處理方式及保存期限等,在必要的范圍內(nèi)基于明確、合理目的,以對AIGC服務(wù)使用者權(quán)益影響最小的方式、期限進(jìn)行個人信息處理及保存,不得過度收集AIGC服務(wù)使用者的個人信息。

?            履行數(shù)據(jù)跨境傳輸合規(guī)義務(wù):AIGC服務(wù)提供者應(yīng)當(dāng)結(jié)合具體的業(yè)務(wù)情況和相關(guān)法律規(guī)定,酌情選擇申報數(shù)據(jù)出境安全評估、與境外接收方簽訂標(biāo)準(zhǔn)合同、實施個人信息保護(hù)認(rèn)證等方式保證數(shù)據(jù)出境的合法合規(guī)。

?            設(shè)置個人信息主體權(quán)利響應(yīng)機(jī)制:AIGC服務(wù)提供者應(yīng)當(dāng)對模型使用過程可能涉及的個人信息進(jìn)行系統(tǒng)性梳理,設(shè)置并公示個人信息主體權(quán)利的響應(yīng)機(jī)制,及時受理和處理個人信息主體關(guān)于查閱復(fù)制、更正補(bǔ)充、刪除、要求解釋說明等要求。

(二)     數(shù)據(jù)安全 

1.          輸入數(shù)據(jù)包含敏感數(shù)據(jù) 

AIGC服務(wù)使用者在使用模型時,倘若輸入的數(shù)據(jù)包含敏感數(shù)據(jù),例如企業(yè)內(nèi)部的敏感文件、企業(yè)的商業(yè)秘密以及個人信息等,AIGC服務(wù)使用者將在不經(jīng)意間面臨極大的數(shù)據(jù)泄露風(fēng)險。例如,在三星員工泄露商業(yè)機(jī)密的事件中,當(dāng)員工在使用ChatGPT進(jìn)行代碼優(yōu)化或提取會議紀(jì)要時,可能會將公司的機(jī)密信息提供給供應(yīng)商OpenAI,從而導(dǎo)致泄密的風(fēng)險。更進(jìn)一步地,倘若AIGC服務(wù)提供者將AIGC服務(wù)使用者輸入的敏感數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù),將會導(dǎo)致二次泄密風(fēng)險。例如,亞馬遜的公司律師稱,其在ChatGPT生成的內(nèi)容中發(fā)現(xiàn)了與公司機(jī)密非常相似的文本,可能是由于一些亞馬遜員工在使用ChatGPT生成代碼和文本時輸入了公司內(nèi)部數(shù)據(jù)信息,該律師擔(dān)心員工輸入的信息可能被用作了ChatGPT迭代優(yōu)化的訓(xùn)練數(shù)據(jù)。 

2.          模型數(shù)據(jù)安全事件 

倘若AIGC服務(wù)提供者采取的安全防護(hù)措施不足,同樣將面臨多重數(shù)據(jù)泄露風(fēng)險。黑客可能通過識別并利用模型漏洞,如軟件缺陷或配置不當(dāng)來獲取未授權(quán)的數(shù)據(jù)訪問權(quán)限。此外,通過釣魚攻擊或誘騙等方式也可能使AIGC服務(wù)提供者內(nèi)部人員無意中泄露敏感數(shù)據(jù)。

AIGC服務(wù)提供者和使用者在模型應(yīng)用階段數(shù)據(jù)安全管理TIPs

?            建立外部模型使用管控機(jī)制:AIGC服務(wù)使用者應(yīng)對員工使用外部模型作出明確限制,例如,禁止未經(jīng)許可將內(nèi)部數(shù)據(jù)上傳至外部模型,并設(shè)置警報機(jī)制;又例如,對敏感數(shù)據(jù)進(jìn)行加密處理,確保即使相關(guān)數(shù)據(jù)被不合規(guī)的上傳,也不會泄露文件內(nèi)容。

?            提示避免輸入敏感數(shù)據(jù)AIGC服務(wù)提供者可以通過用戶協(xié)議、隱私政策或其他形式提示AIGC服務(wù)使用者在使用模型時避免輸入敏感數(shù)據(jù);在輸入第三方數(shù)據(jù)時還應(yīng)當(dāng)取得第三方的有效授權(quán)。

?            制定數(shù)據(jù)安全事件應(yīng)急預(yù)案:AIGC服務(wù)提供者應(yīng)當(dāng)構(gòu)建數(shù)據(jù)安全管控體系,加強(qiáng)數(shù)據(jù)全生命周期的安全防護(hù)能力,同時,應(yīng)定期審查和更新安全策略,確保安全措施的有效性和時效性;制定數(shù)據(jù)安全應(yīng)急預(yù)案,加強(qiáng)風(fēng)險監(jiān)測,在發(fā)生數(shù)據(jù)安全事件時應(yīng)當(dāng)立即采取補(bǔ)救措施并向有關(guān)主管部門報告。

三、 模型優(yōu)化階段 

《暫行辦法》第七條不僅明確了AIGC服務(wù)提供者在對模型開展預(yù)訓(xùn)練時應(yīng)當(dāng)遵守的合規(guī)要求,其同樣適用于AIGC服務(wù)提供者對模型開展迭代優(yōu)化等活動。在模型優(yōu)化階段,AIGC服務(wù)提供者需要關(guān)注的主要數(shù)據(jù)合規(guī)風(fēng)險來自于將AIGC服務(wù)使用者輸入的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行模型優(yōu)化以及未向AIGC服務(wù)使用者提供關(guān)閉或拒絕處理其輸入數(shù)據(jù)的路徑。 

(一)     使用AIGC服務(wù)使用者的輸入數(shù)據(jù)優(yōu)化模型 

AIGC服務(wù)提供者將AIGC服務(wù)使用者輸入的數(shù)據(jù)用于優(yōu)化模型,模型的性能隨之提升,該等持續(xù)的數(shù)據(jù)迭代和模型訓(xùn)練形成的數(shù)據(jù)飛輪效應(yīng)使得模型可以吸引更多的AIGC服務(wù)使用者,進(jìn)而產(chǎn)生更多的數(shù)據(jù)用于模型優(yōu)化。然而,倘若AIGC服務(wù)提供者并未取得處理相關(guān)輸入數(shù)據(jù)的合法性基礎(chǔ),例如針對個人信息未取得個人的同意、針對可能涉及的知識產(chǎn)權(quán)未取得相應(yīng)權(quán)利人的有效授權(quán)等,則AIGC服務(wù)提供者未經(jīng)許可將AIGC服務(wù)使用者輸入的數(shù)據(jù)用以優(yōu)化模型,很可能構(gòu)成對AIGC服務(wù)使用者或其他權(quán)利人合法權(quán)益的侵犯。實踐中,AIGC服務(wù)提供者一般會通過隱私政策向AIGC服務(wù)使用者告知其輸入的數(shù)據(jù)被用于訓(xùn)練模型的可能情形。例如,某知名大模型就在其《智能助手用戶隱私協(xié)議》明確我們搜集的上述信息(對話信息)會用于向您提供相關(guān)服務(wù),且在經(jīng)安全加密技術(shù)處理、嚴(yán)格去標(biāo)識化且無法重新識別特定個人的前提下,我們可能會將上述信息用于提升和迭代我們產(chǎn)品和服務(wù)之目的;又例如,某知名大模型在其《個人信息保護(hù)規(guī)則》明確我們還會使用對話信息提高模型對您輸入內(nèi)容的理解能力,以便不斷改進(jìn)模型的識別和響應(yīng)的速度和質(zhì)量,提高模型的智能性。 

(二)     未向AIGC服務(wù)使用者提供關(guān)閉或拒絕處理輸入數(shù)據(jù)的路徑 

《個人信息保護(hù)法》分別規(guī)定了個人信息的去標(biāo)識化與匿名化,去標(biāo)識化是指個人信息經(jīng)過處理,使其在不借助額外信息的情況下無法識別特定自然人的過程,匿名化是指個人信息經(jīng)過處理無法識別特定自然人且不能復(fù)原的過程。換言之,去標(biāo)識化處理后的個人信息仍屬于個人信息,而匿名化處理后的個人信息不再屬于個人信息。然而目前相關(guān)法律法規(guī)并對匿名化的技術(shù)要求作進(jìn)一步規(guī)定,因此對個人信息采取的脫敏處理等技術(shù)措施可能僅能達(dá)到去標(biāo)識化的效果,而無法實現(xiàn)嚴(yán)格意義上的匿名化。在該等情形下,即使AIGC服務(wù)使用者在相關(guān)隱私政策文件中明確了其已經(jīng)對AIGC服務(wù)使用者輸入數(shù)據(jù)中可能涉及的個人信息進(jìn)行了嚴(yán)格去標(biāo)識化處理,仍然可能無法達(dá)到《個人信息保護(hù)法》意義上的匿名化效果,倘若AIGC服務(wù)使用者并不希望AIGC服務(wù)提供者將其輸入的數(shù)據(jù)用于進(jìn)一步優(yōu)化模型,根據(jù)《個人信息保護(hù)法》,AIGC服務(wù)使用者有權(quán)要求AIGC服務(wù)提供者刪除其所收集并不再收集AIGC服務(wù)使用者的相關(guān)個人信息。

實踐中,AIGC服務(wù)提供者通常采取的措施是在隱私政策向AIGC服務(wù)使用者提示,如果不希望AIGC服務(wù)使用者收集和處理輸入數(shù)據(jù),AIGC服務(wù)使用者應(yīng)當(dāng)謹(jǐn)慎輸入,但是可能會影響部分功能的使用。例如,某知名大模型在其《個人信息保護(hù)規(guī)則》就明確告知用戶如您拒絕我們收集和處理前述個人信息,請您謹(jǐn)值輸入前述信息,但因此您可能會影響您正常使用模型提供的部分或全部功能。此外,還有部分AIGC服務(wù)使用者提供了拒絕處理輸入數(shù)據(jù)的關(guān)閉按鈕,例如某知名大模型在其《隱私政策》亦明確告知用戶如果你不希望你輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化,可以通過關(guān)閉設(shè)置’-‘賬號設(shè)置’-‘改進(jìn)語音服務(wù)來撤回你的授權(quán);如果你不希望其他信息用于模型訓(xùn)練和優(yōu)化,可以通過本隱私政策第9條公示的聯(lián)系方式與我們聯(lián)系,要求撤回使用你的數(shù)據(jù)用于模型訓(xùn)練和優(yōu)化

AIGC服務(wù)提供者在模型優(yōu)化階段處理AIGC服務(wù)使用者輸入數(shù)據(jù)TIPs

?            履行告知-同意義務(wù):AIGC服務(wù)提供者應(yīng)當(dāng)在隱私政策中明確告知AIGC服務(wù)使用者將會收集其輸入數(shù)據(jù)用以訓(xùn)練模型、優(yōu)化服務(wù)、改進(jìn)產(chǎn)品等并取得其同意。

?            提供關(guān)閉或拒絕處理輸入數(shù)據(jù)的方式:AIGC服務(wù)提供者應(yīng)當(dāng)為AIGC服務(wù)使用者提供拒絕或關(guān)閉其輸入數(shù)據(jù)用于訓(xùn)練的方式,例如為AIGC服務(wù)使用者提供選項或其他控制指令,且拒絕或關(guān)閉方式應(yīng)當(dāng)方便快捷。

結(jié)語

面對AIGC技術(shù)帶來的機(jī)遇與挑戰(zhàn),數(shù)據(jù)合規(guī)不僅是一項法律要求,更是推動技術(shù)健康發(fā)展的基石。AIGC各主體需要在創(chuàng)新與責(zé)任之間找到平衡,在這個過程中不僅要警惕風(fēng)險,更要積極尋求解決方案,以開放的心態(tài)和審慎的行動,共同推動AIGC技術(shù)的可持續(xù)發(fā)展。


[1] 《生成式人工智能服務(wù)管理暫行辦法》規(guī)定,生成式人工智能服務(wù)提供者,是指利用生成式人工智能技術(shù)提供生成式人工智能服務(wù)(包括通過提供可編程接口等方式提供生成式人工智能服務(wù))的組織、個人。具體來講,AIGC服務(wù)提供者又可以分為AIGC技術(shù)支持方和AIGC平臺運營方兩類,其中,AIGC技術(shù)支持方是指負(fù)責(zé)AIGC技術(shù)性開發(fā)的組織、個人,AIGC平臺運營方是指負(fù)責(zé)AIGC的商業(yè)性開發(fā),依據(jù)相關(guān)規(guī)定取得相應(yīng)資質(zhì)證照,承擔(dān)相應(yīng)義務(wù)與責(zé)任,提供AIGC技術(shù)應(yīng)用服務(wù)的組織、個人。本文中,為便于厘清不同情形下相關(guān)主體可能面臨的風(fēng)險,在特指負(fù)責(zé)AIGC技術(shù)性開發(fā)的組織、個人的情形下,使用“AIGC技術(shù)支持方的表述,其他情形不做另行區(qū)分,統(tǒng)一使用“AIGC服務(wù)提供者的表述。

[2] 2022)京73民終4201號。

[3] 《中華人民共和國刑法》第二百八十五條第一款規(guī)定,違反國家規(guī)定,侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機(jī)信息系統(tǒng)的,處三年以下有期徒刑或者拘役。