在线一二三区,亚洲精品mv,国产一级成人

生成式人工智能（“AIGC”）作為人工智能領(lǐng)域的一項革命性技術(shù)，正迅速改變著內(nèi)容創(chuàng)作的生態(tài)。AIGC技術(shù)通過深度學(xué)習(xí)模型，能夠自動生成文字、圖像、音頻、視頻等多種形式的內(nèi)容，為創(chuàng)意產(chǎn)業(yè)帶來了前所未有的機(jī)遇。然而，隨著技術(shù)的快速發(fā)展，數(shù)據(jù)方面的問題也逐漸顯現(xiàn)，成為制約AIGC健康發(fā)展的關(guān)鍵因素之一。2023年8月15日生效的《生成式人工智能服務(wù)管理暫行辦法》（“《暫行辦法》”）旨在通過法律手段引導(dǎo)和促進(jìn)AIGC技術(shù)的合規(guī)使用，保護(hù)數(shù)據(jù)安全，尊重知識產(chǎn)權(quán)和個人隱私，同時防止數(shù)據(jù)偏見和歧視的產(chǎn)生。

本文將從模型訓(xùn)練、模型應(yīng)用以及模型優(yōu)化三個階段對AIGC可能涉及的數(shù)據(jù)合規(guī)風(fēng)險進(jìn)行分析，并為AIGC技術(shù)支持方、AIGC平臺運營方 [1] 以及AIGC服務(wù)使用者等提供相關(guān)合規(guī)建議。

一、模型訓(xùn)練階段

《暫行辦法》第七條規(guī)定，生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動，遵守以下規(guī)定：（一）使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型；（二）涉及知識產(chǎn)權(quán)的，不得侵害他人依法享有的知識產(chǎn)權(quán)；（三）涉及個人信息的，應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形；（四）采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量，增強(qiáng)訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性；（五）《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。第八條規(guī)定，在生成式人工智能技術(shù)研發(fā)過程中進(jìn)行數(shù)據(jù)標(biāo)注的，提供者應(yīng)當(dāng)制定符合本辦法要求的清晰、具體、可操作的標(biāo)注規(guī)則；開展數(shù)據(jù)標(biāo)注質(zhì)量評估，抽樣核驗標(biāo)注內(nèi)容的準(zhǔn)確性；對標(biāo)注人員進(jìn)行必要培訓(xùn)，提升尊法守法意識，監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開展標(biāo)注工作。

結(jié)合上述規(guī)定，模型訓(xùn)練階段數(shù)據(jù)合規(guī)相關(guān)的要素主要涉及訓(xùn)練數(shù)據(jù)來源以及數(shù)據(jù)質(zhì)量兩方面。

(一) 數(shù)據(jù)來源

訓(xùn)練數(shù)據(jù)來源合法是訓(xùn)練數(shù)據(jù)合規(guī)討論的起點，AIGC技術(shù)支持方往往會通過公開收集、自行采集、第三方采購等方式獲取訓(xùn)練數(shù)據(jù)，在該等過程中其可能面臨的主要風(fēng)險如下：

1. 侵犯知識產(chǎn)權(quán)

《中華人民共和國著作權(quán)法》（“《著作權(quán)法》”）第五十三條規(guī)定，有下列侵權(quán)行為的，應(yīng)當(dāng)根據(jù)情況，承擔(dān)本法第五十二條規(guī)定的民事責(zé)任……：（一）未經(jīng)著作權(quán)人許可，復(fù)制、發(fā)行、表演、放映、廣播、匯編、通過信息網(wǎng)絡(luò)向公眾傳播其作品的，本法另有規(guī)定的除外；……

基于上述規(guī)定，如果AIGC技術(shù)支持方獲取的數(shù)據(jù)包含受著作權(quán)等知識產(chǎn)權(quán)保護(hù)的材料，倘若其并未獲得完整授權(quán)，往往涉及著作權(quán)等知識產(chǎn)權(quán)侵權(quán)。例如，在采用爬蟲方式獲取的情況下，無論是網(wǎng)絡(luò)上的文章、圖片、用戶評論乃至網(wǎng)站自身的數(shù)據(jù)庫，都有可能在具備獨創(chuàng)性的情況下構(gòu)成著作權(quán)法意義上的作品，不論其在原網(wǎng)站上是否可免費公開訪問，未經(jīng)許可對于該等數(shù)據(jù)的抓取和使用可能構(gòu)成著作權(quán)侵權(quán)。

值得探討的是，AIGC技術(shù)支持方獲取數(shù)據(jù)后用于模型訓(xùn)練的行為是否適用“合理使用”。一方面，AIGC技術(shù)支持方一般會將相關(guān)訓(xùn)練數(shù)據(jù)復(fù)制或者下載到自己所有或者第三方服務(wù)器中進(jìn)行保存以便于使用，該種行為往往涉及著作權(quán)中的“復(fù)制”行為，且AIGC技術(shù)支持方對訓(xùn)練數(shù)據(jù)的使用一般系用于自身商業(yè)目的之使用，似乎很難滿足《著作權(quán)法》明確規(guī)定的“合理使用”的條件。但另一方面，大模型訓(xùn)練對于作品的復(fù)制是“中間復(fù)制”，即在大模型訓(xùn)練階段，盡管可能涉及對于訓(xùn)練數(shù)據(jù)（其中可能含有大量受著作權(quán)法保護(hù)的作品）的復(fù)制，但該等復(fù)制件并不是大模型產(chǎn)品的最終形態(tài)。通常情況下，AIGC技術(shù)支持方也不會對外傳播、展示該等復(fù)制件。此外，從使用目的的角度，事實上，AIGC技術(shù)支持方復(fù)制訓(xùn)練數(shù)據(jù)并對相關(guān)訓(xùn)練數(shù)據(jù)進(jìn)行清洗、標(biāo)注等預(yù)處理步驟，其目的是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為便于機(jī)器理解的數(shù)值數(shù)據(jù)，以便對其內(nèi)含規(guī)律、特征進(jìn)行總結(jié)和學(xué)習(xí)。因此，大模型訓(xùn)練是否適用合理使用原則值得深入探討。

此外，根據(jù)《中華人民共和國反不正當(dāng)競爭法》（“《反不正當(dāng)競爭法》”），商業(yè)秘密是指不為公眾所知悉、具有商業(yè)價值并經(jīng)權(quán)利人采取相應(yīng)保密措施的技術(shù)信息、經(jīng)營信息等商業(yè)信息。在AIGC技術(shù)支持方獲取訓(xùn)練數(shù)據(jù)的過程中，倘若相關(guān)數(shù)據(jù)構(gòu)成商業(yè)秘密，AIGC技術(shù)支持方未能識別且未經(jīng)授權(quán)使用該等數(shù)據(jù)，便可能構(gòu)成商業(yè)秘密侵權(quán)，需要承擔(dān)商業(yè)秘密侵權(quán)責(zé)任。

2. 不正當(dāng)競爭

實踐中，AIGC技術(shù)支持方往往會通過爬蟲等技術(shù)手段取得訓(xùn)練數(shù)據(jù)，可能存在構(gòu)成不正當(dāng)競爭的風(fēng)險?！吨腥A人民共和國民法典》（“《民法典》”）第一百二十七條規(guī)定，法律對數(shù)據(jù)、網(wǎng)絡(luò)虛擬財產(chǎn)的保護(hù)有規(guī)定的，依照其規(guī)定。這是數(shù)據(jù)權(quán)益保護(hù)的法律基礎(chǔ)。盡管如此，該條款僅為框架性、引致性規(guī)定，并未對數(shù)據(jù)的權(quán)利屬性及保護(hù)要求作出具體規(guī)定。司法實踐中，對于非法爬取數(shù)據(jù)的行為，法院更傾向于援引《反不正當(dāng)競爭法》的相關(guān)規(guī)定。

《反不正當(dāng)競爭法》第二條規(guī)定，經(jīng)營者在市場交易中，應(yīng)當(dāng)遵循自愿、平等、公平、誠實信用的原則，遵守公認(rèn)的商業(yè)道德。使用爬蟲技術(shù)繞開robots協(xié)議（尤其是目標(biāo)網(wǎng)站所采用的Disallow語句）爬取相關(guān)數(shù)據(jù)的行為將有可能被認(rèn)定為違反了上述“公認(rèn)的商業(yè)道德”，進(jìn)而被認(rèn)定為構(gòu)成不正當(dāng)競爭行為，相關(guān)技術(shù)的使用方也需要承擔(dān)停止侵害、損害賠償?shù)蓉?zé)任。更進(jìn)一步地，如果爬蟲的使用干擾了被訪問網(wǎng)站的正常運行，或者用于替代被爬取方的服務(wù)，被認(rèn)定為構(gòu)成不正當(dāng)競爭的可能性更高。

例如，在抓取使用房產(chǎn)交易信息平臺房源數(shù)據(jù)案 [2] 中，法院認(rèn)為，S公司以技術(shù)手段大規(guī)模抓取涉案數(shù)據(jù)，并將涉案數(shù)據(jù)存儲在自有服務(wù)器后去除原平臺網(wǎng)站水印、加入其他主體水印，傳播至社交媒體和第三方房產(chǎn)信息平臺等，為“虛假房源”發(fā)布提供了重要工具和便利條件，客觀上助長了“虛假房源”蔓延，明顯違背房產(chǎn)經(jīng)紀(jì)行業(yè)的誠信原則和商業(yè)道德。而且，S公司在訴訟中已明確承諾立即停止被訴行為的同時，又以更隱蔽的方式變相、持續(xù)實施被訴行為，主觀惡意極為明顯。被訴行為搶奪了本屬于L公司的用戶流量，影響了用戶粘性和信賴度，使消費者知情權(quán)、選擇權(quán)和交易安全因“虛假房源”直接受損，使靠誠信經(jīng)營獲取競爭優(yōu)勢的經(jīng)營者無法獲得有效激勵，破壞了房產(chǎn)經(jīng)紀(jì)行業(yè)的競爭生態(tài)和秩序，構(gòu)成不正當(dāng)競爭行為。

3. 侵犯人格權(quán)

《民法典》第九百九十條規(guī)定，人格權(quán)是民事主體享有的生命權(quán)、身體權(quán)、健康權(quán)、姓名權(quán)、名稱權(quán)、肖像權(quán)、名譽(yù)權(quán)、榮譽(yù)權(quán)、隱私權(quán)等權(quán)利。除前款規(guī)定的人格權(quán)外，自然人享有基于人身自由、人格尊嚴(yán)產(chǎn)生的其他人格權(quán)益?！睹穹ǖ洹返诰虐倬攀粭l規(guī)定，民事主體的人格權(quán)受法律保護(hù)，任何組織或者個人不得侵害。特別地，《民法典》第一千零一十八條規(guī)定，自然人享有肖像權(quán)，有權(quán)依法制作、使用、公開或者許可他人使用自己的肖像。第一千零一十九條規(guī)定，任何組織或者個人不得以丑化、污損，或者利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)。未經(jīng)肖像權(quán)人同意，不得制作、使用、公開肖像權(quán)人的肖像，但是法律另有規(guī)定的除外。第一千零二十三條規(guī)定，對自然人聲音的保護(hù)，參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。

實踐中，考慮到訓(xùn)練數(shù)據(jù)可能包含了圖片、影片等內(nèi)容，倘若這些數(shù)據(jù)中的肖像或聲音能反映自然人的特征，或者社會大眾能夠通過相關(guān)形象或聲音與自然人的真實特征聯(lián)系起來，該等形象或聲音都有可能被視為屬于自然人肖像權(quán)和聲音權(quán)的范疇，AIGC技術(shù)支持方使用相關(guān)訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)就該等自然人的肖像或聲音取得授權(quán)，否則將可能構(gòu)成侵權(quán)。

4. 侵害個人信息

《中華人民共和國網(wǎng)絡(luò)安全法》第四十四條規(guī)定，任何個人和組織不得竊取或者以其他非法方式獲取個人信息。《中華人民共和國個人信息保護(hù)法》（“《個人信息保護(hù)法》”）第二十七條規(guī)定，個人信息處理者可以在合理的范圍內(nèi)處理個人自行公開或者其他已經(jīng)合法公開的個人信息；個人明確拒絕的除外。個人信息處理者處理已公開的個人信息，對個人權(quán)益有重大影響的，應(yīng)當(dāng)依照本法規(guī)定取得個人同意。特別地，處理敏感個人信息還用當(dāng)取得個人的單獨同意。因此，如果AIGC技術(shù)支持方獲取的用于模型訓(xùn)練的數(shù)據(jù)包含個人信息，則應(yīng)當(dāng)遵守上述《個人信息保護(hù)法》的相關(guān)規(guī)定，在未經(jīng)用戶同意的情況下收集用戶的個人信息，則可能構(gòu)成侵害個人信息的違法行為。

5. 處理核心數(shù)據(jù)、重要數(shù)據(jù)

《中華人民共和國數(shù)據(jù)安全法》（“《數(shù)據(jù)安全法》”）第二十一條規(guī)定，核心數(shù)據(jù)是指“關(guān)系國家安全、國民經(jīng)濟(jì)命脈、重要民生、重大公共利益等數(shù)據(jù)”。《數(shù)據(jù)出境安全評估辦法》第十九條規(guī)定，重要數(shù)據(jù)是指“一旦遭到篡改、破壞、泄露或者非法獲取、非法利用等，可能危害國家安全、經(jīng)濟(jì)運行、社會穩(wěn)定、公共健康和安全等的數(shù)據(jù)”。目前，諸多地方、各行業(yè)以及部分先行區(qū)已出臺規(guī)則或目錄明確核心數(shù)據(jù)和重要數(shù)據(jù)。例如，工業(yè)和信息化部在《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全管理辦法（試行）》中，對工業(yè)和信息化領(lǐng)域重要數(shù)據(jù)、核心數(shù)據(jù)的認(rèn)定標(biāo)準(zhǔn)進(jìn)行了細(xì)化；五部門聯(lián)合發(fā)布的《汽車數(shù)據(jù)安全管理若干規(guī)定（試行）》中，劃定了六條汽車行業(yè)重要數(shù)據(jù)的認(rèn)定范圍。倘若AIGC技術(shù)支持方用于訓(xùn)練大模型的數(shù)據(jù)涉及核心數(shù)據(jù)、重要數(shù)據(jù)，其需要履行一系列更為嚴(yán)格的義務(wù)，且各行業(yè)的具體義務(wù)履行方式各有差異，包括但不限于：（1）向監(jiān)管履行義務(wù)，例如在其所在地區(qū)行業(yè)監(jiān)管部門備案并持續(xù)就備案內(nèi)容變化履行變更手續(xù)、開展風(fēng)險評估并報送風(fēng)險評估報告、定期報送數(shù)據(jù)安全管理情況；（2）數(shù)據(jù)安全管理義務(wù)，例如建立單位相關(guān)部門的數(shù)據(jù)安全工作體系并明確數(shù)據(jù)安全責(zé)任、根據(jù)數(shù)據(jù)安全級別采取相應(yīng)安全措施等。

因此，AIGC技術(shù)支持方需要識別出訓(xùn)練數(shù)據(jù)中可能包含的重要數(shù)據(jù)、核心數(shù)據(jù)，進(jìn)而根據(jù)其所屬行業(yè)、地區(qū)以及保密級別針對性地履行相關(guān)合規(guī)義務(wù)。盡管如此，當(dāng)前核心數(shù)據(jù)、重要數(shù)據(jù)的認(rèn)定標(biāo)準(zhǔn)及目錄分散在各部門規(guī)章、行業(yè)標(biāo)準(zhǔn)及地方性法規(guī)中，AIGC技術(shù)支持方可能難以確保這一識別工作的準(zhǔn)確性和完整性，進(jìn)而難以在此基礎(chǔ)上充分履行合規(guī)義務(wù)。

6. 刑事風(fēng)險

根據(jù)《中華人民共和國刑法》（“《刑法》”）第二百八十五條和第二百八十六條，未經(jīng)授權(quán)獲取“計算機(jī)信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù)”，“對計算機(jī)信息系統(tǒng)實施非法控制”，或者對計算機(jī)信息系統(tǒng)功能進(jìn)行干擾，情節(jié)嚴(yán)重的可能會受到刑事處罰。例如，倘若AIGC技術(shù)支持方故意避開或強(qiáng)行突破網(wǎng)站的反爬蟲技術(shù)設(shè)置，或者侵入《刑法》第二百八十五條第一款 [3] 規(guī)定以外的計算機(jī)信息系統(tǒng)但網(wǎng)絡(luò)爬蟲過快或大量重復(fù)訪問，大量占用服務(wù)器帶寬和運算能力、大幅度增加計算機(jī)處理負(fù)擔(dān)，進(jìn)而干擾計算機(jī)信息系統(tǒng)正常運行且后果嚴(yán)重，可能會涉及刑事責(zé)任。

AIGC技術(shù)支持方在模型訓(xùn)練階段訓(xùn)練數(shù)據(jù)獲取TIPs：

? 取得訓(xùn)練數(shù)據(jù)權(quán)利主體授權(quán)同意：實踐中，模型訓(xùn)練需要海量的數(shù)據(jù)，獲得每一個數(shù)據(jù)主體的授權(quán)一般難以實現(xiàn)。但對于某些風(fēng)險較大的數(shù)據(jù)，例如生物識別、宗教信仰、特定身份、醫(yī)療健康、金融賬戶、行蹤軌跡等信息等敏感個人信息，AIGC技術(shù)支持方應(yīng)當(dāng)取得相關(guān)權(quán)利主體的單獨的授權(quán)同意。

? 合法使用爬蟲等技術(shù)手段：AIGC技術(shù)支持方在通過爬蟲等技術(shù)手段獲取訓(xùn)練數(shù)據(jù)時，不可突破、繞開技術(shù)措施爬取數(shù)據(jù)，并遵守Robots協(xié)議；避免爬取個人信息、他人享有著作權(quán)的作品等；避免大量、高頻的爬取數(shù)據(jù)，防止破壞網(wǎng)站正常經(jīng)營。此外，在爬取并使用開源數(shù)據(jù)集時，AIGC技術(shù)支持方還需要遵守開源許可證相關(guān)要求。

? 避免收集處理核心數(shù)據(jù)和重要數(shù)據(jù)：原則上避免收集處理包含有核心數(shù)據(jù)、重要數(shù)據(jù)的訓(xùn)練數(shù)據(jù)，同時對核心數(shù)據(jù)、重要數(shù)據(jù)的識別工作進(jìn)行關(guān)注，一旦用于模型訓(xùn)練的訓(xùn)練數(shù)據(jù)被識別或認(rèn)定為核心數(shù)據(jù)或重要數(shù)據(jù)，AIGC技術(shù)支持方需要對該等核心數(shù)據(jù)或重要數(shù)據(jù)進(jìn)行重點保護(hù)，履行數(shù)據(jù)處理者的相關(guān)義務(wù)。

? 嚴(yán)格審查第三方采購數(shù)據(jù)來源：AIGC技術(shù)支持方在從第三方數(shù)據(jù)供應(yīng)商處采購訓(xùn)練數(shù)據(jù)時，應(yīng)當(dāng)與第三方數(shù)據(jù)供應(yīng)商簽訂明確的合作協(xié)議，要求其對相關(guān)訓(xùn)練數(shù)據(jù)的知識產(chǎn)權(quán)、涉及第三方的民事權(quán)益（包括但不限于人格權(quán)、個人信息等）進(jìn)行不侵權(quán)的陳述保證，同時要求該等數(shù)據(jù)供應(yīng)商保證授權(quán)鏈條的完整性。

? 建立數(shù)據(jù)合規(guī)管理和技術(shù)應(yīng)對方案：AIGC技術(shù)支持方還應(yīng)當(dāng)遵守相關(guān)的數(shù)據(jù)保護(hù)法規(guī)和AI倫理準(zhǔn)則，利用技術(shù)手段建立健全風(fēng)險應(yīng)對方案，比如數(shù)據(jù)加密、匿名化處理等，對訓(xùn)練數(shù)據(jù)的使用、披露范圍進(jìn)行嚴(yán)格控制，保護(hù)相關(guān)訓(xùn)練數(shù)據(jù)不被未授權(quán)者訪問，以降低可能得侵權(quán)風(fēng)險。

(二) 數(shù)據(jù)質(zhì)量

訓(xùn)練大模型需要大規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù)集，通常需要從各個領(lǐng)域和多個數(shù)據(jù)源收集數(shù)據(jù)，數(shù)據(jù)質(zhì)量直接影響到模型訓(xùn)練的效果。高質(zhì)量的數(shù)據(jù)應(yīng)具備準(zhǔn)確性和代表性，能夠全面反映模型需要學(xué)習(xí)的特征和模式。數(shù)據(jù)標(biāo)注的準(zhǔn)確性對于模型的理解能力同樣至關(guān)重要。標(biāo)注不僅需要精確無誤，還應(yīng)遵循道德和法律標(biāo)準(zhǔn)，尊重數(shù)據(jù)中涉及的所有個體的權(quán)利，包括但不限于避免偏見、歧視以及確保數(shù)據(jù)的多樣性和包容性。具體而言，AIGC技術(shù)支持方在訓(xùn)練數(shù)據(jù)質(zhì)量方面可能面臨的主要風(fēng)險如下：

1. 標(biāo)注數(shù)據(jù)質(zhì)量參差不齊生成誤導(dǎo)性內(nèi)容

一方面，數(shù)據(jù)標(biāo)注的不一致性可能使模型對特定類別的識別產(chǎn)生偏差。例如，在圖像識別任務(wù)中，如果標(biāo)注者對圖像中的對象識別標(biāo)準(zhǔn)不一，模型可能會混淆不同類別，導(dǎo)致生成的內(nèi)容與實際情況不符。另一方面，數(shù)據(jù)集中的錯誤和噪聲會削弱模型的泛化能力。當(dāng)數(shù)據(jù)集中包含大量錯誤標(biāo)注的樣本時，模型可能會學(xué)習(xí)到這些錯誤特征，而非真實的數(shù)據(jù)分布，進(jìn)而影響模型在面對新數(shù)據(jù)時的表現(xiàn)。此外，數(shù)據(jù)標(biāo)注的偏見可能導(dǎo)致模型生成具有歧視性的內(nèi)容。如果標(biāo)注者在標(biāo)注過程中受到自身偏見的影響，模型可能會學(xué)習(xí)并復(fù)制這些偏見，進(jìn)而在生成內(nèi)容時表現(xiàn)出不公平。

2. 訓(xùn)練數(shù)據(jù)缺乏多樣性導(dǎo)致價值觀偏差

一方面，訓(xùn)練數(shù)據(jù)缺乏多樣性可能導(dǎo)致模型對某些群體或文化的理解存在偏差。如果訓(xùn)練數(shù)據(jù)主要來源于特定地區(qū)或社會群體，模型可能會過度強(qiáng)調(diào)這些群體的價值觀和觀點，而忽視其他群體的聲音，進(jìn)而導(dǎo)致生成的內(nèi)容在文化多樣性和包容性方面存在缺陷。另一方面，訓(xùn)練數(shù)據(jù)的局限性還可能導(dǎo)致模型在處理復(fù)雜主題和抽象概念時表現(xiàn)不佳。復(fù)雜主題和抽象概念往往需要更廣泛的知識和更深入的理解。如果訓(xùn)練數(shù)據(jù)缺乏這些方面的數(shù)據(jù)，模型可能無法生成深入、全面的內(nèi)容，使得其在專業(yè)領(lǐng)域的應(yīng)用效果受到影響。此外，訓(xùn)練數(shù)據(jù)的偏差也可能導(dǎo)致模型在生成內(nèi)容時表現(xiàn)出不公正的傾向。如果訓(xùn)練數(shù)據(jù)中存在性別、種族或社會地位等方面的偏見，模型可能會在生成內(nèi)容時復(fù)制這些偏見，導(dǎo)致生成的內(nèi)容帶有歧視性。

3. 訓(xùn)練數(shù)據(jù)時效性偏差降低模型可信度

一方面，訓(xùn)練數(shù)據(jù)的時效性偏差可能使模型在處理最新事件或趨勢時顯得力不從心。例如，在新聞報道或市場分析等領(lǐng)域，如果模型依賴的是過時的數(shù)據(jù)，其生成的內(nèi)容可能無法準(zhǔn)確反映最新的發(fā)展動態(tài)，從而誤導(dǎo)用戶決策。另一方面，訓(xùn)練數(shù)據(jù)的時效性不足可能影響模型在特定領(lǐng)域的專業(yè)性和權(quán)威性。在法律、醫(yī)療等專業(yè)領(lǐng)域，知識的更新?lián)Q代非?？?，如果模型所依賴的訓(xùn)練數(shù)據(jù)未能跟上最新的研究成果或法規(guī)變化，其生成的內(nèi)容可能失去專業(yè)性，甚至產(chǎn)生誤導(dǎo)。此外，訓(xùn)練數(shù)據(jù)的時效性問題還可能引發(fā)用戶的不信任。用戶期望模型能夠提供準(zhǔn)確、可靠的信息。如果模型頻繁輸出過時或不準(zhǔn)確的內(nèi)容，用戶可能會對模型的可信度產(chǎn)生質(zhì)疑，進(jìn)而影響模型的長期發(fā)展。

AIGC技術(shù)支持方在模型訓(xùn)練階段訓(xùn)練數(shù)據(jù)質(zhì)量管理TIPs：

? 采取嚴(yán)格的數(shù)據(jù)質(zhì)量管理措施：對訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)行嚴(yán)格管理，包括數(shù)據(jù)清洗、標(biāo)注者培訓(xùn)、多輪標(biāo)注和驗證等；持續(xù)監(jiān)控和評估模型的輸出內(nèi)容，確保其質(zhì)量和安全性，最大限度地減少數(shù)據(jù)標(biāo)注質(zhì)量參差不齊帶來的風(fēng)險，提高模型的可靠性和有效性。

? 提升訓(xùn)練數(shù)據(jù)多樣性：確保訓(xùn)練數(shù)據(jù)具有足夠的代表性，涵蓋不同的文化、地區(qū)和社會群體；對訓(xùn)練數(shù)據(jù)進(jìn)行細(xì)致的分析和篩選，以確保其質(zhì)量和多樣性；對模型進(jìn)行持續(xù)的監(jiān)控和評估，以確保其生成的內(nèi)容符合社會價值觀和倫理標(biāo)準(zhǔn)。

? 定期更新并監(jiān)控訓(xùn)練數(shù)據(jù)：定期更新訓(xùn)練數(shù)據(jù)，確保其反映的信息與當(dāng)前實際情況相符；建立有效的數(shù)據(jù)監(jiān)控和反饋機(jī)制，及時發(fā)現(xiàn)并糾正訓(xùn)練數(shù)據(jù)中的時效性問題；加強(qiáng)與專業(yè)領(lǐng)域的合作，確保模型能夠及時吸收最新的研究成果和知識更新。

二、模型應(yīng)用階段

《暫行辦法》第十一條規(guī)定，提供者對使用者的輸入信息和使用記錄應(yīng)當(dāng)依法履行保護(hù)義務(wù)，不得收集非必要個人信息，不得非法留存能夠識別使用者身份的輸入信息和使用記錄，不得非法向他人提供使用者的輸入信息和使用記錄。提供者應(yīng)當(dāng)依法及時受理和處理個人關(guān)于查閱、復(fù)制、更正、補(bǔ)充、刪除其個人信息等的請求。在模型應(yīng)用階段，AIGC服務(wù)提供者需要處理AIGC服務(wù)使用者在使用AIGC服務(wù)時輸入的相關(guān)數(shù)據(jù)，在該等過程中，AIGC服務(wù)提供者和AIGC服務(wù)使用者均可能面臨一定的數(shù)據(jù)合規(guī)風(fēng)險，主要如下：

(一) 數(shù)據(jù)處理

1. 處理個人信息不具備合法性基礎(chǔ)

《個人信息保護(hù)法》第五條規(guī)定，處理個人信息應(yīng)當(dāng)遵循合法、正當(dāng)、必要和誠信原則，不得通過誤導(dǎo)、欺詐、脅迫等方式處理個人信息。第六條規(guī)定，處理個人信息應(yīng)當(dāng)具有明確、合理的目的，并應(yīng)當(dāng)與處理目的直接相關(guān)，采取對個人權(quán)益影響最小的方式。收集個人信息，應(yīng)當(dāng)限于實現(xiàn)處理目的的最小范圍，不得過度收集個人信息。第七條規(guī)定，處理個人信息應(yīng)當(dāng)遵循公開、透明原則，公開個人信息處理規(guī)則，明示處理的目的、方式和范圍。第十條規(guī)定，任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息，不得非法買賣、提供或者公開他人個人信息；不得從事危害國家安全、公共利益的個人信息處理活動?！稌盒修k法》第十一條相關(guān)規(guī)定正是對《個人信息保護(hù)法》所確立的上述原則在人工智能語境下的重申。實踐中，通常由直接面向AIGC服務(wù)使用者提供服務(wù)的AIGC服務(wù)提供者履行上述義務(wù)，在AIGC服務(wù)提供者超范圍或者非法處理AIGC服務(wù)使用者的個人信息的情況下還需承擔(dān)相應(yīng)的法律責(zé)任。

2. 數(shù)據(jù)跨境傳輸風(fēng)險

在AIGC服務(wù)提供者通過API等方式介入境外服務(wù)商提供的服務(wù)或AIGC服務(wù)提供者將自身的服務(wù)器部署在境外的情況下，AIGC服務(wù)使用者在使用相關(guān)服務(wù)時上傳的數(shù)據(jù)可能被傳輸至境外，考慮到AIGC服務(wù)提供者向境外提供的數(shù)據(jù)類型存在很大不確定性，因此可能觸發(fā)相關(guān)的數(shù)據(jù)出境合規(guī)義務(wù)要求。根據(jù)《數(shù)據(jù)安全法》《個人信息保護(hù)法》以及《數(shù)據(jù)出境安全評估辦法》等相關(guān)規(guī)定，我國明確了數(shù)據(jù)出境的三條主要路徑，包括通過國家網(wǎng)信部門組織的安全評估、經(jīng)專業(yè)機(jī)構(gòu)進(jìn)行個人信息保護(hù)認(rèn)證、或者按照國家網(wǎng)信部門制定的標(biāo)準(zhǔn)合同與境外接收方訂立合同約定雙方的權(quán)利和義務(wù)。與此同時，《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動的重要規(guī)定》還規(guī)定了數(shù)據(jù)出境的幾種豁免情形，例如出境數(shù)據(jù)不包含個人信息或者重要數(shù)據(jù)、或預(yù)計一年內(nèi)向境外提供不滿1萬人個人信息等情況的，則不需要申報安全評估、標(biāo)準(zhǔn)合同備案或通過認(rèn)證。

3. 數(shù)據(jù)主體權(quán)利保障缺失

《個人信息保護(hù)法》通過原則性條款明確了個人對其個人信息的處理享有知情權(quán)、決定權(quán)，以及有權(quán)限制或者拒絕他人對其個人信息進(jìn)行處理，并具體規(guī)定了查閱復(fù)制和轉(zhuǎn)移權(quán)、更正和補(bǔ)充權(quán)、刪除權(quán)、要求解釋權(quán)等。同時，《個人信息保護(hù)法》還要求企業(yè)作為個人信息處理者應(yīng)當(dāng)建立便捷的個人行使權(quán)利的申請受理和處理機(jī)制，拒絕個人行使權(quán)利的請求的，應(yīng)當(dāng)說明理由。個人信息處理者若拒絕個人行使權(quán)利的請求，則個人信息主體可向法院提起訴訟。因此AIGC服務(wù)提供者應(yīng)審慎對待AIGC服務(wù)使用者的行權(quán)請求并及時響應(yīng)，不能以存在困難為由不處理或不及時處理。

AIGC服務(wù)提供者在模型應(yīng)用階段數(shù)據(jù)處理TIPs：

? 確保處理個人信息具備合法性基礎(chǔ)：AIGC服務(wù)提供者處理AIGC服務(wù)使用者的輸入信息和使用記錄等個人信息時，應(yīng)當(dāng)明確并向AIGC服務(wù)使用者告知處理目的、處理方式及保存期限等，在必要的范圍內(nèi)基于明確、合理目的，以對AIGC服務(wù)使用者權(quán)益影響最小的方式、期限進(jìn)行個人信息處理及保存，不得過度收集AIGC服務(wù)使用者的個人信息。

? 履行數(shù)據(jù)跨境傳輸合規(guī)義務(wù)：AIGC服務(wù)提供者應(yīng)當(dāng)結(jié)合具體的業(yè)務(wù)情況和相關(guān)法律規(guī)定，酌情選擇申報數(shù)據(jù)出境安全評估、與境外接收方簽訂標(biāo)準(zhǔn)合同、實施個人信息保護(hù)認(rèn)證等方式保證數(shù)據(jù)出境的合法合規(guī)。

? 設(shè)置個人信息主體權(quán)利響應(yīng)機(jī)制：AIGC服務(wù)提供者應(yīng)當(dāng)對模型使用過程可能涉及的個人信息進(jìn)行系統(tǒng)性梳理，設(shè)置并公示個人信息主體權(quán)利的響應(yīng)機(jī)制，及時受理和處理個人信息主體關(guān)于查閱復(fù)制、更正補(bǔ)充、刪除、要求解釋說明等要求。

(二) 數(shù)據(jù)安全

1. 輸入數(shù)據(jù)包含敏感數(shù)據(jù)

AIGC服務(wù)使用者在使用模型時，倘若輸入的數(shù)據(jù)包含敏感數(shù)據(jù)，例如企業(yè)內(nèi)部的敏感文件、企業(yè)的商業(yè)秘密以及個人信息等，AIGC服務(wù)使用者將在不經(jīng)意間面臨極大的數(shù)據(jù)泄露風(fēng)險。例如，在三星員工泄露商業(yè)機(jī)密的事件中，當(dāng)員工在使用ChatGPT進(jìn)行代碼優(yōu)化或提取會議紀(jì)要時，可能會將公司的機(jī)密信息提供給供應(yīng)商OpenAI，從而導(dǎo)致泄密的風(fēng)險。更進(jìn)一步地，倘若AIGC服務(wù)提供者將AIGC服務(wù)使用者輸入的敏感數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)，將會導(dǎo)致二次泄密風(fēng)險。例如，亞馬遜的公司律師稱，其在ChatGPT生成的內(nèi)容中發(fā)現(xiàn)了與公司機(jī)密“非常相似”的文本，可能是由于一些亞馬遜員工在使用ChatGPT生成代碼和文本時輸入了公司內(nèi)部數(shù)據(jù)信息，該律師擔(dān)心員工輸入的信息可能被用作了ChatGPT迭代優(yōu)化的訓(xùn)練數(shù)據(jù)。

2. 模型數(shù)據(jù)安全事件

倘若AIGC服務(wù)提供者采取的安全防護(hù)措施不足，同樣將面臨多重數(shù)據(jù)泄露風(fēng)險。黑客可能通過識別并利用模型漏洞，如軟件缺陷或配置不當(dāng)來獲取未授權(quán)的數(shù)據(jù)訪問權(quán)限。此外，通過釣魚攻擊或誘騙等方式也可能使AIGC服務(wù)提供者內(nèi)部人員無意中泄露敏感數(shù)據(jù)。

AIGC服務(wù)提供者和使用者在模型應(yīng)用階段數(shù)據(jù)安全管理TIPs：

? 建立外部模型使用管控機(jī)制：AIGC服務(wù)使用者應(yīng)對員工使用外部模型作出明確限制，例如，禁止未經(jīng)許可將內(nèi)部數(shù)據(jù)上傳至外部模型，并設(shè)置警報機(jī)制；又例如，對敏感數(shù)據(jù)進(jìn)行加密處理，確保即使相關(guān)數(shù)據(jù)被不合規(guī)的上傳，也不會泄露文件內(nèi)容。

? 提示避免輸入敏感數(shù)據(jù)：AIGC服務(wù)提供者可以通過用戶協(xié)議、隱私政策或其他形式提示AIGC服務(wù)使用者在使用模型時避免輸入敏感數(shù)據(jù)；在輸入第三方數(shù)據(jù)時還應(yīng)當(dāng)取得第三方的有效授權(quán)。

? 制定數(shù)據(jù)安全事件應(yīng)急預(yù)案：AIGC服務(wù)提供者應(yīng)當(dāng)構(gòu)建數(shù)據(jù)安全管控體系，加強(qiáng)數(shù)據(jù)全生命周期的安全防護(hù)能力，同時，應(yīng)定期審查和更新安全策略，確保安全措施的有效性和時效性；制定數(shù)據(jù)安全應(yīng)急預(yù)案，加強(qiáng)風(fēng)險監(jiān)測，在發(fā)生數(shù)據(jù)安全事件時應(yīng)當(dāng)立即采取補(bǔ)救措施并向有關(guān)主管部門報告。

三、模型優(yōu)化階段

《暫行辦法》第七條不僅明確了AIGC服務(wù)提供者在對模型開展預(yù)訓(xùn)練時應(yīng)當(dāng)遵守的合規(guī)要求，其同樣適用于AIGC服務(wù)提供者對模型開展迭代優(yōu)化等活動。在模型優(yōu)化階段，AIGC服務(wù)提供者需要關(guān)注的主要數(shù)據(jù)合規(guī)風(fēng)險來自于將AIGC服務(wù)使用者輸入的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行模型優(yōu)化以及未向AIGC服務(wù)使用者提供關(guān)閉或拒絕處理其輸入數(shù)據(jù)的路徑。

(一) 使用AIGC服務(wù)使用者的輸入數(shù)據(jù)優(yōu)化模型

AIGC服務(wù)提供者將AIGC服務(wù)使用者輸入的數(shù)據(jù)用于優(yōu)化模型，模型的性能隨之提升，該等持續(xù)的數(shù)據(jù)迭代和模型訓(xùn)練形成的“數(shù)據(jù)飛輪”效應(yīng)使得模型可以吸引更多的AIGC服務(wù)使用者，進(jìn)而產(chǎn)生更多的數(shù)據(jù)用于模型優(yōu)化。然而，倘若AIGC服務(wù)提供者并未取得處理相關(guān)輸入數(shù)據(jù)的合法性基礎(chǔ)，例如針對個人信息未取得個人的同意、針對可能涉及的知識產(chǎn)權(quán)未取得相應(yīng)權(quán)利人的有效授權(quán)等，則AIGC服務(wù)提供者未經(jīng)許可將AIGC服務(wù)使用者輸入的數(shù)據(jù)用以優(yōu)化模型，很可能構(gòu)成對AIGC服務(wù)使用者或其他權(quán)利人合法權(quán)益的侵犯。實踐中，AIGC服務(wù)提供者一般會通過隱私政策向AIGC服務(wù)使用者告知其輸入的數(shù)據(jù)被用于訓(xùn)練模型的可能情形。例如，某知名大模型就在其《智能助手用戶隱私協(xié)議》明確“我們搜集的上述信息（對話信息）會用于向您提供相關(guān)服務(wù)，且在經(jīng)安全加密技術(shù)處理、嚴(yán)格去標(biāo)識化且無法重新識別特定個人的前提下，我們可能會將上述信息用于提升和迭代我們產(chǎn)品和服務(wù)之目的”；又例如，某知名大模型在其《個人信息保護(hù)規(guī)則》明確“我們還會使用對話信息提高模型對您輸入內(nèi)容的理解能力，以便不斷改進(jìn)模型的識別和響應(yīng)的速度和質(zhì)量，提高模型的智能性”。

(二) 未向AIGC服務(wù)使用者提供關(guān)閉或拒絕處理輸入數(shù)據(jù)的路徑

《個人信息保護(hù)法》分別規(guī)定了個人信息的去標(biāo)識化與匿名化，去標(biāo)識化是指個人信息經(jīng)過處理，使其在不借助額外信息的情況下無法識別特定自然人的過程，匿名化是指個人信息經(jīng)過處理無法識別特定自然人且不能復(fù)原的過程。換言之，去標(biāo)識化處理后的個人信息仍屬于個人信息，而匿名化處理后的個人信息不再屬于個人信息。然而目前相關(guān)法律法規(guī)并對匿名化的技術(shù)要求作進(jìn)一步規(guī)定，因此對個人信息采取的脫敏處理等技術(shù)措施可能僅能達(dá)到去標(biāo)識化的效果，而無法實現(xiàn)嚴(yán)格意義上的匿名化。在該等情形下，即使AIGC服務(wù)使用者在相關(guān)隱私政策文件中明確了其已經(jīng)對AIGC服務(wù)使用者輸入數(shù)據(jù)中可能涉及的個人信息進(jìn)行了嚴(yán)格去標(biāo)識化處理，仍然可能無法達(dá)到《個人信息保護(hù)法》意義上的匿名化效果，倘若AIGC服務(wù)使用者并不希望AIGC服務(wù)提供者將其輸入的數(shù)據(jù)用于進(jìn)一步優(yōu)化模型，根據(jù)《個人信息保護(hù)法》，AIGC服務(wù)使用者有權(quán)要求AIGC服務(wù)提供者刪除其所收集并不再收集AIGC服務(wù)使用者的相關(guān)個人信息。

實踐中，AIGC服務(wù)提供者通常采取的措施是在隱私政策向AIGC服務(wù)使用者提示，如果不希望AIGC服務(wù)使用者收集和處理輸入數(shù)據(jù)，AIGC服務(wù)使用者應(yīng)當(dāng)謹(jǐn)慎輸入，但是可能會影響部分功能的使用。例如，某知名大模型在其《個人信息保護(hù)規(guī)則》就明確告知用戶“如您拒絕我們收集和處理前述個人信息，請您謹(jǐn)值輸入前述信息，但因此您可能會影響您正常使用模型提供的部分或全部功能”。此外，還有部分AIGC服務(wù)使用者提供了拒絕處理輸入數(shù)據(jù)的關(guān)閉按鈕，例如某知名大模型在其《隱私政策》亦明確告知用戶“如果你不希望你輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化，可以通過關(guān)閉‘設(shè)置’-‘賬號設(shè)置’-‘改進(jìn)語音服務(wù)’來撤回你的授權(quán)；如果你不希望其他信息用于模型訓(xùn)練和優(yōu)化，可以通過本隱私政策第9條公示的聯(lián)系方式與我們聯(lián)系，要求撤回使用你的數(shù)據(jù)用于模型訓(xùn)練和優(yōu)化”。

AIGC服務(wù)提供者在模型優(yōu)化階段處理AIGC服務(wù)使用者輸入數(shù)據(jù)TIPs：

? 履行“告知-同意”義務(wù)：AIGC服務(wù)提供者應(yīng)當(dāng)在隱私政策中明確告知AIGC服務(wù)使用者將會收集其輸入數(shù)據(jù)用以訓(xùn)練模型、優(yōu)化服務(wù)、改進(jìn)產(chǎn)品等并取得其同意。

? 提供關(guān)閉或拒絕處理輸入數(shù)據(jù)的方式：AIGC服務(wù)提供者應(yīng)當(dāng)為AIGC服務(wù)使用者提供拒絕或關(guān)閉其輸入數(shù)據(jù)用于訓(xùn)練的方式，例如為AIGC服務(wù)使用者提供選項或其他控制指令，且拒絕或關(guān)閉方式應(yīng)當(dāng)方便快捷。

結(jié)語

面對AIGC技術(shù)帶來的機(jī)遇與挑戰(zhàn)，數(shù)據(jù)合規(guī)不僅是一項法律要求，更是推動技術(shù)健康發(fā)展的基石。AIGC各主體需要在創(chuàng)新與責(zé)任之間找到平衡，在這個過程中不僅要警惕風(fēng)險，更要積極尋求解決方案，以開放的心態(tài)和審慎的行動，共同推動AIGC技術(shù)的可持續(xù)發(fā)展。

[1] 《生成式人工智能服務(wù)管理暫行辦法》規(guī)定，生成式人工智能服務(wù)提供者，是指利用生成式人工智能技術(shù)提供生成式人工智能服務(wù)（包括通過提供可編程接口等方式提供生成式人工智能服務(wù)）的組織、個人。具體來講，AIGC服務(wù)提供者又可以分為AIGC技術(shù)支持方和AIGC平臺運營方兩類，其中，AIGC技術(shù)支持方是指負(fù)責(zé)AIGC技術(shù)性開發(fā)的組織、個人，AIGC平臺運營方是指負(fù)責(zé)AIGC的商業(yè)性開發(fā)，依據(jù)相關(guān)規(guī)定取得相應(yīng)資質(zhì)證照，承擔(dān)相應(yīng)義務(wù)與責(zé)任，提供AIGC技術(shù)應(yīng)用服務(wù)的組織、個人。本文中，為便于厘清不同情形下相關(guān)主體可能面臨的風(fēng)險，在特指負(fù)責(zé)AIGC技術(shù)性開發(fā)的組織、個人的情形下，使用“AIGC技術(shù)支持方”的表述，其他情形不做另行區(qū)分，統(tǒng)一使用“AIGC服務(wù)提供者”的表述。

[2] （2022）京73民終4201號。

[3] 《中華人民共和國刑法》第二百八十五條第一款規(guī)定，違反國家規(guī)定，侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機(jī)信息系統(tǒng)的，處三年以下有期徒刑或者拘役。

分享到： QQ空間新浪微博微信

日本一区二区不卡视频,高清成人免费视频,日日碰日日摸,国产精品夜间视频香蕉,免费观看在线黄色网,国产成人97精品免费看片,综合色在线视频

AI開拓者指南：模型訓(xùn)練、應(yīng)用、優(yōu)化三階段數(shù)據(jù)合規(guī)風(fēng)險清單

日期：2025-12-15 作者：張逸瑞（數(shù)字科技與人工智能專業(yè)委員會、北京市金杜律師事務(wù)所上海分所）、張津豪（北京市金杜律師事務(wù)所）

日本一区二区不卡视频,高清成人免费视频,日日碰日日摸,国产精品夜间视频香蕉,免费观看在线黄色网,国产成人97精品免费看片,综合色在线视频

AI開拓者指南：模型訓(xùn)練、應(yīng)用、優(yōu)化三階段數(shù)據(jù)合規(guī)風(fēng)險清單

日期：2025-12-15 作者：張逸瑞（數(shù)字科技與人工智能專業(yè)委員會、北京市金杜律師事務(wù)所上海分所）、張津豪（北京市金杜律師事務(wù)所）

AI開拓者指南：模型訓(xùn)練、應(yīng)用、優(yōu)化三階段數(shù)據(jù)合規(guī)風(fēng)險清單

日期：2025-12-15 作者：張逸瑞（數(shù)字科技與人工智能專業(yè)委員會、北京市金杜律師事務(wù)所上海分所）、張津豪（北京市金杜律師事務(wù)所）