数百万人的隐私被用于训练 ChatGPT？大模型时代隐私保护有新解

大模型的爆发是把双刃剑，ChatGPT 等智能化工具产品令人惊艳，随之而来的愈加复杂的隐私安全问题同样值得重点关注。

日前，明星大模型 ChatGPT 的开发者 OpenAI 被卷入两场诉讼中：16 人匿名指控 ChatGPT 在训练过程中收集了大量的个人数据，起诉要求 30 亿美元赔偿；两名职业作者指控 OpenAI 未经允许使用了他们的小说训练 ChatGPT，侵犯了他们的版权，同样要求赔偿 30 亿美元，目前两起诉讼均在审理中。

(资料图片仅供参考)

总部位于加州的克拉克森律师事务所表示，OpenAI 从互联网上秘密抓取了约 3000 亿字的内容，其中包括书籍、文章、网站和帖子以及未经同意的个人信息，受害用户达到数百万人。

此前，三星被曝在使用 ChatGPT 不到 20 天的时间里发生 3 起机密数据泄露，涉及三星半导体设备测量资料、产品良率等信息。把时间拨回今年一季度，香港大学等高校、顶级投行摩根大通等企业乃至意大利等国宣布禁止使用 ChatGPT ……从担心饭碗不保到忧虑隐私和版权被侵犯，生成式 AI 引发的危机感正不断升级。

大模型时代的隐私保护挑战

ChatGPT 这类大模型的进化依赖大量数据的训练，通过感应器采集数据，进行信息存储、加工，通过算力进行计算，最后形成决策机制，进行反馈。其中的数据采集环节，可能导致个人隐私、商业机密乃至国家政府层面的信息泄露与扩散，造成数据安全方面的威胁。

一篇题为的论文通过实验证明了大语言模型会记住并且泄露部分训练数据，并且越大的模型记忆力越强。此外，不仅是 OpenAI 的 GPT 模型，诸如 BERT、RoBERTa 等其他主流语言模型也纷纷中招。

上海市数据科学重点实验室主任肖仰华认为，大模型时代隐私泄露及侵权问题突出的原因主要在于大模型本身参数规模巨大、数据来源多样。生成式大模型的结果是从海量的语料中随机拼接式的概率化生成，传统上用于认定隐私侵犯的手法在大模型时代会失效，因此在侵犯识别层面就已造成困难。从保护角度而言，大模型是基于深度神经网络 Transformer 的架构，后者本质上是黑盒模型，其习得的知识和能力体系、内部运行的规律直到现在仍鲜为人知，这更使得对隐私保护很多时候无处着手。

在深度学习领域，模型的准确性与可解释性通常不可兼得：诸如神经网络、梯度增强模型等黑盒模型通常具有很高的准确性。但这类模型的内部工作机制却难以理解，也无法估计每个特征对模型预测结果的重要性，更不能理解不同特征之间的相互作用关系。而线性回归和决策树之类的白盒模型的预测能力通常是有限的，且无法对数据集内在的复杂性进行特征交互之类的建模。然而，这类简单的模型通常有更好的可解释性，内部的工作原理也更容易解释。

隐私计算如何切入大模型？

不可否认的是，大模型是一种先进生产力，是个人和企业都应该积极拥抱的，如果因为有隐私的顾虑而直接放弃对大模型的应用，某种程度上无异于因噎废食。如何正视隐私安全问题的存在，并通过相应的手段提高隐私保护的能力、积极应用大模型才是解决问题的正途。

通过多方安全计算、联邦学习、可信执行环境等技术，隐私计算起着平衡数据隐私保护与数据开放共享的作用，是数据要素安全领域的关键技术之一。

大模型时代，隐私计算技术本身的研究、发展和关注的重点也发生着改变，为让其更好地适应大模型，可以重点关注其可用性的研究。

肖仰华认为，隐私计算在大模型时代迎来了全新的机遇。诸如差分隐私、联邦学习等传统隐私计算都是在算法层面开展工作，但是算法层面工作的实施有其前提：例如，保护对象明确才可以实施差分隐私算法，合作协议清晰才可以施展一些联邦学习的策略。而海量化、参数化的大模型，给传统的基于可控、可解释、清晰的技术路线的隐私计算提出了全新的挑战。在不可控、不可编辑、难以解释的大模型环境下，传统方法如何进行发展，这看似是挑战，更多是机遇。

此外，从算法层面上升到架构层面，大模型的隐私保护还要从隔离机制角度分析。对于一些需要进行分层分级保护的个人与企业私密数据，可以建立起大模型自主学习能力和敏感数据相隔离的架构，大模型继续提供其智能，而需要保护的数据和信息依然被保存在密态数据库中，二者的相互协同也给隐私计算带来了新机遇。

中国信通院云大所大数据与区块链部门副主任闫树表示，隐私计算的各类技术路线都有与大模型应用场景适配的方式。比如在云端部署一些 TEE（可信执行环境）做训练，或在模型推理阶段用多方安全计算来提升隐私保护能力，但可能会相应牺牲一些模型的性能。

大模型不应成为脱缰野马

今年 5 月，肖仰华曾发表一篇题为《不要让大模型变成一场华丽的烟花秀》的近万字长文，主张发展大模型的同时要形成有效监管，对于隐私侵犯等破坏行为不能忽视，必须从产业的两侧加强安全底线、伦理标准与合规规范的建设：在数据源头端，加强对训练语料合规性的认证；在生成结果端，对生成内容建立起相关规范。

目前，网信办正推动《生成式人工智能服务管理办法》的出台，对生成式 AI 技术、生成内容、主体责任、数据源和数据处理等方面都作出了规定。

仅就隐私保护而言，我们需要建立起一个系统性的隐私保护防范体系：从用户角度，要建立起对大模型隐私的安全意识，要充分认识到在使用大模型过程当中，你的数据有可能被服务方所收集，从而导致隐私泄露；从提供大模型服务的厂商角度，要提升服务的规范性，给予用户充分的知情权，在用户完全授权的情况下，合理范围下收集用户相关的使用的数据，不应该超出用户授权的范围。

技术方面，在模型与应用之间还存在一层中间层，可以打乱、混淆用户的数据使用与查询记录。此外，以大模型治大模型也是一条重要路径，即靠大模型自身的能力来保护隐私，解决隐私问题。大模型可以识别出语料中有隐私侵犯嫌疑的内容，我们可以利用大模型清洗隐私数据、对其生成结果进行评估，来规避侵犯隐私问题的发生。

关键词：