2026/4/8 19:20:04
网站建设
项目流程
刚做的网站 搜不到,怎么做市场营销和推广,河北建设工程招标协会网站,珠海手机网站建设费用机器学习模型#xff0c;特别是商业模型#xff0c;通常不会公开开发者用于训练的数据集。然而#xff0c;模型包含哪些内容以及这些材料是否能通过特定提示被提取出来#xff0c;仍然是具有经济和法律后果的重要问题#xff0c;更不用说伦理和隐私方面的考量。
Anthropic…机器学习模型特别是商业模型通常不会公开开发者用于训练的数据集。然而模型包含哪些内容以及这些材料是否能通过特定提示被提取出来仍然是具有经济和法律后果的重要问题更不用说伦理和隐私方面的考量。Anthropic、Google、OpenAI和Nvidia等公司面临超过60项法律诉讼这些诉讼指控它们在未经授权的情况下使用受版权保护的内容来训练模型。这些公司已经投入了数千亿美元基于它们认为使用他人内容是合法的信念。当法院努力解决AI模型制造商在多大程度上可以声称合理使用作为抗辩理由时考虑的问题之一是这些模型是否通过在模型权重中编码源材料来记忆训练数据在训练中学习的参数决定输出以及它们是否会按需输出这些材料。在美国法律下必须考虑各种因素来确定合理使用是否适用但如果一个模型在被询问时忠实地再现了特定作品的大部分或全部内容这可能会削弱合理使用的抗辩。考虑的因素之一是内容使用是否具有转化性——如果模型添加了新内容或改变了作品的特征。如果模型逐字照搬受保护的内容就更难声称这一点了。但是机器学习模型可能会完整或部分地再现某些内容这一事实在法律上也不是决定性的正如计算机科学家Nicolas Carlini所论证的那样。为了降低侵权声明的风险商业AI模型制造商可能会实施防护栏——过滤机制——旨在防止模型输出大量受版权保护的内容无论是文本、图像还是音频形式。对于公开权重发布的AI模型计算机科学家已经确定AI模型可能记忆训练数据的大量部分并且在正确提示的情况下可能将这些数据作为输出呈现。据称Meta的Llama 3.1 70B完全记忆了《哈利·波特与魔法石》——该系列的第一本书——以及乔治·奥威尔的《1984》。此类发现可以追溯到至少2020年。现在其中一些相同的研究人员——来自斯坦福大学和耶鲁大学的Ahmed Ahmed、A. Feder Cooper、Sanmi Koyejo和Percy Liang——发现生产中使用的商业模型具体是Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3像开放权重模型一样记忆并能够再现受版权保护的材料。作者表示由于商业模型实施的安全措施以及训练语料库缺乏透明度这并不是理所当然的。总的来说我们发现可以从所有四个生产大语言模型中提取记忆的受版权保护材料的大部分内容尽管成功程度因实验设置而异他们在题为从生产语言模型中提取书籍的预印本论文中解释道。在评估的模型中记忆文本的召回率各不相同对于某些模型需要进行越狱——设计用于绕过安全机制的提示——才能让模型更加配合。我们从越狱的Claude 3.7 Sonnet中提取了几乎整本《哈利·波特与魔法石》作者说召回率达到95.8%。使用Gemini 2.5 Pro和Grok 3他们能够在没有任何越狱的情况下诱导模型产生该书的大量内容分别为76.8%和70.3%。OpenAI的GPT-4.1被证明是最有抵抗力的在被询问时只拼写出了该书的4%。研究人员警告说提到的召回率并不代表最大可能值他们说已经向Anthropic、Google DeepMind、OpenAI和xAI报告了他们的发现。只有xAI——目前因其Grok模型按需生成非自愿性图像而面临批评——未能确认这一披露。在90天披露窗口结束时2025年12月9日我们发现我们的程序仍然适用于我们评估的某些系统作者说但没有确定相关的系统提供商。Anthropic在2025年11月29日撤回了Claude 3.7 Sonnet作为客户的选项但这不一定是对研究发现的回应——该模型可能只是被取代了。研究人员表示虽然他们将模型内容再现的详细法律分析留给其他人我们的发现可能与这些正在进行的辩论相关。QAQ1什么是AI模型记忆训练数据这意味着什么AAI模型记忆训练数据是指模型在训练过程中将源材料编码到模型权重中并能在特定提示下完整或部分输出这些内容。这意味着商业AI模型可能会逐字重现受版权保护的材料如整本书籍内容。Q2哪些商业AI模型能够还原《哈利·波特》内容A研究发现Claude 3.7 Sonnet经过越狱后能提取95.8%的《哈利·波特与魔法石》内容Gemini 2.5 Pro和Grok 3在无需越狱的情况下分别能提取76.8%和70.3%的内容而GPT-4.1的提取率最低仅为4%。Q3AI模型记忆版权内容会带来什么法律风险A这可能削弱AI公司声称合理使用的法律抗辩特别是当模型能够逐字重现受保护内容时很难声称使用具有转化性。目前Anthropic、Google、OpenAI等公司已面临超过60项相关版权侵权诉讼。