摘要: Openai声称，如果不使用受版权保护的数据，就可以“不可能”建立良好的AI模型。“道德创建的”大语言模型和一个巨大的公共领域文本数据集建议。

AI模型可在不侵犯版权的情况下进行训练

2023年，OpenAI告诉英国议会，训练领先的AI模型无法不使用受版权保护的材料。这在AI领域很受欢迎，OpenAI和其他领先的公司已经使用在线获取的材料来训练驱动聊天机器人和图像生成器的模型，引发了一系列关于侵犯版权的诉讼。

周三的两项声明提供了证据，表明大型语言模型实际上可以在不使用受版权保护的材料的情况下进行训练。

一群得到法国政府支持的研究人员发布了被认为是迄今为止最大的AI训练数据集，完全由公共领域的文本组成。而非营利组织Fairly Trained宣布，他们已经授予了第一个证书，证明了类似CHAT GPT背后的技术可以以不同的方式构建，避免了AI行业争议性的规范。

Fairly Trained的首席执行官Ed Newton-Rex表示：“没有根本性原因，不让某人公平地训练一个大型语言模型。”他在2024年1月辞去了图像生成初创公司Stability AI的高管职务后，创立了这家非营利组织。

Fairly Trained向愿意证明他们的AI模型是基于自己拥有、已获许可或者属于公共领域的数据进行训练的公司提供认证。该组织宣布，他们已经认证了第一个大型语言模型，名为KL3M，由芝加哥的法律科技咨询初创公司273 Ventures开发，使用了法律、金融和监管文件的策划训练数据集。

273 Ventures的联合创始人Jillian Bommarito表示，他们决定以这种方式训练KL3M，是因为公司的客户对风险持谨慎态度，比如律师事务所。他们希望使用生成式AI来总结法律文件和起草合同，但不想卷入关于知识产权的诉讼。

虽然该数据集很小（约3500亿个标记），但Bommarito表示，KL3M模型的表现远远超出预期，这要归功于数据事先经过的仔细审查。273 Ventures现在向希望购买此数据访问权限的客户提供等待名额。

干净的起点

未来，希望效仿KL3M的公司可能会得到更多帮助，因为研究人员发布了他们声称是目前最大的基于公共领域内容构建的AI数据集。Common Corpus是这个数据集的名称，它是一个包含约5000亿标记的文本集合，可用于训练最先进的大型语言模型。

这个数据集是从美国国会图书馆和法国国家图书馆数字化的公共领域报纸等来源构建而成。Common Corpus项目协调员Pierre-Carl Langlais称其为“足够大的语料库，可以训练最先进的大型语言模型”。在大规模AI领域的术语中，该数据集包含5000亿个标记。人们普遍认为，OpenAI最强大的模型是在数万亿个标记上进行训练的。

文章版权归作者所有，未经允许请勿转载。

THE END