100万本公共领域书籍，为AI训练提供合法数据

首页 > AI资讯 > 最新资讯 > 100万本公共领域书籍，为AI训练提供合法数据

新火种 2025-01-01

导语：AI 训练所需的数据成本高昂，但却更适合资金充裕的科技公司。

IT之家 12 月 13 日消息，据 TechCrunch 12 日报道，哈佛大学与谷歌宣布，联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂，但却更适合资金充裕的科技公司。因此，哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集，这些书籍覆盖多种类型、语言和作者，包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等，因这些作品的版权已随时间过期。

书1.jpg

图源 Pexels

虽然这个新数据集尚未公开，也不清楚具体的发布方式和时间，但它来源于谷歌的长期项目 —— 谷歌图书（Google Books）。因此，谷歌将参与这次“宝贵财富”的广泛发布。

据IT之家了解，早在今年 3 月，哈佛大学就曾透露其“机构数据计划（IDI）”，并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后，该计划才确认得到了微软和 OpenAI 的资金支持。

IDI 的执行董事格雷格?莱佩特（Greg Leppert）表示，该数据集的目标是“让竞争环境更加公平”，通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集，以帮助他们训练大型语言模型。

Tags:

AI 领域书籍

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。