哈佛大学、谷歌发布100万本公共领域书籍，为AI训练提供合法数据

12 月 13 日消息，据 TechCrunch 12 日报道，哈佛大学与谷歌宣布，联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂，但却更适合资金充裕的科技公司。因此，哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集，这些书籍覆盖多种类型、语言和作者，包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等，因这些作品的版权已随时间过期。

虽然这个新数据集尚未公开，也不清楚具体的发布方式和时间，但它来源于谷歌的长期项目 —— 谷歌图书。因此，谷歌将参与这次“宝贵财富”的广泛发布。

据了解，早在今年 3 月，哈佛大学就曾透露其“机构数据计划 IDI ”，并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后，该计划才确认得到了微软和 OpenAI 的资金支持。

IDI 的执行董事格雷格・莱佩特 Greg Leppert 表示，该数据集的目标是“让竞争环境更加公平”，通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集，以帮助他们训练大型语言模型。清源

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息

版权与免责声明:

感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容：

1.该文章主要收集于互联网，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性。

2.本网站的所有信息仅供参考，不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。

3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时，建议您立即联系本网站的站长或管理员进行删除处理。