米兰-学术论文正被高价出售给大模型训练，作者却零收入—新闻—科学网

2024-08-26

愈来愈多的学术出书商正将研究论文卖给科技公司用以练习人工智能（AI）模子，而作者收入为零。

年夜说话模子（LLM）因练习数据问题再次激发争议。日前，国际闻名期刊《天然》（《Nature》）杂志编纂伊丽莎白吉普尼（Elizabeth Gibney）发布一篇题为《你的论文被用来练习人工智能模子了吗？几近可以必定》一文。文中作者暗示，当前有愈来愈多的学术出书商正在将研究论文授权给科技公司，用在练习人工智能（AI）模子。有学术出书商借此赚取了2300万美元，而作者却收入为零。这些买卖在良多环境下并未收罗作者的定见，激发了部门研究人员的强烈不满。

“假如你的论文还没有被用作AI练习数据，极可能很快就会成为练习的一部门。”伊丽莎白吉普尼在文中指出，当前学术论文作者在面临出书商出售其版权作品时几近无权干与。对公然颁发的文章，也没有现成机制来确认这些内容是不是被用作AI练习数据。在年夜说话模子利用中，若何成立加倍公允的机制庇护创作者的权益，值得学术界和版权界普遍会商。

年夜说话模子（LLM）凡是依靠从互联网上抓取的年夜量数据进行练习。这些数据包罗数十亿片断的说话信息（称为“标识表记标帜”），经由过程阐发这些标识表记标帜之间的模式，模子得以生成流利的文本。学术论文因其内容丰硕、信息密度高，比拟年夜量通俗数据更有价值，是AI练习中的主要数据来历。数据阐发师斯特凡巴克（Stefan Baack）来自全球非营利组织Mozilla基金会，他阐发指出，科学论文对年夜说话模子的练习有很年夜帮忙，特别是在科学主题上的推理能力方面。恰是因为数据的高价值，各年夜科技公司纷纭斥巨资采办数据集。

该文指出，本年《金融时报》与OpenAI告竣和谈，将其内容授权给后者；被称为“美国贴吧”的Reddit也与谷歌签订了近似的买卖。这些买卖表现出书商试图经由过程正当授权避免本身的内容被AI模子无偿抓取。

文章流露，上月英国的学术出书商Taylor Francis与微软签订了一项价值1000万美元的和谈，答应微软拜候其数据以改良AI系统。而在6月，美国出书商Wiley经由过程向某家公司供给内容用在AI练习，收入高达2300万美元。而这些巨额收入与论文作者没有任何干系。

当前，研究人员正测验考试用手艺手段帮忙作者辨认其作品是不是被用在AI模子练习。西雅图华盛顿年夜学的人工智能研究员露西卢王（ Lucy Lu Wang）称，假如一篇论文已被用作模子的练习数据，在模子练习完成后就没法将这篇论公牍除。

不外，即使能证实论文被用在AI练习，但在法令层面依然面对争议。文中指出，出书商认为，利用未经授权的受版权庇护内容进行练习是侵权行动；而另外一种法令不雅点则认为，年夜说话模子并未直接复制内容，而是经由过程进修来生成新文本。

值得留意的是，并不是所有研究者都否决将他们的作品用在AI练习。斯特凡巴克暗示，他很乐在看到本身的研究功效被用来提高AI的正确性，而且不介怀AI“模拟”本身的写风格格。但是，他也认可，并不是所有人都能轻松应对这一问题，特别是那些面对AI竞争压力的职业，如艺术家和作家。

事实上，关在利用受版权庇护的常识作品来练习AI 模子的诉讼案件此前已引发过普遍存眷。

8月14日，《华盛顿邮报》报导，美国多名视觉艺术家和插画家对AI图象生成东西的集体诉讼案获得冲破进展。他们曾指控Midjourney和Stability AI等草创公司在未经赞成的环境下利用作品来练习AI模子。这起案件在本周获得了要害性进展。美国地域法官威廉奥里克答应该案的要害部门继续推动，这意味着法庭已决议某些指控有足够的法令证据，可以继续审理下去，接下来跟着法令审理的进程，可能会表露这些公司在开辟AI东西时的内部交换环境。

特殊声明：本文转载仅仅是出在传布信息的需要，其实不意味着代表本网站不雅点或证实其内容的真实性；如其他媒体、网站或小我从本网站转载利用，须保存本网站注明的“来历”，并自大版权等法令责任；作者假如不但愿被转载或联系转载稿费等事宜，请与我们联系。

米兰-BPO行业整合方案提供者

米兰-学术论文正被高价出售给大模型训练，作者却零收入—新闻—科学网