米兰-BPO行业整合方案提供者
专业化、科技化、国际化;高标准、广覆盖、全流程
了解更多
《天然》7月24日颁发的一篇论文指出,用人工智能(AI)生成的数据集练习将来几代机械进修模子可能会污染它们的输出,这个概念称为“模子解体”(model collapse)。该研究显示,原始内容会在数代内酿成不相干的胡说八道,显示出利用靠得住数据练习AI模子的主要性。
生成式AI东西愈来愈受接待,如年夜说话模子(LLM)等,这类东西首要用人类生成的数据进行练习。不外,跟着这些AI模子在互联网不竭强大,计较机生成内容可能会以递归轮回的情势被用在练习其他AI模子或其本身。
英国牛津年夜学的Ilia Shumailov和同事用数学模子演示了AI模子可能会若何呈现模子解体。研究人员证实了一个AI可能会疏忽练习数据中的某些输出(如不太常见的文本),致使其只用一部门数据集进行自我练习。
Shumailov和同事还研究了AI模子会若何应对首要用人工智能生成的练习数据集。他们发现,给模子输入AI生成的数据会削弱此后几代模子的进修能力,终究致使模子解体。他们测试的几近所有递归练习说话模子都轻易呈现反复短语。好比,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已是一串野兔的名字。
研究人员指出,对利用前几代生成的练习数据集的AI模子来讲,模子解体是一个不成避免的终局。为了让AI成功利用其本身输出进行练习,Shumailov和同事认为用AI生成数据练习一个模子并不是不成能,但必需对数据进行严酷过滤。与此同时,依靠人类生成内容的科技公司也许能比竞争敌手练习出更高效的AI模子。
相干论文信息:https://doi.org/10.1038/s41586-024-07566-y
版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来历和作者,且不得对内容作本色性改动;微信公家号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。