当前位置:首页 > 产品中心 > 包背机

开云ky体育:复刻90%哈利波特洗无可洗的Meta竟然赢了?

更新时间:2025-12-20 10:54:36
实力作者:开云ky体育

开云在线体育:

  用大模型,就能让 AI 吐出 90% 以上的《 哈利波特 》全文,你敢信吗?

  前段时间,斯坦福的团队在 arXiv 上宣布了一篇论文,名为《 从开源大模型中提取(受版权维护的)书本的回忆片段 》。

  在这篇文章里,Meta 的 Llama 被要点点名,而被复刻的目标,是大伙儿都知道的《 哈利波特与魔法石 》。

  复刻的进程分外的简略,主打一个古诗词默写,你给上半句,Llama 接下半句。而且断定很严厉,要一字不差才行。

  这么一来一回,试验成果表明,《 哈利波特与魔法石 》有 91.14% 的内容都能被 Llama 记住,再给你原封不动地背出来。

  但说实话,这数据有点过于保存了。究竟大部分人看书,多个字少个字也不影响了解,加上这部分容错率,Llama 能背出来的比例肯定不止 91.14%。

  再结合下面这张图,更是锤上加锤。它不只记得多,还记得全呢。从小说最初到结束,均匀分布,无一幸免。

  咱们翻遍全文,发现哈利波特不是仅有一本被记住的,Llama 也不是仅有一个会背书的,咱们或多或少都沾点。

  除了 Llama,Pythia、Gemma、Phi 也在这不恰当的时间展现出了它们惊人的回忆力。文章里只列出来了 100 本被记住的书,实际上它们背得更多。

  本来拿版权方的东西去做练习都忍不了,现在竟然还能背出来?要不是现在大模型有上下文长度约束,岂不是一键输出全文了?

  咱仔细研讨了一下这个事,发现锅一部分在科技公司头上,另一部分在一个叫 Books3 的数据集上。

  Books3 是一个包括 196640 本 txt 的数据集,里边偷了不少盗版书。简直一切大模型都用它做练习,不过数据集明面上很早就被下架,变成了不能说的隐秘。

  很显然,咱们都用了 Books3 搞练习,只不过有些大模型没做好安全防御机制,才被抓住了凭据。

  所以,经常被 gank 的 Meta 又一次被 13 位作家送上了法庭。

  没经咱们答应,就拿咱们的著作去练习大模型。这回依据确凿,还能一字不差吐出来,你认不认?

  连一贯厌烦 JK 罗琳的吃瓜大众也纷繁觉得,拿盗版书练习模型便是侵权,没啥可洗的。

  出乎一切人预料的是,Meta 竟然赢了官司。看完了来龙去脉,咱们觉得版权方纯粹是输在了智商。。。

  但要说现在,有人用大模型生成哈利波特直接当成电子书看,那也太高难了,不行能在市场上和真书发生竞赛联系。

  再看看 Meta 方的辩词:美国版权法 “答应没有通过授权,仿制著作并将其转化为新著作”,而且谈天机器人发生的人工智能表达,与练习用的书本有着底子的不同。

  用人话讲,科学的东西,你得看原理。大模型输出的东西都是它学习了解再转述出来的,就跟人读书写作似的,归于 “新著作” 了。

  终究法官表明,作者未能供给满足依据证明,大模型会抢真书的比例,但用盗版练习大模型,的确不地道。

  那天天上法庭,科技公司就没啥防备手法吗?咱们查了一下有关的材料,发现为了不被告,有的公司挑选买断网站数据库,比方谷歌买断 Reddit 数据包,而有的公司真是什么匪夷所思的事都做得出来。

  举个最近的比如,2024 年 Claude 背面的 Anthropic 意识到运用盗版数据集的法令危险,所以花了数百万美元购买实体图书。

  考虑到本钱,收来的书里很多是二手,扫描入库制成数据集后马上毁掉。数据集只在企业内部用于练习,不行别传。

  这单纯是为了投合美国的初次出售准则,只需你买了第一次,之后想怎么正确地处理它都可以。

  咱也不知道这些实体书里有没有啥宝贵孤本,横竖为了不侵权,Anthropic 没坑儒,只焚书了。

  这个行为的确成为了 Anthropic 在法庭上的取胜一击,但问题是,这么做真的合理吗?

  吃完这个瓜,我能了解为啥那么多版权方想手撕大模型,也能了解科技公司为啥非得干这么不地道的事儿。

  从大模型练习的视点,它没办法防止对很多高质量数据的需求,科技开展不等人,也没时间等候各种授权。它能做到最好的,也便是把侵权的内容厚码一下,尽量减小对正主的影响。

  而从版权方的视点,大模型这样开展下去,他们的利益早晚会被完全侵略。不止现在啃他们一口又一口,未来还或许被盗版练习出来的模型取而代之。

,开云官方在线登录

cache
Processed in 0.038515 Second.