发布时间:2023-06-06 12:35:21 阅读量:
baet365“《三体》作者刘慈欣是黑龙江省的人,出生于哈尔滨市。”这是ChatGPT此前给出的回答。
稍作了解会知道,刘慈欣是山西阳泉人。虽然ChatGPT已经对错误答案做了修正,但这不是它第一次犯错,显然也不会是最后一次。
面对专业领域的具体问题,AI常常被人诟病“一本正经地胡说八道”,而AIGC模型之所以无法保证生成内容的质量和准确性,根源在训练数据。
“各种AI模型通过各种数据集的投喂获取知识图谱和源数据,其生成内容的质量依赖于训练数据本身的质量和准确性。”6月2日,在远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》中,中文在线董事长兼总裁童之磊表示。他认为,2023年是人工智能的历史性时刻,正在带来数字内容产业的新机遇,也激活了模型训练对高质量数据的需求。
与此同时,全球AIGC侵权案件的发生让大量数据违法使用和滥用问题浮出水面,引起了各界关注。
据悉,远集坊此次讲座由中国版权协会主办,理事长阎晓宏亲自主持,演讲嘉宾除童之磊外,还有多位来自法学界、科技界和商界的代表,包括中国法学会副会长甘藏春、清华大学新闻学院教授、元宇宙文化实验室主任沈阳、澜舟科技创始人兼CEO周明、北京互联网法院综合审判一庭副庭长朱阁等。虽然在人工智能生成内容的版权界定上,仍有诸多议题处于理论探讨阶段,但对于尊重数字版权、版权侵权,各方已经达成了共识。
随着大模型的技术演进,尤其是多模态大模型的持续迭代,不仅需要更大的数据集进行预训练,更需要高质量的数据投喂。权威学者吴恩达曾在提及“以数据为中心的AI”时公开表示:“我认为目前必须将重点从大数据转移到高质量数据。“
AI模型背后的数据以文本、语音、图像、视频等多种形态存在,其来源包括公共数据集、公共网站、自有数据、众包数据、合成数据等。这些数据是构建AIGC模型的“砖石”。理想状态下,海量、优质、正版数据与算力、算法三位一体,加速大模型迭代进化和应用层产品孵化,并通过AIGC产业层面的落地,完美呈现数据要素的价值。
但这只是数据之于AIGC的A面,一旦数据存在缺陷,大厦的根基就会被撼动。例如,标注数据质量欠佳、预训练语料库多样性不足可能导致模型训练效果不理想、输出内容错误;数据来源不正,会使得生成的内容面临版权风险;数据安全性不足,可能导致模型抵御攻击性差、隐私信息暴露等,这些构成了数据之于AIGC的B面。
更为隐蔽的风险则在于数据的导向性。AIGC作为一种高效的生产力工具,与人类“从无到有”的创造性劳动不同,它是将数据以一定形式转换后输入AIGC模型,从中提取有价值的内容,再生成与之相匹配的学习结果,本质上是一个“从有到无”的过程。因此,AIGC生成的内容,会展现出训练数据的元素baet365、特征和价值倾向。数据所带有的价值观和立场,直接影响到AI生成内容的导向,决定了输出作品的底色。
这也意味着,一旦数据导向存在偏差,大概率会导致AI生成的内容也同样“跑偏”,进而影响到用户的认知和行为,从这个角度看,数据也是AIGC的“命门”,获取优质、正版数据的能力成为大模型企业的核心竞争力之一。
今年1月,发生了两起影响全球的侵权诉讼,一个是美国三名漫画艺术家状告Stability AI、DeviantArt和 Midjourney三家公司在“未经原作者同意的情况下”,从网络上采集近60亿张图像来训练其人工智能,侵犯了“数百万艺术家”的权利;另一个则是盖蒂图片社起诉Stability AI在训练旗下的Stable Difussion时,“非法复制和处理了数百万受版权保护的图像”。
这两起案件也标志着AIGC将从野蛮生长状态逐渐转入法律法规的精细化管控之下。大量凝结着作者原创智慧的作品如果在AIGC领域脱离了版权的保护,长期来看,可能导致大量盗用和滥用,不仅会损害创作者的各项权益,也会扰乱市场秩序和社会安全,损害高质量数据的商业价值,最终反噬AI模型,影响其训练效果。
一是进一步完善AI大模型使用训练数据立法。面对数字内容版权的全新领域,法律正在划定“不可为”的边界。近日,欧盟《人工智能法案》提案的谈判授权草案通过,该法案强调在使用版权法保护的数据进行训练时,需要进行公开披露。在我国,《生成式人工智能服务管理办法(征求意见稿)》已于2023年4月11日出炉,要求提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。
二是加强现有法律框架下的数据司法保护。AI训练数据通常是一种知识产权,判定数据合理使用的范围,通过专利权、著作权等法律防范侵权,能最大程度保护创作者和数据所有者的权益。
最后,童之磊倡议AI领域前沿公司使用高质量正版数据,确保模型质量,同时呼吁数字内容文化产业、出版界、法律界联合起来,重视和尊重正版内容数据的价值baet365,共建版权保护新生态。
为了解决AIGC时代全新的版权保护问题,行业层面已经行动起来。在远集坊的活动中,中国版权协会联合首批26家单位发布《合理使用正版数据倡议书》,向AIGC领域专家、学者及AIGC从业机构发出六点倡议,包括尊重版权,赋能产业正向发展;避免侵权,营造良好发展环境等,并特别提及要在模型训练者与内容提供者之间搭建便利、有序的内容授权渠道。
规范数据使用,当“破”亦当“立”。为推进数据交易市场体系建立,政策层面已经给出了清晰的指引。2022年底,国务院印发《数据二十条》,成为数据基础制度体系的高规格顶层设计。在市场层面,各主体也正在积极推动正版数据的交易和使用,其中,中文在线的做法堪称表率。
作为数据的拥有者,中文在线TB文本训练数据还要多,并且这些数据皆为正版、优质数据,兼具准确性、完整性、一致性、真实性。除此之外,中文在线每天还会产生数以亿计文字内容增量baet365。
在数字版权保护上,童之磊认为:“当下面临的版权挑战,既然是以技术为因,就应该以技术手段来应对。”为此,中文在线已开启以区块链技术为底层的知识产权保护逻辑,向上延伸至版权溯源与交易平台双线并行的业务模式。不仅以自研的创珍链作为底层技术支撑版权流转所有阶段,构建自主产权的版权秩序管理架构,还打造了以人工智能为基础的一站式版权监测及维权平台,能够实现自动取证、AI调整等功能,并以大数据为基础构建版权价值评估体系,通过技术创新强化数字版权服务。
版权保护不是“一个人的战斗”,自2005年“中文在线反盗版联盟”成立开始,一个协同共建的版权保护生态就在不断生长。在近20年的时间里,中文在线主导内外部维权案件超万件,涉案著作权作品10万余部,累计获赔金额数亿元,为数千权利人提供了知识产权服务。这些实践让中文在线面对AIGC时代的数字版权保护难题时,得以提出更具可行性的解题思路。
一个繁荣可持续的人工智能产业生态不可能建立在盗版与侵权之上,相信在政府、行业、企业、学界多方携手之下,AIGC版权生态的新格局是定将抵达的彼岸。