新闻中心

以专业服务与客户满意度的最高境界为目标而不懈努力

你当前位置 奇异果体育 > 新闻中心 > 行业新闻

AI大模型训练:探讨数据使用baet365版权规范化的新时代

发布时间:2023-12-24 07:09:41    阅读量:

  baet365近期,字节跳动因涉嫌调用OpenAI API接口训练大模型而引发争议,谷歌的Gemini大模型也被曝使用百度文心一言进行中文语料训练。这一系列事件在业内引起热议,AI巨头间相互“薅羊毛”的奇葩操作成为行业关注焦点。

  关于字节跳动与OpenAI之间的争议baet365,虽然双方已做出回应,但这突显了AI领域数据版权问题的普遍存在。谷歌的Gemini大模型使用百度文心一言进行训练的曝光更是让人们对数据使用的规范性产生质疑。

  在这个背景下,其他科技巨头也不例外。Meta因使用作家作品训练Llama人工智能语言模型而遭到诉讼,而OpenAI也被多位作家控告未经授权使用其作品进行模型训练。这些案例显示,数据版权问题是AI大模型训练过程中不可忽视的问题。

  在AI大模型的训练中,数据版权问题涉及到预训练、有监督的精调和人类反馈学习等关键阶段。预训练是基于大量数据实现通用语言能力的阶段,而精调则需要人类引导模型输出合理结果。数据标注是庞大的工程,为了迅速推出大模型,许多公司使用GPT生成标注数据,即“蒸馏”方法。

  尽管OpenAI在API服务条款中明确规定“不可用Output训练竞争模型”,但这一政策备受争议。一些人认为OpenAI做出了大量前期投入,而另一些人认为其侵权行为和数据版权问题需要得到关注。

  字节跳动对争议的回应显示,他们在内部已经做出规范和限制,禁止使用GPT生成数据训练模型。这不仅是为了遵守服务条款,更是为了技术的发展。这也让人们反思,AI大模型训练是否需要更多的规范和限制,以避免数据侵权问题的发生。

  随着生成式人工智能市场规模不断扩大,AI大模型的发展势头迅猛。然而,数据使用的行业规范亟待进一步规范和完善。传统的授权和版权法在生成式AI训练领域面临难以解决的问题。因此,行业需要尽早推进规范化体系,以确保AI的发展能够在合法合规的框架内进行baet365。

  近期发布的关于AIGC训练数据版权的倡议书显示行业对此问题的重视。这些事件也应成为契机,推动AI大模型训练数据核心版权问题的规范化,从“倡议”迈向实际的“落地”。

  只有在这样的背景下baet365,AI大模型才能更好地服务人类和各行各业。行业应该共同努力,建立更清晰的规范,以推动AI技术的可持续和合法发展。