根据最新报道,微软和 OpenAI 正在调查与DeepSeek 相关的团体是否未经授权获取了 OpenAI 的数据。 微软的安全研究人员在去年秋季观察到,一些被认为与 DeepSeek 有关的个人通过 OpenAI 的 API 提取了大量数据,这可能违反了 OpenAI 的服务条款。OpenAI 表示,已经发现中国实体试图提取大量数据来训练他们自己的模型,并已对相关账户采取了封禁措施。
那么DeepSeek是否第二个“芯片打磨”呢?即使涉嫌上面的指控,DeepSeek依然有足够的创新,因为要直接抄一个ChatGPT几乎不可能。
从技术角度来看,完全复制ChatGPT的可能性极低。
1. 训练数据不同
• OpenAI的GPT模型使用了大量专有数据,具体来源未公开。DeepSeek即使想复现,也无法获得相同的数据集,导致模型表现可能有差异。
2. 模型架构未公开
• GPT-4的具体架构和优化细节(如Mixture of Experts的实现)并未公开。DeepSeek即使使用相似的Transformer结构,也难以复制OpenAI的优化策略。
3. 训练成本高昂
• 训练ChatGPT需要数亿美元的计算资源,DeepSeek的成本可能远低于此,表明训练方式和数据可能不同。
DeepSeek可能采用了哪些“模仿”方式?
1. 使用类似的训练框架
• Transformer架构是公开的,DeepSeek可以基于相同的技术框架训练自己的大模型。许多公司(如Anthropic、Google、Meta)也在用类似方法训练自己的大模型。
2. 可能利用了蒸馏技术(Distillation)有报道称,DeepSeek可能使用了“知识蒸馏(Knowledge Distillation)”技术,即利用ChatGPT的API生成大量数据,再用这些数据训练自己的模型。这种方法能让小模型模仿大模型的行为,但不会完全复制底层架构。
3. 可能调用过OpenAI的API
OpenAI和微软正在调查DeepSeek是否在模型训练过程中调用过ChatGPT API,以获取大量文本数据用于训练。如果证实DeepSeek大量调用OpenAI的API来训练自己的模型,这种做法可能会引发法律和伦理争议。
总之,DeepSeek无法直接“抄袭”ChatGPT,但可能采用了类似的技术框架,并可能通过蒸馏或API数据采集来模仿ChatGPT的表现。如果后续证据表明DeepSeek确实利用了OpenAI的数据或API,其合规性可能会受到质疑。
知识蒸馏(Knowledge Distillation)本身是合法的,但具体情况取决于数据来源和使用方式。
知识蒸馏是一种AI模型训练方法,核心思想是用一个大模型(教师模型)生成数据,并用这些数据来训练一个更小的模型(学生模型),使其能在更低的计算资源下表现接近大模型。例如:用GPT-4生成大量问答数据,再用这些数据训练一个较小的模型(如GPT-3.5级别)。让一个大模型对数据进行额外标注,提升训练效果。
如果数据是通过合法方式获取的(例如公开数据),一般没有法律问题。例如,研究机构使用自有数据训练模型,并用GPT-4进行辅助标注。开放领域的数据,如维基百科、开放论坛等,通常可以用作训练数据。
但是如果数据来源涉及API或专有内容,可能涉及侵权或合约违约。未经授权使用API进行大规模数据抓取。如果DeepSeek使用了OpenAI的API,并通过批量调用ChatGPT获取训练数据,可能违反OpenAI的API使用条款,因为大部分API禁止用于训练其他模型。
现实中Meta的Llama在训练时据说也使用了其他大模型的输出,但由于数据来源未公开,尚无明确证据。Google DeepMind在一些研究中使用过GPT系列的输出数据进行微调,但主要用于研究目的。
可以肯定的是,DeepSeek绝不是ChatGPT的套壳。即使利用蒸馏乃至利用API抓取数据,能做出一个接近ChatGPT的模型也是很牛逼的。它确实体现了中国在AI上的潜力和实力。但是,DeepSeek的成功也不能说我们在AI上超越了美国,DeepSeek颠覆性主要体现在其低成本上。这个在以前被认为是不可能的。当然,这个几百万美金的低成本很多人也怀疑是否是真的。不管怎样,DeepSeek即使是ChatGPT的高仿,那也是实力的体现,其他国家和公司想高仿也暂时没有这个能力。
而且关键DeepSeek的开源免费,这个从商业上直接打击了OpenAI。
OpenAI必须拿出更好更先进的模型,否则也难以生存。