社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

DeepSeek是ChatGPT的套壳?

星涛投资 • 1 周前 • 199 次点击  

根据最新报道,微软和 OpenAI 正在调查与DeepSeek 相关的团体是否未经授权获取了 OpenAI 的数据。 微软的安全研究人员在去年秋季观察到,一些被认为与 DeepSeek 有关的个人通过 OpenAI API 提取了大量数据,这可能违反了 OpenAI 的服务条款。OpenAI 表示,已经发现中国实体试图提取大量数据来训练他们自己的模型,并已对相关账户采取了封禁措施。


那么DeepSeek是否第二个“芯片打磨”呢?即使涉嫌上面的指控,DeepSeek依然有足够的创新,因为要直接抄一个ChatGPT几乎不可能。


从技术角度来看,完全复制ChatGPT的可能性极低。


1. 训练数据不同

OpenAIGPT模型使用了大量专有数据,具体来源未公开。DeepSeek即使想复现,也无法获得相同的数据集,导致模型表现可能有差异。


2. 模型架构未公开

GPT-4的具体架构和优化细节(如Mixture of Experts的实现)并未公开。DeepSeek即使使用相似的Transformer结构,也难以复制OpenAI的优化策略。


3. 训练成本高昂

训练ChatGPT需要数亿美元的计算资源,DeepSeek的成本可能远低于此,表明训练方式和数据可能不同。


DeepSeek可能采用了哪些“模仿”方式?


1. 使用类似的训练框架

Transformer架构是公开的,DeepSeek可以基于相同的技术框架训练自己的大模型。许多公司(如AnthropicGoogleMeta)也在用类似方法训练自己的大模型。


2. 可能利用了蒸馏技术(Distillation)有报道称,DeepSeek可能使用了“知识蒸馏(Knowledge Distillation)”技术,即利用ChatGPTAPI生成大量数据,再用这些数据训练自己的模型。这种方法能让小模型模仿大模型的行为,但不会完全复制底层架构。


3. 可能调用过OpenAIAPI

OpenAI和微软正在调查DeepSeek是否在模型训练过程中调用过ChatGPT API,以获取大量文本数据用于训练。如果证实DeepSeek大量调用OpenAIAPI来训练自己的模型,这种做法可能会引发法律和伦理争议。


总之,DeepSeek无法直接“抄袭”ChatGPT,但可能采用了类似的技术框架,并可能通过蒸馏或API数据采集来模仿ChatGPT的表现。如果后续证据表明DeepSeek确实利用了OpenAI的数据或API,其合规性可能会受到质疑。


知识蒸馏(Knowledge Distillation)本身是合法的,但具体情况取决于数据来源和使用方式。

知识蒸馏是一种AI模型训练方法,核心思想是用一个大模型(教师模型)生成数据,并用这些数据来训练一个更小的模型(学生模型),使其能在更低的计算资源下表现接近大模型。例如:用GPT-4生成大量问答数据,再用这些数据训练一个较小的模型(如GPT-3.5级别)。让一个大模型对数据进行额外标注,提升训练效果。


如果数据是通过合法方式获取的(例如公开数据),一般没有法律问题。例如,研究机构使用自有数据训练模型,并用GPT-4进行辅助标注。开放领域的数据,如维基百科、开放论坛等,通常可以用作训练数据。


但是如果数据来源涉及API或专有内容,可能涉及侵权或合约违约。未经授权使用API进行大规模数据抓取。如果DeepSeek使用了OpenAIAPI,并通过批量调用ChatGPT获取训练数据,可能违反OpenAIAPI使用条款,因为大部分API禁止用于训练其他模型。

现实中MetaLlama在训练时据说也使用了其他大模型的输出,但由于数据来源未公开,尚无明确证据。Google DeepMind在一些研究中使用过GPT系列的输出数据进行微调,但主要用于研究目的。


可以肯定的是,DeepSeek绝不是ChatGPT的套壳。即使利用蒸馏乃至利用API抓取数据,能做出一个接近ChatGPT的模型也是很牛逼的。它确实体现了中国在AI上的潜力和实力。但是,DeepSeek的成功也不能说我们在AI上超越了美国,DeepSeek颠覆性主要体现在其低成本上。这个在以前被认为是不可能的。当然,这个几百万美金的低成本很多人也怀疑是否是真的。不管怎样,DeepSeek即使是ChatGPT的高仿,那也是实力的体现,其他国家和公司想高仿也暂时没有这个能力。


而且关键DeepSeek的开源免费,这个从商业上直接打击了OpenAI OpenAI必须拿出更好更先进的模型,否则也难以生存。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178552
 
199 次点击