社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

2025春节红包行情方向有了!国产大模型DeepSeek横空出世,锋芒比肩ChatGPT

美股研究社 • 5 月前 • 290 次点击  

 “ 心中有准备,手中有方向。 


来源 | 美股研究社


历史总是惊人的相似。

2022年11月30日,由OpenAI研发ChatGPT一经推出便凭借出色的自然语言处理能力,迅速在社交媒体上走红。短短5天,注册用户数就超过100万,到2023年1月末,其月活用户已突破1亿,成为史上增长最快的消费者应用。

ChatGPT的出现如同一颗重磅炸弹,在全球范围内掀起了AI热潮,股市炒作行情更是此起彼伏。

这一现象级的爆火,引发了各路产业资本、金融资本的高度关注,由此全球范围内掀起了AI热潮,相关概念股的炒作行情更是以年度级别展开。

两年后的2025年1月20日晚间,中国“名不经传”的AI初创企业深度求索公司(DeepSeek)正式发布推理大模型DeepSeek-R1因其可比肩OpenAIo1的性能、极低的服务价格,以及代码和模型架构的完全开源,再次震惊业界。

据报道,深度求索旗下AI智能助手应用DeepSeek已在美区下载榜上超越ChatGPT,并登顶苹果AppStore免费应用榜。

对此现象,AI科技初创公司ScaleAI的创始人亚历山大·王(AlexandrWang)给予了极高评价,称过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。

从量化投资到AI新秀,

DeepSeek两年实现弯道超车


刷屏海外科技界的国产AI黑马DeepSeek,是国内知名量化资管巨头幻方量化创立的大模型公司。

‌DeepSeek团队的核心特点是“年轻高潜”,即大多数成员的年龄在35岁以下,工作时间虽然不长但具有较高的潜力和智能,团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。‌

其中,‌DeepSeek创始人梁文锋毕业于浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,且也是量化交易公司幻方量化的创始人之一。

基于梁文锋的专科出身,幻方量化的AI历程其实由来已久。2008年起,梁文锋便开始带领团队使用机器学习等技术探索全自动量化交易。

2015年,幻方量化正式成立,隔年便推出了第一个AI模型,并上线执行了第一份由深度学习生成的交易仓位,使用GPU进行计算,期间,幻方量化在量化投资过程中积累了大量数据处理和算法优化经验,同时拥有大量A100芯片,为AI模型训练提供了强大硬件支持。2017年,幻方量化宣称实现投资策略全面AI化,开始大规模布局AI算力,并搭建「萤火一号」「萤火二号」等高性能计算集群,为AI模型训练提供强大算力支持。

投资策略的AI化商业效果也十分喜人。截至2019年,幻方量化资金管理规模就突破百亿元,并在2021年突破千亿大关,跻身国内量化私募领域的“四大天王”之列。

在投资领域证明了AI化的奇效后,2023年,梁文锋宣布将正式进军通用人工智能领域,深度求索DeepSeek也由此创立,初心是要打造专注于做真正人类级别的人工智能。

成立不足一年时间,2024年5月,DeepSeek就发布混合专家语言模型DeepSeek-V2;截至年末,又推出了在知识问答、长文本处理、代码生成和数学能力等关键领域实力尤为突出的的大语言模型DeepSeek-V3。

以MMLU、GPQA等知识类任务为例,DeepSeek-V3表现接近国际顶尖模型Claude-3.5-Sonnet。在数学能力方面,更是在AIME2024和CNMO2024等测试中创造新纪录,超越所有已知的开源和闭源模型。同时,该模型生成速度较上代提升200%,达到60TPS,大为改善了用户体验。

根据独立评测网站ArtificialAnalysis的分析,DeepSeek-V3在多项关键指标上超越了其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不分伯仲。

更重要的是,优异性能下,该模型训练成本极具颠覆性。据该团队发布的技术报告,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788MH800GPU小时,其DeepSeek-V3仅为557万美元,远低于训练成本高达7800万美元的GPT-4;且其API服务价格亲民,输入tokens每百万仅需0.5元(缓存命中)或2元(缓存未命中),输出tokens每百万仅需8元。

如此高的性价比,DeepSeek-V3当时甚至被硅谷同行誉为“来自东方的神秘力量”,也有将之称为“AI界拼多多”的。《金融时报》将其描述为“震惊国际科技界的黑马”,认为其性能已与资金雄厚的美国竞争对手模型相媲美。Maginative创始人ChrisMcKay更是指出,DeepSeek-V3的成功或将重新定义AI模型开发的既定方法。

这种神秘力量仍未停歇。2025年1月20日,DeepSeek再次发布了性能堪比可OpenAIo1、服务价格却极低,且实现代码和模型架构完全开源的推理大模型DeepSeek-R1,引发全球科技界震惊。至今DeepSeek-R1已经出现多次宕机。截至1月27日11点,据DeepSeek官网显示,DeepSeek网页/API再次不可用。

DeepSeek-R1:

用创新打破AI研发“烧钱”定式


具体来看,目前被认为是DeepSeek-R1能至比肩ChatGPT的两个核心点,其一是DeepSeek-R1独特的技术原理和创新的训练方法;其二则是超乎寻常的低训练成本

首先,兼顾优异性能的极致成本。据网络公开资料,在训练阶段,DeepSeek-R1大规模使用了强化学习技术。强化学习是一种通过智能体与环境进行交互,根据环境反馈的奖励信号来学习最优行为策略的机器学习方法。

通过这种方式,DeepSeek-R1在仅有极少标注数据的情况下,极大地提升了模型的推理能力。与传统的监督学习需要大量标注数据不同,强化学习使得模型能够在更广泛的场景中自主学习和优化,大大提高了模型的适应性和泛化能力。

DeepSeek-R1的推理过程包含大量反思和验证,思维链长度可达数万字。这意味着模型在处理问题时,不再是简单地给出答案,而是能够像人类一样进行深度思考,逐步分析问题,展示出完整的思考过程。例如,在解决数学问题时,它会详细地列出每一步的推理逻辑,而不是直接给出结果,这种特性使得用户能够更好地理解模型的决策依据,增强了模型的可解释性。

在架构方面,DeepSeek团队提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时独创的DeepSeek Moesparse结构也把计算量降到极致,最终促成了成本的下降。这不仅使得DeepSeek-R1在运行效率上大幅提升,还降低了硬件成本,为模型的广泛应用提供了有力支持。

近年来,全球AI大模型产业飞速发展,但遵循常规的规模定律(计算规模越大、训练数据量越多,模型越智能),不少企业陷入了一场关于顶尖人才、先进算力和巨额投资的“军备竞赛”。’

众多知名科技企业纷纷大量囤积芯片以确保充足算力。根据Omdia最新报告,英伟达最大买家微软为备战AI科技,曾购买48.5万块英伟达旗舰产品Hopper芯片,为英伟达去年贡献了20%的收入;第二大客户Meta去年也购买了22.4万块GPU;此后是预计分别购买19.6万和16.9万颗Hopper芯片的亚马逊、谷歌。

科技巨头或许有能力支撑这些巨额投入,但绝大多数玩家对这个“无底洞”望而却步。而且,越来越多科学家开始质疑堆数据、堆算力这种“大力出奇迹”的做法,与此同时海外高端芯片的出口管制增添了供给的不确定性。作为初创企业,DeepSeek不得不另辟蹊径。

正如Maginative创始人此前评价DeepSeek-V3的成功或将重新定义AI模型开发的既定方法,DeepSeek-R1再次用事实证明这个观点并非偶然。《金融时报》指出,DeepSeek的成功颠覆了“AI研发必须依赖巨额投入”的传统认知;《经济学人》表示,中国AI技术在成本效益方面的快速突破,已经开始动摇美国的技术优势;《纽约时报》则认为,则认为,DeepSeek-V3在性能上与美国公司的高端聊天机器人相当,但成本大大降低,显示了中国公司在芯片出口管制情况下的创新能力。

相比之下,ChatGPT虽然在自然语言生成方面表现出色,但在推理能力的深度和成本控制上,DeepSeek-R1展现出了独特的优势。

其次,该模型代码和训练方法的完全开源也令一众围观者叹为观止。

英伟达GEARLab项目负责人JimFan评价DeepSeek-R1时表示:“这代表着非美国公司正在践行OpenAI最初的开放使命,通过公开原始算法和学习曲线等方式实现影响力,顺便还内涵了一波OpenAI。DeepSeek-R1不仅开源了一系列模型,还披露了所有训练秘密。它们可能是首个展示RL飞轮重大且持续增长的开源项目。

影响力既可以通过“ASI内部实现”或“草莓计划”等传说般的项目实现,也可以简单地通过公开原始算法和matplotlib学习曲线来达成。”

金沙江创投朱啸虎在朋友圈发文称“DeepSeek是技术理想主义者的胜利”。

押宝A股新年红包行情,

不可不知的DeepSeek概念投资指南


技术理想主义者“胜利”后,在农历2024年A股最后一个交易日中, DeepSeek方向成为一众投资者的押宝对象。

截至1月27日,AI智能体、AI语料等概念在市场中涨幅居前。在DeepSeek概念个股中,每日互动、卓创资讯、美格智能等股价强势涨停,涨幅达到20%,包括华金资本、浙江东方等在内,约有10余只概念个股涨停。

其中,每日互动,华金资本、浙江东方等被传与DeepSeek存在股权关联。

每日互动,作为全国除互联网通信运营商之外最大的智能终端行为数据拥有者,开发者服务SDK累计安装量突破830亿。2024年10月18日,每日互动在与投资者互动时表示接入DeepSeek通用大模型。据券商纪要幻方核心高管曾为公司联合创始人。公司智能营销SaaS产品“数盘”,有望结合Agent和自身SaaS行业数据积累,开发出垂直场景类大模型应用在商业营销和公共服务领域,将"人工智能+"赋能千行百业。

浙江东方,是一家国有上市金控平台,主要涵盖信托、期货、人身险、财富管理、基金管理、基金投资、融资租赁等业务,是浙江省唯一国有信托公司。网传浙江东方间接参股DeepSeek,不过,经工商查询股东列表也无相关公司。

华金资本,实控人为珠海市国资委,是珠海金控旗下唯一控股的上市平台持有华金证券1.45%的股权。目前管理基金数达70只,包括创业基金、早期基金,以及市场化FOF等,在对外投资方面,已投了104家公司,A、B轮以及股权投资是公司的主要投资阶段,先进制造等是华金资本投资最多的领域。网传华金资本通过华金领越基金参与DeepSeekPre-A轮融资(经工商查询股东列表无相关公司)。

其余,合伙伙伴中,幻方量化曾调研过卓创资讯,网传深潜(Deepseek)大模型与卓创资讯在金融语料库方面有合作(未证实)。2025年1月7日互动,公司尚未与深潜深度求索建立业务合作关系。

美格智能,2025年1月26日在官微发文,公司凭借其高算力AI模组矩阵与端侧大模型部署经验,结合AIMO智能体等,正加速开发DeepSeek-R1模型在端侧落地应用及端云结合整体方案,2025年公司将推出单颗模组算力达到100Tops的高阶AI硬件,远期规划AI模组算力超过200TopS。

今日之后,国内春节假期将如期而至,A股中DeepSeek概念的炒作行情也将进入短暂的蛰伏期,但市场对其的关注并不会就此消散,春节期间,相关讨论和资讯大概率会在金融论坛和社交媒体上持续传播。

春节假期结束后,DeepSeek概念究竟是在短暂的冷却后加速发酵,还是因春节期间海外市场的负面表现而意外“炸雷”,成为投资者的“烫手山芋”,一切都充满变数,其难以预判。而投资者能做得则是当机会来临时,心中有准备,手中有方向。

【如需和我们交流可后台回复“进群”加社群】


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178461
 
290 次点击