Py学习  »  机器学习算法

如何刷爆一场机器学习竞赛?

夕小瑶的卖萌屋 • 3 年前 • 258 次点击  

无论是对于个人算法能力的提升,还是直面找工作、转行等现实问题,参加一场甚至多场高质量的机器学习竞赛无疑是至关重要的。然而,很多小伙伴苦于没有大神带、缺乏学习资料、不得要领屡战屡败、没有足够的GPU算力甚至不知道从哪场比赛打起等原因,迟迟未能在简历上写下亮眼的一笔。不过没关系,这篇文章就来帮你解决以上种种难题!

首先,机器学习领域的热门竞赛主要集中在计算机视觉、自然语言处理、数据挖掘等方面,建议大家根据自己的研究兴趣、目标位置,重点的选择其中一个领域进行竞赛深耕,毕竟很少有工业界的职位会跨着大类招聘“通用算法工程师”,一般这种岗位也不太靠谱。而哪怕你精力旺盛、能力强,跨很多领域刷竞赛,也容易给HR留下“泛而不精”的刻板印象。所以,瞄准一个发力领域是成功的起点。

有了方向,我们就来看看如何针对性的解决文首提出的众多问题。

解决算力问题

尽管网上已经有不少自己DIY深度学习工作站的帖子,但是真正实操过的小伙伴都会知道复杂程度远超重装系统,更不必说金钱成本和后期维护带来的麻烦了。而大部分高校实验室经费紧张,往往只有一些老掉牙的显卡,甚至基本无卡可用,导致刷比赛时经常出现“我有10个想法,但显卡只允许我实现一个想法”的尴尬场面。若在比赛过程中再去折腾算力问题,无疑相当分散精力。

尽管市面上已经有一些炼丹平台了,不过大都存在费用高、延迟高、不稳定、使用限制多等问题,最终换来换去还是觉得不够舒畅。但是!最近小夕新发现了一个非常舒适的炼(薅)丹(羊毛)平台,不仅没有以上问题,而且这个平台配备 Tesla V100 显卡,算法工程师可自主训练个人项目,还提供了50GB的免费存储数据空间!

此外,小夕还联系了平台方为大家争取来了粉丝专属福利,在平台免费时长的基础上,扫码进如下粉丝福利群可 额外获得500分钟 的免费炼丹时长!(群满为止,先到先得~~)

以下是平台注册就有的免费600分钟传送门:

ps:扫描此二维码会出现关注FlyAI服务平台订阅号,关注后会赠送600Fai值+奖励(1Fai值=1分钟GPU时长),若为公众号粉丝,进上面的卖萌屋福利群,可再额外获得500Fai值(共计 1100Fai值

FlyAI平台界面如图,亲测十分友好!

传送门:
https://www.flyai.com/

寻找合适的比赛

解决了竞赛算力问题,再来谈谈比赛选择。

国外的Kaggle、国内的天池等是起步比较早的竞赛平台,此外具体到各自的领域,也会有一些互联网巨头、科研单位每年定期组织一些比赛。例如具体到NLP领域,GLUE、SuperGLUE、SQuAD等成为全球NLP军备竞赛的标杆benchmark。但这类头部竞赛往往参与人数众多,且多为头部大厂的研究团队倾注大量人力算力才刷的动,竞赛新手想挤进头部位置非常难,不建议新手一开始就拿难度过大的比赛练手。

而前面提到的FlyAI平台不仅提供了若干免费的V100算力供大家训练比赛模型,而且平台更是一个涵盖AI各大领域的竞赛发布平台。平台上有新手赛,练习赛,奖金赛,还有一些企业发布的比赛,获取头部名次可拿到企业内推机会。赛题涉及:计算机视觉、自然语言处理、音视频处理、数据挖掘等AI领域下的生活服务、医疗、出行、安防、金融等热门应用场景。

▲比赛示例

此外,FlyAI平台相比其他竞赛平台还具备一些独有的优势:

更贴近用户

  1. 所有问题都以案例实现,并且保证每个人下载代码后都可一键运行,5秒钟进入AI世界
  2. 不设结束期限的游戏化竞赛机制,每个人都可以提交自己的算法实现,与其他人的提交结果进行比较,较高者获得积分
  3. 比赛获得的积分可以兑换GPU计算资源和下载代码
  4. 解决用户学习AI的门槛过高问题:一般教程里的代码脱离实际,缺少算力,难以坚持
  5. FlyAI还开展了博主创作激励计划,引进和培育社区博主,推荐技术文章和视频答辩

更贴近企业需求

同时,FlyAI也在帮助企业寻觅优秀的算法人才,在承接的比赛方面也和一些企业、科研机构一起合作办赛。算法竞赛可以看作是一种能力验证的形式,企业通过开展比赛可以获得解决方案和人才,最终FlyAI要做的是算法人才和企业端的供需匹配。从算法竞赛的这样的一种模式出发,帮助企业完成数据智能化是FlyAI面向B端用户的目标定位。

像目前已经顺利举办的"心理卡牌目标检测赛",这场竞赛是与《测测》联合举办的一场CV算法竞赛,经过线上算法初赛和线上答辩决赛,最终由算法工程师提供多个需求解决方案。

心理测试,星座塔罗。《测测》是一款定位于年轻人的泛心理服务平台的移动端APP,目前已经通过对话文本生成、语音识别、推荐算法、图像识别等AI技术手段应用于实际业务中,比如心理对话机器人"小测AI"等产品功能。

此竞赛成果最终也在《测测》的业务侧顺利转化为项目并投入到正式生产使用。

通用的比赛上分策略

最后谈谈通用的比赛上分策略。

无论是数据挖掘,还是NLP、计算机视觉,大多数机器学习领域的竞赛都可以套用一些通用的上分手段。主要归纳为如下几个方向:

  1. 横向刷:通过case分析和数据集/任务特点来设计特征,引入到神经网络或者GBDT等机器学习模型中。此外对每个场景的任务,网上基本都能找到相关的特征工程经验和相关代码,时间充裕的话不妨无脑暴力加一波
  2. 纵向刷:在计算机视觉、NLP等深度学习主导的领域中,很可能出现十个特征干不过一个大模型的情况,因此在一些深度学习主导,且任务难度较大、不好特征化建模的竞赛(如机器阅读理解),基于一个基线模型认真迭代优化可能反而是比怼特征更快的上分方式
  3. 抱团刷:集成(ensemble)基本对任何机器学习问题有效。数据集无论再大、标注再干净,模型的学习也一定会拟合其中的偏差(bias),这是统计方法的必然结果。而集成学习则可以有效的削弱拟合的偏差对最终决策的影响,从而提升模型的测试集表现。不过由于多模型集成后往往代码较重,因此建议大家尽量放在比赛后期再做集成

在具体任务场景中实操起来,则会有比较大的不同,篇幅原因这里就不展开介绍了,大家可以在自己感兴趣的赛道中多多参考相关比赛的经验贴。此外,给大家推荐下FlyAI平台的学习频道,不仅会汇聚一些经典算法和前沿方法,还会有很多比赛的答辩视频和上分经验贴,甚至发现相似竞赛的冠亚军解决方案。如图所示

FlyAI还有多个用户社群可以及时触达用户问题,可以说很贴心了。

最后,FlyAI公司注重AI技术+业务场景的落地能力,为提高服务品质和降低生产成本急需扩充优秀的算法人才和AI技术能力,目前正与合作方“测测”招聘算法工程师,正在找工作的小伙伴抓住机会哦。

合作项目介绍: 测测,从星座切入的泛心理服务平台,获得多轮融资,投资方包括腾讯等知名公司,营收高速增长,旨在将AI技术与泛心理服务相结合,通过NLP等相关技术提高泛心理行业的效率,为全社会提供普惠的心理服务。欢迎了解详情(WeChat ID:HiRyan0314 ) or 投递简历(邮箱:hr@cece.com)

算法工程师(NLP、推荐方向)

岗位职责:

1.负责AI相关产品的开发;2.负责相关数据的收集整理。

任职要求:

1.计算机、通信、软件工程、数学、人工智能等相关专业的硕士或博士;2.熟练掌握Python开发语言;3.熟练使用Tensorflow、Keras、PyTorch开源框架中的一种或多种;4.了解并能复现深度学习最前沿的算法;5.参与做过NLP、推荐等方向的真实商业项目;6.对模型结果认真负责,能不断迭代优化改进项目。

简历投递至:
hr@cece.com

NLP实习生

岗位职责:

1.负责AI产品的开发;2.负责相关数据的收集整理。

任职要求:

1.计算机、通信、软件工程、数学、人工智能等相关专业的在读硕士或博士;2.熟练掌握Python开发语言;3.了解Tensorflow、Keras、PyTorch开源框架中的一种或多种;4.了解并能使用深度学习最前沿的算法;5.参与做过NLP、NLU、NLG等方向的真实商业项目;6.有较强的学习能力,做事认真,对结果负责。

实习要求:

1.至少3个月以上,每周4天以上(双休日除外)。

简历投递至:
hr@cece.com

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/111769
 
258 次点击