随着时代的发展,人工智能、机器学习、数据挖掘等技术逐渐普及,各个领域都在尝试使用这些技术与领域内现有知识结合,从而拓展现有的研究。
而气象领域也不例外,通过知网检索“气象 机器学习”关键词,我们可以发现,相关论文发表数量呈现逐年递增状态。在刚过去的2021年,“气象 机器学习”相关论文发表篇数为250篇,已经与2002年“气象 模式”相关论文发表的数量相当(225篇)。可以预见,在不久的将来,机器学习或将成为气象领域另一个热门的研究方向。
知网检索“气象 机器学习”关键词发文量年度趋势图
知网检索“气象 模式”关键词发文量年度趋势图
为了帮助大家更好地入门气象领域的机器学习,我们准备了2套气象机器学习练习赛。
PS:机器学习的比赛中,选手根据提供的训练集数据训练模型,而后在测试集数据上进行预测。得出的预测值与真实值进行比较,预测值越接近真实值,名次越高。
一般具有紧张刺激、令人上头、短时间内密集训练从而令人快速进步等特点。
在今天给大家介绍的2个气象领域的入门级机器学习算法练习赛中,我们准备了帮助小白完成比赛,“有手就行”的Baseline,以及一些微不足道的奖励,供大家浅尝机器学习的快乐。请往下看 ↓ ↓ ↓
· 练习赛一 ·
空气质量预测
知识点:结构化数据处理,特征处理,机器学习基础
推荐人群:入门小白,浅试机器学习全流程
赛题
本次比赛以 PM2.5 预测为任务,给出一段时间内某城市的相关气象观测数据及空气污染物数据,建立模型预测一段时间内的 PM2.5 指数。
数据
本次比赛所用到的空气质量数据来自环境保护检测中心网站,气象数据来自美国国家气候数据中心(NCDC),由@王_晓磊 汇总并分享。为了更符合算法比赛的需求,数据做了脱敏处理。
字段
字段
| 数据类型 | 字段说明
|
|
---|
id | int | 数据id(从 1 开始,连续编号) | 无 |
date | str | 观测数据发生的时间 | YYYY-MM-DD HH:mm:ss |
T | float | 温度 | 摄氏度 |
Td | float | 露点温度 | 摄氏度 |
wd | int | 风向 | 度 |
ws | float | 风速 |
米/秒 |
CO | float | CO 浓度 | 毫克/立方米 |
NO2 | float | NO2 浓度 | 微克/立方米 |
O3 | float | O3 浓度 | 微克/立方米 |
PM10 | float | PM10 浓度 | 微克/立方米 |
SO2 | float | SO2 浓度 | 微克/立方米 |
PM2.5 |
float | PM2.5 浓度 | 微克/立方米 |
*本次比赛数据集不开放下载
报名
链接:https://www.heywhale.com/u/29790b
学习资料
吴恩达机器学习(视频)
https://www.bilibili.com/video/BV1LE411h7P4?from=search&seid=2256771538869331438&spm_id_from=333.337.0.0
吴恩达机器学习(教案)
https://www.heywhale.com/home/column/5dd7524c83b6ff002c786fff
Machine Learning 入门教程
https://www.heywhale.com/mw/project/5c483e3489f4aa002b85a3d5
官方Baseline
Baseline的意思是一套完整的解题代码,你可以在这套解题代码上进行优化,得出自己的版本
报名后即可查看
· 练习赛二 ·
检测识别 · 热带气旋路径检测
关键词:复杂一点的结构化数据处理,进阶玩家
赛题
本赛题需要你通过热带气旋属性,建立合理的约束条件或特征识别算法,最终实现西北太平洋热带气旋路径检测。
数据
本赛题给出了 2014 年 7-9 月(台风高发期)的高分辨率气候模式的模拟数据,时间分辨率为 6 小时,空间分辨率为 0.5°,区域为西北太平洋海域(100°E-180°,0°N-60°N)。
其中:
数据来源:高分辨率气候模式数据来自第六次国际耦合模式比较计划(CMIP6)中的 ECMWF-IFS-HR 模式
字段
气候模式输出数据(nc 格式)字段:
字段
| 数据类型
| 字段说明
|
|
---|
time | 字符串 | 时间 | 无 |
plev | 浮点型 | 气压 | Pa |
lat | 浮点型 | 纬度 | ° |
lon | 浮点型 | 经度 | ° |
psl | 浮点型 | 海平面气压 | Pa |
ta | 浮点型 | 气温 | K |
ua | 浮点型 | 经向风 | m/s |
va | 浮点型 | 纬向风 | m/s |
台风数据(csv 格式)字段:
字段
| 数据类型
| 字段说明
|
|
---|
number | 整型 |
台风编号 | 无 |
time | 整型 | 时间 | 无 |
lon(预测字段) | 浮点型 | 台风中心经度 | ° |
lat(预测字段) | 浮点型 | 台风中心纬度 | ° |
pres(预测字段) | 浮点型 | 海平面最低气压 | Pa |
wind(预测字段) | 浮点型 | 850hPa最大风速 | m/s |
* 本次比赛数据集不开放下载
报名
链接:https://www.heywhale.com/u/6a518f
ps:参加此练习赛需要满分完成6道练习题(见“学习资料1”),方可晋级比赛阶段
学习资料
热带气旋路径检测前置练习题
熟悉 xarray 模块基本语法、了解热带气旋的基本特征
报名后即可查看
官方Baseline
报名后即可查看
· 交流群 ·
扫描下方二维码,添加方小鲸好友
通过后回复关键字“气象练习赛”即可入群
· 奖励 ·
以上2个活动,均享受和鲸社区「DataJoy®」的系列奖励
奖励类型
| 奖励项
| 发放对象 |
---|
完成提交 | 「DataJoy®练习赛」参赛证明 | 所有有效提交团队选手 |
成绩优秀 | ¥ 50 元京东卡 |
每个练习赛周期结束时进行统计发放,排行榜前三名团队获奖(不可重复领取,如该期提交团队不满3个则无此奖励) |
| 「DataJoy®练习赛」定制荣誉证书 | 每个练习赛周期结束时进行统计发放,排行榜前三名的团队成员(获奖名单数量向上取整,如该期提交团队不满3个则只发放参赛证明) |
互动奖励 | 浏览、Fork、点赞、评论项目均可获得最高 5 成长值 | 所有项目互动选手 |
| 不定期获得和鲸定制文化礼物一份,包邮到家 | 练习赛群内活跃选手 |
| DataJoyer社群管理员 | 练习赛群内活跃选手 |
分享奖励 | 项目被浏览、被Fork、被点赞、被评论可获得最高 20 成长值 | 所有公开分享项目选手 |
创作奖励 | 「和鲸社区创作者激励计划(计划详情)」的绿色通道,即直接成为和鲸社区创作者,可直接利用项目/数据集进行变现。(单个原创项目收益最多为 1,800 元,单个数据集收益最多为 90 元) | 练习赛中分享过优质 Baseline 的选手(需要在讨论区发帖并增加前缀【Baseline】) |
「DataJoy®」练习赛是和鲸(Heywhale)社区的自有练习赛品牌,面向所有希望通过练习来提升自我、结识友人的数据科学领域人才,旨在打造一个新手友好、自由交流、开源分享的数据科学练习环境。
更多「DataJoy®」系列赛欢迎点击“阅读原文”了解