Py学习  »  机器学习算法

这些气象机器学习题,您真的会做吗?| 推荐

happy科研 • 2 年前 • 202 次点击  


随着时代的发展,人工智能、机器学习、数据挖掘等技术逐渐普及,各个领域都在尝试使用这些技术与领域内现有知识结合,从而拓展现有的研究。


而气象领域也不例外,通过知网检索“气象 机器学习”关键词,我们可以发现,相关论文发表数量呈现逐年递增状态。在刚过去的2021年,“气象 机器学习”相关论文发表篇数为250篇,已经与2002年“气象 模式”相关论文发表的数量相当(225篇)。可以预见,在不久的将来,机器学习或将成为气象领域另一个热门的研究方向。


知网检索“气象 机器学习”关键词发文量年度趋势图


知网检索“气象 模式”关键词发文量年度趋势图


为了帮助大家更好地入门气象领域的机器学习,我们准备了2套气象机器学习练习赛。


PS:机器学习的比赛中,选手根据提供的训练集数据训练模型,而后在测试集数据上进行预测。得出的预测值与真实值进行比较,预测值越接近真实值,名次越高。

一般具有紧张刺激、令人上头、短时间内密集训练从而令人快速进步等特点。


在今天给大家介绍的2个气象领域的入门级机器学习算法练习赛中,我们准备了帮助小白完成比赛,“有手就行”的Baseline,以及一些微不足道的奖励,供大家浅尝机器学习的快乐。请往下看 ↓ ↓ ↓



 · 练习赛一 · 

空气质量预测


知识点:结构化数据处理,特征处理,机器学习基础

推荐人群:入门小白,浅试机器学习全流程


赛题


本次比赛以 PM2.5 预测为任务,给出一段时间内某城市的相关气象观测数据及空气污染物数据,建立模型预测一段时间内的 PM2.5 指数。


数据


本次比赛所用到的空气质量数据来自环境保护检测中心网站,气象数据来自美国国家气候数据中心(NCDC),由@王_晓磊 汇总并分享。为了更符合算法比赛的需求,数据做了脱敏处理。


字段


字段
数据类型字段说明

idint数据id(从 1 开始,连续编号)
datestr观测数据发生的时间YYYY-MM-DD HH:mm:ss
Tfloat温度摄氏度
Tdfloat露点温度摄氏度
wdint风向
wsfloat风速 米/秒
COfloatCO 浓度毫克/立方米
NO2floatNO2 浓度微克/立方米
O3floatO3 浓度微克/立方米
PM10floatPM10 浓度微克/立方米
SO2floatSO2 浓度微克/立方米
PM2.5 floatPM2.5 浓度微克/立方米

*本次比赛数据集不开放下载


报名


链接:https://www.heywhale.com/u/29790b


学习资料


吴恩达机器学习(视频)

https://www.bilibili.com/video/BV1LE411h7P4?from=search&seid=2256771538869331438&spm_id_from=333.337.0.0

吴恩达机器学习(教案)

https://www.heywhale.com/home/column/5dd7524c83b6ff002c786fff

Machine Learning 入门教程

https://www.heywhale.com/mw/project/5c483e3489f4aa002b85a3d5

官方Baseline

Baseline的意思是一套完整的解题代码,你可以在这套解题代码上进行优化,得出自己的版本

报名后即可查看




 · 练习赛二 · 

检测识别 · 热带气旋路径检测


关键词:复杂一点的结构化数据处理,进阶玩家


赛题


本赛题需要你通过热带气旋属性,建立合理的约束条件或特征识别算法,最终实现西北太平洋热带气旋路径检测。


数据


本赛题给出了 2014 年 7-9 月(台风高发期)的高分辨率气候模式的模拟数据,时间分辨率为 6 小时,空间分辨率为 0.5°,区域为西北太平洋海域(100°E-180°,0°N-60°N)。


其中:

  • 训练数据集包含 2014 年 7 月海平面气压模拟数据、气温场模拟数据、经向风场模拟数据、纬向风场模拟数据、检测所得的台风数据;

  • 测试数据集包含 2014 年 8-9 月、海平面气压模拟数据、气温场模拟数据、经向风场模拟数据、纬向风场模拟数据、台风数据的 id 及其编号与时刻。


数据来源:高分辨率气候模式数据来自第六次国际耦合模式比较计划(CMIP6)中的 ECMWF-IFS-HR 模式


字段


气候模式输出数据(nc 格式)字段:

字段
数据类型
字段说明

time字符串时间
plev浮点型气压Pa
lat浮点型纬度°
lon浮点型经度°
psl浮点型海平面气压Pa
ta浮点型气温K
ua浮点型经向风m/s
va浮点型纬向风m/s


台风数据(csv 格式)字段:


字段
数据类型
字段说明

number整型 台风编号
time整型时间
lon(预测字段)浮点型台风中心经度°
lat(预测字段)浮点型台风中心纬度°
pres(预测字段)浮点型海平面最低气压Pa
wind(预测字段)浮点型850hPa最大风速m/s

本次比赛数据集不开放下载


报名


链接:https://www.heywhale.com/u/6a518f


ps:参加此练习赛需要满分完成6道练习题(见“学习资料1”),方可晋级比赛阶段


学习资料


热带气旋路径检测前置练习题

熟悉 xarray 模块基本语法、了解热带气旋的基本特征

报名后即可查看

官方Baseline

报名后即可查看


 · 交流群 · 


扫描下方二维码,添加方小鲸好友

通过后回复关键字“气象练习赛”即可入群



 · 奖励 · 


以上2个活动,均享受和鲸社区「DataJoy®」的系列奖励


奖励类型
奖励项
发放对象
完成提交「DataJoy®练习赛」参赛证明所有有效提交团队选手
成绩优秀¥ 50 元京东卡 每个练习赛周期结束时进行统计发放,排行榜前三名团队获奖(不可重复领取,如该期提交团队不满3个则无此奖励)

「DataJoy®练习赛」定制荣誉证书每个练习赛周期结束时进行统计发放,排行榜前三名的团队成员(获奖名单数量向上取整,如该期提交团队不满3个则只发放参赛证明)
互动奖励浏览、Fork、点赞、评论项目均可获得最高 5 成长值所有项目互动选手

不定期获得和鲸定制文化礼物一份,包邮到家练习赛群内活跃选手

DataJoyer社群管理员练习赛群内活跃选手
分享奖励项目被浏览、被Fork、被点赞、被评论可获得最高 20 成长值所有公开分享项目选手
创作奖励「和鲸社区创作者激励计划(计划详情)」的绿色通道,即直接成为和鲸社区创作者,可直接利用项目/数据集进行变现。(单个原创项目收益最多为 1,800 元,单个数据集收益最多为 90 元)练习赛中分享过优质 Baseline 的选手(需要在讨论区发帖并增加前缀【Baseline】)


「DataJoy®」练习赛是和鲸(Heywhale)社区的自有练习赛品牌,面向所有希望通过练习来提升自我、结识友人的数据科学领域人才,旨在打造一个新手友好、自由交流、开源分享的数据科学练习环境。


更多「DataJoy®」系列赛欢迎点击“阅读原文”了解


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/128217
 
202 次点击