社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
ChatGPT 助力科研,使您科研创新与效率双提升!
用Python优雅地写LaTeX
易点天下入选虎嗅智库大鲸榜AIGC数字营销技术商TOP15
从AIGC到AGI,为什么我们需要更多的“技术信仰派”?
ChatGPT,峰值已过?
香港科技大学(广州)机器学习基础实验室招收多名2024Fall/2025Spring博士生、研究助理...
免费课程:机器学习辅助材料模拟实践
开源机器学习编译器的“理想与现实” src:网页链接 -20240423084002
GitHub工业级开源软件:CAD 的官方源代码开放!
Open WebUI 私有部署本地chatgpt应用
关注
Py学习
»
机器学习算法
新手上路,就要从这5个机器学习项目开始
中兴数据智能
• 3 年前 • 297 次点击
大数据
/
人工智能
/
区块链
/ 数据库
/ 热点
纸上得来终觉浅,绝知此事要躬行。本文总结了适合新手的5个机器学习项目,帮助您从新手课程过渡到实际应用。中兴数据智能为您翻译如下。
Disha Misal | 撰文
数智君 | 翻译
许多人在完成机器学习的在线新手课程后,往往会陷入“接下去做什么”的困惑。大多数人期待以项目的形式来应用他们在新手课程中学习到的技能,而不是继续选择另一门类似或稍微进阶的课程,这为他们提供一个更好的渠道来将所学用于实际目的。
新手课程教什么?
我们考察了很多机器学习的在线新手课程,发现其中大多数是对诸如支持向量机(Support Vector Machine,SVM)和神经网络等基本算法以及机器学习的简单介绍。它们还强化了矩阵运算和线性回归等概念,完全引入了监督和非监督学习的基本概念。同时,使用编程语言(通常是Matlab、R、Python或Octave)完成一些作业也构成了一个部分。这些作业包括“文字识别”、“垃圾邮件分类器”、“电影推荐系统”等。
牢记箴言
著名的计算机科学家和企业家吴恩达(Andrew Ng)在被问及完成他的热门机器学习课程后可以做哪些项目时指出,获得新项目想法的绝佳方法是花时间研究之前的项目。他谈到了在研究不同类型的项目以创造该类别的新例子时,人脑是如何学习复制以前学到的例子的。他建议人们做新的、有趣的项目时,回看之前做过的喜欢的项目,以获得新项目的创意。
他还在Quora回答说,一旦项目完成,就可以在GitHub上撰写一篇Arxiv论文、一篇博客文章或将代码开源。这将有助于获得对项目的反馈,并帮助社区中的其他人学习此项目。他还建议花时间与人交谈——包括ML领域以外的专家,以激励新的项目。
从这些项目开始
下面列出了您在完成机器学习新手课程后,可以做的5个最佳项目:
1. 印度数据科学家工资预测
该数据集托管在MachineHack.com上。该数据集基于印度通过互联网发布的薪水和职位。训练和测试数据由下面提到的属性组成。数据集包含大量职位相关信息,如职位名称和职位所需的关键技能。根据给定的属性和薪资信息,构建一个预测岗位薪酬区间的健壮的器学习模型。
数据集下载:
https://www.machinehack.com/course/predict-the-data-scientists-salary-in-india-hackathon/
2. 鸢尾花分类
由于新手课程涵盖支持向量机(SVM),鸢尾花分类是一个非常流行的新手级别项目,可以帮助理解SVM算法。它用来对给定鸢尾花集中的鸢尾花进行分类。数据集由三个种类的花的物理参数组成:Versicolor,Setosa和Virginica。数据集所含的数字参数为:分隔宽度、分隔长度、花瓣宽度和花瓣长度。根据这些参数,来预测花的种类。数据由描述各个特征尺寸的连续数值组成,模型是基于这些数据训练的。
项目指南:
https://analyticsindiamag.com/start-building-first-machine-learning-project-famous-dataset/
数据集下载:
https://archive.ics.uci.edu/ml/datasets/iris
3. MovieLens 100K
由于推荐数据集也包含在新手课程中,可以做一个测试这些技能的项目。推荐系统有很多应用,从Youtube到Netflix,每个人都在使用它们来获得更好的浏览体验。MovieLens 100K就是其中一个例子。此数据集根据其大小在不同的时间段内收集。这是一个小数据集,可以用简单的推荐算法进行实验。
数据集下载:
https://grouplens.org/datasets/movielens/100k/
4. 土耳其学生评估
本项目旨在测试您对无监督学习的理解。这些数据是利用学校报告和调查问卷收集的。这些数据用来评估两所葡萄牙学校中学的学生成绩。数据集包括学生年级、年龄段、社会和学校相关特性等属性。
数据集下载:
http://archive.ics.uci.edu/ml/datasets/turkiye+student+evaluation
5. BigMart销售预测
另一个测试无监督学习的项目,目标是构建预测模型,并找出每个产品在特定零售店的销售情况。这是一个回归问题,数据包括销售商店的交易记录。所建立的模型用于理解在提高销售额方面起关键作用的产品和商店的特性。
原文链接:
https://analyticsindiamag.com/5-machine-learning-projects-you-should-work-on-after-completing-beginners-course/
* 本文为中兴数据智能翻译文章,转载请注明出处。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/72306
297 次点击
登录后回复