Python社区  »  机器学习算法

纳尼?机器学习帮我提高申请成功率?

TFT小组 • 3 月前 • 48 次点击  



星标🌟 / 置顶🔝TFT小组


才不会错过有趣的灵魂和Dream School


本文大约2400字,阅读需要6分钟






众所周知,申请国外研究生是一个“三费”的过程——费钱、费时、费力。很多同学说,整个过程就像在打仗,努力、坚持、忍耐等许多因素都起着重要作用,可是学校录取委员会却看不到我们背后的故事。



作为申请者,我们永远摸不清招生官的心思,那我们有什么可以展示给他们呢?GRE、TOEFL及GPA等标化成绩,推荐信、个人陈述、科研经历可谓是申请者的制胜武器,但这些不是招招制敌的,申请者也无法让自己成为所有方面都无可挑剔的完美者。


所以,当无法满足所有条件时,申请者应该侧重于哪个或哪些方面呢?



今天我们就Kaggle平台上的一篇机器学习文章来讨论一下这个话题。


首先,我们来为小白同学科普一下kaggle



Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。研究者们提出的众多策略可以用于解决几乎所有预测建模的问题。


Kaggle通过众包形式来试图探索什么方法对于特定问题是最为有效的,进而使数据科学成为一场运动。


我们在Kaggle平台研究生录取问题版块选取了获赞数最高的一篇机器学习文章,让我们一起来看一下申请者应该如何把自己包装的更完美。



文章需要一定的机器学习理论基础,如果你对机器学习一脸懵,可直接跳到文末看亮点结论



以下为kaggle平台正文内容:


数据准备


作者采用400个印度学生样本建立数据集,建立该数据集目的在于通过八项重要参数预测申请者录取机会。参数包括以下:

 GRE成绩(满分340分)

 TOEFL成绩(满分120分) 

☑ 本科大学评分(满分5分) 

☑ 个人陈述(满分5分) 

 推荐信(满分5分) 

 本科GPA (满分10分) 

 科研经历(有(1) 无(0)) 

 录取机会/录取率(范围0-1)


(八项参数之间的相互关系图)


【结论】CGPA、GRE成绩及TOEFL成绩这三项参数与录取机会相关性较高;科研经历、推荐信、个人陈述对录取机会影响较小。


看来不好好学习连学校门把手都摸不着。



【各参数具体分析】



TOEFL分数:在400个申请者中,最低TOEFL分数是92分,最高则是120分,平均TOEFL分数是107.41分。


GRE分数:作者用柱状图展示了GRE成绩分布频率,其中密度集中在310-330分。当超过这个范围时,申请者会因为GRE参数指标水平很高脱颖而出。作者同时通过散点分布图得出结论:有高GRE分数的申请者往往拥有高CGPA。


CGPA及本科大学排名:申请者本科大学得分升高时,其CGPA分数也相应升高。


本科大学排名:本科大学排名对申请者研究生录取率有影响。


个人陈述:申请者拥有高GRE分数或/和高CGPA往往在个人陈述上也表现优秀。

科研经历:在这个数据集中的大部分申请者均具有科研经验。因此,在本数据集中,科研对于硕士录取率是次要参数,录取率和科研经历的相关性较其他指标相关性来说低很多。


咳咳!重难点知识来了!

陈独秀同学你坐下。



机器学习算法


回归算法(监督机器学习算法)



1.准备回归数据

把数据分为随机训练集(80%)和测试集(20%)。

特征归一化(最小-最大量化):将所有值落在固定范围内(0-1)。


2.回归评价指标:R^2,最佳值为1,越靠近1说明模型的效果越好。


3.比较不同回归算法结果:

线性回归R^2≈0.82,随机森林回归R^2≈0.81,决策树回归R^2≈0.63

线性回归和随机森林回归算法优于决策树回归算法。


(但是需要注意的一点,本数据库大部分申请者都保持着70%以上的录取概率,所以回归算法对于低录取率申请者效用不高。)


分类算法(监督机器学习算法)



1.准备分类数据

如果样本申请者录取率大于80%,标记该样本为1;如果样本申请者录取率小于或等于80%,标记该样本为0。


2.评估算法准确率的可视化工具:混淆矩阵(confusion matrix)。


【混淆矩阵】以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。对于常见的二分类,它的混淆矩阵是 2x2 的。在二分类中,可以将样本根据其真实结果和模型的预测结果的组合划分为真阳性(true positive,TP)、真阴性(true negative,TN)、假阳性(false positive,FP)、假阴性(false negative,FN)。根据 TP、TN、FP、FN 即可得到二分类的混淆矩阵。



性能评价指标:精确率,召回率,F1值


【精确率】P = TP/(TP+FP) ; 反映了被分类器判定的正例中真正的正例样本的比重


【召回率】R = TP/(TP+FN) = 1 - FN/T; 反映了被正确判定的正例占总的正例的比重


【F1值】F1 = 2 / ((1/P)+(1/R));同时考虑精确率和召回率,指标 F1值是精确率和召回率的调和平均


3. 应用的分类算法:逻辑回归,支持向量机(SVM),高斯朴素贝叶斯算法,决策树分类,随机森林分类,K最近邻(KNN)分类。


4. 比较不同分类算法结果:所有分类算法都达到了90%左右成功率,其中高斯朴素贝叶斯算法达到了最高成功率96%。


聚类算法(非监督机器学习算法)



1.准备聚类数据。


2.比较不同聚类算法结果:K均值聚类与层次聚类效果类似。



参数相关性分析将数据集中的八个参数结合K均值聚类和层次聚类结果进行相关性分析。


得到了相似的结论:CGPA,GRE成绩及TOEFL成绩与录取率的相关关系最高,其次是科研经历,推荐信及个人陈述。


亮点结论


作者使用该数据集,运用各种机器学习算法分析是为了帮助学生在已有个人资料的基础上更快、更好地在申请过程中选择适合自己的学校。


相关预测结果可以给予学生对于进入申请学校的成功率有一个更客观公正的认识。


我们通过该篇文章了解到:CGPA、GRE成绩及TOEFL成绩最具有代表性且解释力最高,在录取中起着至关重要的作用。


此外,当申请者提供出各项指标参数时,使用不同的算法可以得到不同的预测准确度。




文章数据集及内容仅起参考价值,但托福的重要性在申请过程中始终不言而喻。


在这条艰难的申请之路上,TFT小组一直陪伴着你。



通知


TFT机器学习小组6月15日火爆上线


带你玩转机器学习!

扫码获取“机器学习”小猪手微信,在线咨询


文章链接:https://www.kaggle.com/hidede/graduate-admissions/


Citation:Mohan S Acharya, Asfia Armaan, Aneeta S Antony : A Comparison of Regression Models for Prediction of Graduate Admissions, IEEE International Conference on Computational Intelligence in Data Science 2019


喜欢记得点个赞👇





Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/34298
 
48 次点击  
分享到微博