Py学习  »  机器学习算法

揭秘LinkedIn!全球最大的招聘推荐系统如何被机器学习驱动?

软件定义世界(SDX) • 4 年前 • 410 次点击  

热门下载(点击标题即可阅读)

☞【PPT下载】中国数据分析师行业峰会精彩PPT下载(共计21个文件)

大数据文摘出品

来源:towardsdatascience

编译:夏雅薇、Stats熊


LinkedIn是迄今为止市面上极受欢迎的招聘平台之一。来自世界各地的招聘者每天会从LinkedIn上网罗挑选适合他们招人岗位的候选人。


像LinkedIn Recruiter这款产品,就可以帮助招聘者创建并管理一个人才库,最大限度地提高招人成功率。这款产品的高效性能是通过一系列极其复杂的搜索和推荐算法来实现的,这些算法利用了最先进的机器学习架构,也考量了很多实际因素。



除了在构建一个世界上最有价值的数据集之外,LinkedIn一直在通过各种实验来突破机器学习技术,希望把人工智能的一流体验带入LinkedIn产品中。


招聘产品的推荐功能对LinkedIn的机器学习技术提出了很大的挑战。除了处理庞大且不断增长的数据集,招聘产品还需要处理很多随机且复杂的查询和筛选需求,并提供与之非常相关的结果。搜索环境是如此多变,以至于很难将这个问题简单转换为机器学习的模型来解决。以招聘产品为例,LinkedIn使用了一个包含三个因素的标准来描述搜索推荐模型需要实现的目标。


1.关联:搜索结果不仅需要返回给相关的候选人,还需要显示可能对目标职位感兴趣的候选人。


2.智能查询:搜索结果不仅应该返回匹配特定条件的候选人,还应该返回相近条件的候选人。例如,搜索机器学习应该返回在技能集中列出数据科学的候选人。


3.个性化:通常,为一家公司寻找到理想候选人考虑的因素并不在搜索条件里。还有些时候,招聘人员也不确定使用什么标准。个性化搜索结果是任何成功的搜索和推荐体验的关键因素。


LinkedIn招聘产品搜索和推荐体验的第四个关键标准不像前三个标准那么明显,它关注的是简单的衡量指标。为了简化推荐体验,LinkedIn对一系列关键指标进行了建模,这些指标是成功招聘的有效指标。例如,站内信阅读数量似乎是判断搜索和推荐过程有效性的一个明确指标。从这个角度来看,LinkedIn将这些数据作为衡量其机器学习算法优化程度的关键指标。

优化目标:接收到的站内信数量。从招聘者开始1、搜索 2、发站内信到候选人 ,然后候选人3、接受阅读并反馈给招聘者


科学:从线性回归到梯度增强决策树


LinkedIn Recruiter最初的搜索和推荐经验是基于线性回归模型。虽然线性回归算法很容易解释和调试,但它们在LinkedIn等大型数据集中找不到非线性关联。为了改善这种体验,LinkedIn决定使用梯度增强决策树(GBDT)来将不同的模型组合成更复杂的树结构。除了更大的假设空间外,GBDT还具有其他一些优点,如能够很好地处理特征共线性、处理不同范围的特征以及缺少特征值等等。


与线性回归相比,GBDT本身提供了一些切实的改进,但也未能解决搜索体验的一些关键挑战。有一个著名的例子,输入搜索牙医的请求,却返回了具有软件工程头衔的候选人,因为搜索模型优先考虑寻找工作的候选人。为了改善这一点,LinkedIn添加了一系列基于成对优化技术的上下文感知功能。从本质上讲,该方法扩展了GBDT的两两排序目标,以比较相同背景下的候选人,并评估哪个候选人更适合当前的情况。

Linkedin Recuriter的另一个挑战是,如何将应聘者与“数据科学家”和“机器学习工程师”等相关头衔匹配起来。仅使用GBDT很难建立这种相关性。为了解决这个问题,LinkedIn引入了基于网络嵌入语义相似特性的代表学习技术。在这个模型中,搜索结果将根据查询的相关性由具有类似职位的候选人补充。


可以说,LinkedIn Recruiter面对的最难解决的挑战是个性化。从概念上讲,个性化可以分为两大类。实体级个性化侧重于在招聘过程中考虑进去不同参与个体的偏好,如招聘人员、合同、公司和候选人。


为了应对这一挑战,LinkedIn采用了一种著名的统计方法,称为广义线性混合(GLMix),它使用推理来改进预测问题的结果。


具体来说,LinkedIn的招聘人员使用了一种架构,它结合了学习排名功能、树交互功能和GBDT模型评分。将学习到等级的特征作为预先训练的GBDT模型的输入,该模型生成编码为树交互特征的树集合和每个数据点的GBDT模型得分。然后,利用原始的学习排序特性及其以树交互特性和GBDT模型评分形式的非线性转换,广义线性模型可以实现招聘级和合同级的个性化。


LinkedIn招聘官所要求的另一种个性化体验是在当前搜索环节里的体验升级。利用离线学习模型的一个缺点是,当招聘人员审查推荐的候选人并提供反馈时,这些反馈是不会被采用到当前搜索环节里的。为了解决这个问题,LinkedIn Recruiter使用了一种被称为“多武器强盗模型”的技术来改进不同候选人群体的推荐。体系结构首先将工作的潜在候选人划分为技能组。然后,利用一个多武器强盗模型,根据招聘人员当前的意图来了解哪一组更适合,并根据反馈更新每个技能组中的候选人排名。

架构


LinkedIn Recruiter的搜索和推荐体验基于一个名为Galene的专有项目,该项目建立在Lucene搜索堆栈之上。上一节描述的机器学习模型有助于为搜索过程中使用的不同实体构建索引。


招聘人员搜索体验的排名模型基于一个具有两个基本层的体系结构。

L1:挖掘人才库,并对候选人进行评分/排名。在这一层中,候选检索和排序以分布式方式完成。

L2:改进入围人才,以应用更多的动态功能使用外部缓存。


在该体系结构中,Galene代理系统将搜索查询请求分散到多个搜索索引分区。每个分区检索匹配的文档,并将机器学习模型应用于检索到的候选文档。每个分区对候选项的子集进行排序,然后代理收集排序后的候选项并将它们返回给联邦服务器。连接使用附加的排序功能对检索到的候选项进行进一步排序,并将结果交付给应用程序。


LinkedIn是大规模构建机器学习系统的公司之一。LinkedIn Recruiter使用的推荐和搜索技术的想法与不同行业的许多类似系统有着惊人的相关性。LinkedIn工程团队发布了一份详细的幻灯片来展示他们是如何构建世界级推荐系统的。

相关报道:

https://towardsdatascience.com/inside-the-machine-learning-powering-linkedin-recruiter-recommendation-systems-7da503ad55c0



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍

后台回复志愿者”加入我们

读BD最佳实践案例,赢DT未来!

18各行业,106个中国大数据应用最佳实践案例:

(1)《赢在大数据:中国大数据发展蓝皮书》;
免费试读:https://item.jd.com/12058569.html

(2)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》;

免费试读:https://item.jd.com/12160046.html

(3)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;

费试读:https://item.jd.com/12160064.html

(4)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。

免费试读:https://item.jd.com/12058567.html

或点击“阅读原文”,购买“赢在大数据系列丛书”。

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100

BDAI100:大数据AI产业创新与投资百人会(BDAI100),致力推动1000家亿元BDAI企业涌现、推动BDAI与100万亿实体经济的深度融合、加速10万亿数据经济腾飞(简称“BDAI100十百千工程”)

CCTV大数据名人讲堂PPT&视频:万亿元大数据产业安全城市】【农业航运】【数据资产变现

DTiii:2233家大数据产业地图PPT及下载】【TOP100】【亿元俱乐部】【2233家详单

数据中台:凯哥八问颠覆数据工程师

院士:李国杰【( PPT)(全文)】【数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏梅宏

大数据100分:【金融】【制造 】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

大数据/人工智能数据竞赛:Kaggle经验分享NetFlix百万美金】【Kaggle案例】【2017BDCI】【2017BDCI嘉年华2018BDCI嘉年华滴滴算法大赛】

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复】【TOP100 】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK】【无人驾驶】【AI知识体系】【神经网络

区块链:TED视频】【麦肯锡】【毕马威】【高盛

算   法: 【10大经典算法】【推荐算法

数据科学家:13个真实场景数据科学应用案例数据科学家工具包,数据科学家成指南让统计"看得见"21个面试题和答案

可视化:【2017年获奖 2014年最佳】【十大标志性作品】【43款工具

PPT:【大数据产业地图】【数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【独角兽研究报告】【大数据投资2015创投趋势2014投资报告倒闭教训

人才:2018BD&人才报告2017BD&人才报告

大数据应用最佳实践案例:18个行业106个案例

原创: 陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易互联网+观点】。

专题版本:20190408V3.52

底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:sdxtime@126.com;

=>> 长按右侧二维码关注。

底部新增导航菜单,下载200多个精彩PPT,持续更新中!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/33788
 
410 次点击