Py学习  »  机器学习算法

聊一聊机器学习在金融中的应用

混沌巡洋舰 • 6 年前 • 891 次点击  

金融从业者少不了和数据打交道,因此天生希望能有工具帮助他们自动化数据处理的过程。这篇文章将从工程的角度,全面的梳理机器学习,尤其是深度学习应用在金融领域的机遇和挑战,通过展示在不同的应用场景下,当前的技术能够做些什么,帮助从业者系统化的了解AI+金融这个热点领域。


如何拆解AI+金融这个话题,从数据来源看,可以分为结构化与非结构化,后者主要指自然语言处理,从应用场景看,可以分为征信评级和行情预测 ,从模型来看,用的最多的是预测和回归,而其中最有挑战的是自动化交易中的强化学习,从数据处理流来看 预处理和模型构建过程中都能用到机器学习的方法。


让我们一个个来看,首先是自然语言处理和AI会有哪些结合了,这里又可以分成五类,第一类是用于客户服务的聊天机器人,当然聊天机器人也可以用来向顾客进行产品推荐;第二类是通过对社交媒体中的内容进行情感分析来预测市场行情的;第三类则是通过生成模型,自动提取例如上市公司的财报等公开数据中的关键信息,例如文因互联这家创业公司开发的产品。第四类则是通过知识图谱做用户画像,给不同的用户打上对应的标签,从而优化产品策略和个性化推广方案的设计;第五个应用场景是在数据的预处理阶段,通过深度学习将自然语言转换成向量,从而消除句子间的歧义,并在指代同一个事物的不同语句见建立联系,从而方便多维度数据的组合。


相比于无拘无束的非结构数据,结构化数据就是一张纸的表,而这也是传统的金融行业最经常处理的数据。每个人在一张表上是一条记录,而大数据则是让同一个人出现在不同的表上,再结合多张表上的弱信号,去预测这个人未来的行为。大数据不是指数据量有多大,而是指结合之前无法被有效利用的边角数据的一整套方法。对于金融行业来说,最经常做的就是借与贷。而为了控制风险,就需要征信模型了。



征信模型可以看成是一颗决策树,要判断那些人有借有还。而树模型也是征信中常用的一种模型。相比与其他领域的应用,金融领域的每一次错误预测都需要付出真金白银的代价,因此需要模型具有绝对的高可用性,这意味着模型不仅不能花费太多的时间,也不能因为用户人数的增加就使用简化而效果稍差的模型(模型的运行时间稳定),模型还需要对极端案例的判别也不能有系统性的误差。另外,由于可以征信模型可以使用的数据有很多来源,例如信用卡消费数据,社交网络上的连接关系,甚至包括在阅读类APP留下的阅读记录,征信模型需要能灵活的引入新的特征,而不必每次都从头开始。


正是由于如上的几个原因,深度学习在征信模型中还没有得到广泛的应用。深度学习训练出的模型相对来说是一个黑箱,人们难以理解模型为何做决策,而且深度学习的模型容易被恶意的攻破,而征信模型除了要对普通人进行信用打分,还需要应对欺诈风险和模型使用者的误操作风险。而例如随机森林 XGBoost这样的树模型,以及多重线性回归这样的传统方法,则能相对较好的满足上述的需求。


征信模型不止是打一个分这样的分类问题,还包括授予TA多少信用额度这样的回归问题。而在借与贷的另一个链条上,则涉及如何向顾客推荐理财产品,以提高转化率和客户满意度,这同样是一个分类问题,可用类似的方法解决。而在保险,企业贷等领域的应用,也可以算成是征信问题的变种。


接下来我们看看深度学习在金融市场中的应用,这里包括毫秒级进行自动化交易的高频交易算法和在更大的时间尺度上来预测市场未来的行情,例如neural finance(https://github.com/Metnew/neural-finance)。这方面学术界有很多探索,用到的既包括常用的处理时间序列的模型,例如RNN(点击查看介绍文章)LSTM,还包括非监督学习中的自编码器。


一个常见的工具包是bulbea,这个开源的python包不仅集成了股票市场的预测模型,还包括对模型效果的可视化工具。模型基于各股票的历史数据,计算股票未来的走势,模型使用起来很简单,还可以通过可视化展示模型的效果,下图展示了模型预测的误差是很低的。bulbea还集成了相应的API,可以对twiter中的句子进行情感分析,用社交媒体在的信息来指导交易。


接下来介绍liquidity.ai(https://github.com/BenjiKCF/Neural-Network-with-Financial-Time-Series-Data),一个基于tensorflow的开源的工具,集成了训练数据,数据预处理及LSTM模型。该模型会根据当前的行情,实时的给出对每个资产,是应该买入卖出还是持有的概率。这类的模型在真实世界中,看重的不是其预测的有多准确,而是交易员该如何综合的使用该模型给出的概率,以及其他的机器学习模型给出的预测,最终这个结合了诸多机器和人类智能的系统究竟能否赚钱。


总结一下,这篇小文介绍了机器学习在金融中的应用,部分例如反欺诈及数据安全方面的应用,这里没有介绍到,但也是一个有潜力的反向,而学界研究最热的,还是将强化学习的模式用在金融中,只是这方面的成果还无法走入工业界。另外需要提醒的是,深度学习不是万能药,在市场预测上,深度学习模型的表现不一定总会好于传统的方法,而且深度学习所需的时间资源和计算资源都远超传统方法,因此是一项高投入但高潜力的尝试。


接下来是福利时间,去年特训营的课程中的精华部分限时免费啦!






今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/eSFV6NdBKc
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/8842
 
891 次点击