这么多机器学习的应用场景，金融领域到底有何不同？

大数据文摘出品

编译：大芏、彭耀辉、茶西、汤圆、夏雅薇

在金融领域，机器学习可能会产生神奇的效果，尽管它本身并没有什么神奇之处(嗯，也许只是一点点)。然而，机器学习项目的成功更多依赖于构建高效的基础结构、收集适当的数据集和应用正确的算法。

机器学习正在对金融服务业产生重大影响。让我们来看看为什么金融公司会关心这项技术，以及使用人工智能和机器学习可以实现什么解决方案和如何应用这项技术。

定义

我们可以将机器学习(ML)看作是数据科学的一个子集，它使用统计模型洞悉内在规律并做出预测。下图解释了人工智能、数据科学和机器学习的关系。为了简单起见，我们在这篇文章中集中讨论机器学习。

机器学习的神奇之处在于，它们无需明确地编程就能从经验中学习。简单地说就是，选择模型并向它们提供数据，该模型能自动调整参数，以改善结果。

数据科学家用现有的数据集训练模型，然后将训练好的模型应用到现实生活中。

模型在后台运行，并基于以前的训练自动提供结果。数据科学家会尽可能频繁地对模型进行再培训，以保持模型的最优。例如，我们的客户Mercanto 每天都在重新训练模型。

一般来说，提供的数据越多，结果越准确。巧合的是，庞大的数据集在金融服务行业非常普遍。有很多关于交易、客户、账单、转账的pb级数据。这非常适合机器学习。

随着技术的发展和最佳算法的开源，很难想象不使用机器学习金融服务的未来。

大多数金融服务公司还不能从这项技术中获得真正的价值，原因如下:

公司往往对机器学习及自身的价值抱有完全不切实际的期望。
人工智能和机器学习的研发成本很高。
DS/ML工程师的短缺是另一个主要问题。下图显示了对人工智能和机器学习技能需求的爆炸式增长。
在更新数据基础设施方面，金融企业不够灵活。

随后我们会讨论如何克服这些问题。首先，让我们看看为什么金融服务公司不可忽视机器学习。

尽管存在挑战，许多金融公司已经采用了这项技术。如下图所示，金融服务业的高管们非常重视机器学习，他们这么做有很多原因:

自动化降低经营成本。
更高效的生产力和更好的用户体验从而创收。
更好的承若并提升安全性。

有许多开源的机器学习算法和工具非常适合金融数据。此外，老牌金融服务公司拥有大量资金，他们有能力在计算硬件方面加大投入。

由于金融领域大量的历史数据，机器学习可被用于增强金融生态系统的许多方面。

这就是为什么这么多金融公司都在大力投资机器学习研发。对于落后者来说，忽视AI和ML的代价是高昂的。

在金融中机器学习可以用在哪些场景？

让我们来看看未来机器学习在金融领域的一些应用。

过程自动化

过程自动化是机器学习在金融领域最常见的应用之一。该技术可以替代体力劳动，自动化重复任务，提高生产率。

因此，机器学习帮助公司优化成本，改善客户体验，扩大服务规模。以下是过程自动化在金融领域的应用实例:

聊天机器人
客服中心自动化
文书工作自动化
员工培训游戏化等等

以下是银行业务流程自动化的一些例子:

摩根大通(JPMorgan Chase)推出了一个利用自然语言处理(一种机器学习技术)的智能合同(COiN)平台。该方案可处理法律文件并从中提取重要数据。手工审查1.2万份年度商业信贷协议通常需要大约36万工时。然而，使用机器学习可以在几个小时内浏览相同数量的合同。

BNY Mello将过程自动化集成到他们的银行生态系统中。这项创新可每年节省30万美元，并带来了广泛的操作改进。

富国银行(Wells Fargo)通过Facebook Messenger平台使用一个由人工智能驱动的聊天机器人与用户交流，并提供与密码和账户相关的帮助。

Privatbank是一家乌克兰银行，在移动和网络平台上使用聊天机器人助手。聊天机器人加快了一般客户查询的速度，并减少了人工助理的数量。

安全

随着交易、用户和第三方集成数量的增长，金融领域的安全威胁也在不断增加。机器学习算法在检测欺诈方面也很出色。

例如，银行可以使用该技术实时监控每个帐户的数千个交易参数。该算法分析持卡人的每一个行为并尝试发现该用户行为背后的目的。这种模型能够精确地发现欺诈行为。

当系统识别到了可疑帐户行为，它可以向用户询问额外的认证信息来验证该笔交易。如果有95%的可能性是欺诈的话，甚至可以完全阻止交易通过。机器学习算法只需要几秒钟(甚至几秒钟)来验证一个交易。这种速度有助于实时阻止欺诈行为的发生，而不只是在行为发生后的鉴定。

财务监控是金融中机器学习的另一个安全用例。数据科学家可以训练该系统检测大量微支付，并标记诸如smurfing的洗钱技术。

机器学习算法也可以显著提高网络安全性。数据科学家训练一个系统来定位和隔离网络威胁，因为机器学习在分析数千个参数和实时方面的能力是有目共睹的。这项技术很有可能在不久的将来为最先进的网络安全网络提供动力。

Adyen, Payoneer, Paypal, Stripe,和Skrill 是一些著名的金融科技公司，它们在安全机器学习方面投入了大量资金。

人工智能技术在金融领域的应用现状

橙色及淡橙色方块表示已经应用相关技术或是在未来有相关计划

承保和信用评分

机器学习算法非常适合运用于金融和保险业中很常见的承保业务。

每个客户档案都有数百个数据条目，数据科学家对成千上万的客户档案建立模型。随后，训练有素的系统可以在现实环境中执行相同的承保和信用评分任务。这种评分系统可以提高相关从业人员工作的效率和精确度。

银行和保险公司拥有大量消费者历史数据，他们可以使用这些数据训练机器学习的模型。或者，他们可以使用大型电信或公用事业公司生成的数据集。

例如，BBVA Bancomer 正与一个信用评分平台Destacame合作。该银行旨在为拉丁美洲信用记录不足的客户提高获得信贷的机会。 Destacame通过开放API访问了公用事业公司的账单支付信息。通过对账单支付行为进行分析，Destacame为客户生成信用评分并将结果发送给银行。

算法交易

机器学习有助于改善算法交易中的交易决策。数学模型可以实时监控新闻消息和交易结果，并检测出可能导致股价波动的模式。随后，它可以根据自己的预测主动选择出售，持有或购买股票。

机器学习算法可以同时分析数千个数据源，远超人类交易员的极限。

机器学习算法可以帮助人类交易员获得略高于市场平均水平的优势。鉴于交易操作次数的频繁，这种优势通常会转化为巨额利润。

机器人顾问

机器人顾问在金融领域非常普及。目前，机器学习在咨询领域中主要有以下两种应用：

投资组合管理。这是一种在线财富管理服务，它使用算法和统计数据来分配、管理和优化客户的资产。用户输入他们目前的金融资产和目标，例如，在50岁时存够一百万美元。随后机器人顾问将根据风险偏好和期望目标在投资机会中分配现有资产。

金融产品推荐。许多在线保险服务商使用机器人顾问向特定用户推荐订制化保险服务。相较于个人理财顾问，客户往往更偏好费用较低的机器人顾问，以及个性化和校准的推荐服务。

如何将机器学习运用于金融？

尽管人工智能和机器学习有很多优点，但即使是财力雄厚的公司，也很难从这项技术中获取真正的价值。金融服务公司希望挖掘出机器学习的独特价值，但对于数据科学的运作原理以及如何使用它，他们仅有一个模糊的概念。

他们一次次面临相似的挑战，比如缺乏合理的业绩考核指标。这导致了不切实际的估算并耗尽了预算。仅仅拥有合适的软件基础设施是不够的（尽管这将是一个良好的开端）。要想成功地将机器学习运用于金融服务，你需要清晰的愿景，扎实的技术人才，以及提供有价值的机器学习开发项目的决心。

当你充分理解这项技术将如何帮助你达成目标时，你需要继续在思维层面进行验证。数据科学家的任务是对你的这个想法进行审查，帮助你制定可行的KPI并做出合理的估算。

值得注意的是，你需要确保所有相关数据都收集完毕。否则，您需要数据工程师来收集和清理这些数据。根据用途和业务状况，金融公司可以采用不同的方法应用机器学习:

放弃机器学习，转而专注于大数据工程

有时候金融公司在开发机器学习项目时想要实现的目标，只需要适当的数据工程就可以实现。资深数据科学家Max Nechepurenko ，在N-iX上评论：

“在开发数据科学的解决方案时，我建议使用奥卡姆剃刀原则，这意味着模型不应该过于复杂。大多数以机器学习为目标的公司实际上只需要关注可靠的数据工程技术，关注将统计学方法应用于聚合数据以及数据可视化。”

仅仅将统计模型应用于已经处理过的结构性数据就足以让银行摆脱其运营中的许多瓶颈和低效。

这些瓶颈包括什么呢？比如某个分行的排队问题，一些可以避免的重复性任务，低效的人力资源工作，手机银行APP的缺陷等等。

除此之外，任何数据科学项目中最重要的部分都是构建一个协调的平台生态系统，从数百个信息源（例如CRM，报告软件，电子表格等）收集分散孤立的数据。

在应用任何算法之前，你需要整理好数据的结构并对数据进行清理。只有这样，才能进一步地从这些数据中挖掘出有价值的信息。实际上，机器学习项目中80％左右的时间都花在提取、转换、载入和进一步清理数据上。

数据工程中提取、转换和载入数据的具体流程

使用第三方的机器学习解决方案

即使你的公司决定在即将开展的项目中使用机器学习，也不一定需要开发新的算法和模型。

大多数机器学习项目需要处理的问题都已经被解决。谷歌，微软，亚马逊和IBM等科技巨头将机器学习软件作为一种服务出售。

这些开箱即用的解决方案已经经过训练，可以解决很多种业务问题。如果你的项目涉及相同的应用场景，你认为你的团队可以超越这些有着庞大研发中心的技术巨头们所开发的算法吗？

Google的多种即插即用的推荐系统解决方案就是一个很好的例子。该软件适用于各种领域，你只需要检查它们是否适合你的案例。

机器学习工程师可以构建专注于特定的数据和业务领域的系统。专业人员需要从不同的信息源提取数据，并将这些数据进行处理以适合此系统，然后接收处理的结果并进行可视化。

你需要在对第三方系统的控制力和解决方案的灵活性之间权衡取舍。此外，机器学习算法并不适合所有的业务场景。资深数据科学家Ihar Rubanau 在 N-iX评论：

具有普适性的机器学习算法至今还未出现。数据科学家们需要在应用前根据各个领域不同商业案例的情况对算法进行调整。

所以如果Google的某个现存解决方案能够解决你所在领域的特定问题，你也许可以使用它。如果不能的话，就要着眼于定制化的开发与集成。

创新与集成

从零开始开发机器学习解决方案是最费时费钱又冒险的选择之一。然而，在某些商业案例中，这可能是应用机器学习技术的唯一途径。

机器学习的研发针对的是某一利基领域的特定需求，这需要深入的调研。如果没有现成的针对特定问题而开发的解决方案，第三方机器学习软件可能会产出不准确的结果。

从左到右：解决方案架构师、大数据架构师、大数据工程师、后端开发人员、前端开发人员、数据科学家、机器学习工程师、商业智能专家。

至今，你仍然可能需要高度依赖于Google及其他开源的机器学习库。当今的机器学习项目大多是将目前最先进的库应用在某一特定领域和用例中。

在N-iX，我们认为成功的企业机器学习研发项目有如下七个共同特质：

一个明确的目标。在收集数据之前，你至少需要对通过人工智能和机器学习能取得的结果有大体认识。在项目初期，数据科学家会帮助把你的想法转化成实际的KPI。
稳健的机器学习解决方案架构设计。你需要一个经验丰富的软件架构师来执行这一任务。
（基于Apache Hadoop或者Spark的）适宜的大数据工程生态系统是必须的。它可以收集，集成，存储，处理大量来源于金融服务公司的分散数据。大数据架构师和大数据工程师负责搭建这一生态系统。
在新建的生态系统中运行ETL流程（提取，转换，加载）。大数据架构师和机器学习工程师负责这一环节。
最终数据准备。除了数据转换和技术清理之外，数据科学家可能需要进一步提炼数据，使其适用于特定的商业案例。
应用恰当的算法创建模型，调整模型，并用新数据训练模型。数据科学家和机器学习工程师执行这些任务。
清晰的洞察可视化。商业智能专家负责这一部分。除此之外，你可能需要前端开发人员来设计易用的界面面板。
小的项目可能需要更少的努力和更小的团队。比如对于一些小数据集的研发项目来说，他们可能并不需要经验丰富的大数据工程师。在某些其他情况下，可能也并不需要复杂的控制面板和数据可视化。

重点回顾

金融机构经常使用机器学习来实现进程自动化与安全化。

在收集数据之前，你需要对通过数据科学获得的结果有清晰预判。需要在项目开始之前设置可行的KPI，并进行切实的估计。

很多金融服务公司对数据工程，统计和数据可视化的需求超过数据科学和机器学习。

训练数据集越大越干净，机器学习解决方案的结果就越准确。

你可以一边继续使用现有的机器学习算法，一边尽可能多训练你的模型。

并不存在广泛适用于不同商业案例的机器学习方案。

有机器学习功能的金融软件开发成本很高。

Google这样的科技巨头创造了机器学习解决方案。如果你的项目涉及这些用例的话，尽量用现成的，因为自己的算法优于谷歌，亚马逊或者IBM的可能性很低，

金融领域的机器学习和其他领域有何区别？

在我看来，主要的区别源于数据的不同。在金融领域，数据的噪声（非常）大，而且通常是不稳定的。“信号”不能用任何特定方法与噪声剥离，这是原则性问题。举例来说，这和图像处理就很不同，图像处理至少原则上可以控制噪声等级。

另外，图像处理也不存在不稳定数据这一概念。包括非概率模型在内的一些机器学习模型，因为噪声的显著影响，在金融领域难以发挥作用。

另一区别在于数据量。金融领域很多有趣的问题是关于中小型数据集的问题，这使得一些有很大数据需求的方法难以应用，比如深度学习。因此，金融上（根据使用方法）通过选择正则化，贝叶斯先验或者诸如对称性分析之类的其他一般原则来实施一些先验理论是很有必要的。

还有一个重要的区别是，金融上并没有很好地定义“真实”状态空间。有一些被称作黑天鹅的事件——金融模型之外的事物，例如政治风险，会对证券价格产生重大影响。

不确定性和概率（风险）有所不同。大部分机器学习模型（以及大部分经典金融模型）在定义良好的状态空间下应用概率系统——他们不承认黑天鹅的存在。他们是风险模型，但并非不确定模型。