社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

你的加密货币有价值吗?这里有一个深度学习ICO诈骗鉴别系统

机器之心 • 6 年前 • 286 次点击  

选自arXiv

作者:Shuqing Bian等

机器之心编译


随着区块链的热潮,加密数字货币正吸引着越来越多人的注意。然而,面对层出不穷的新「币种」,我们很难判断其投资价值,甚至会面临很大的欺诈风险。近日,香侬科技创始人、斯坦福大学博士李纪为联合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密数字货币 ICO 诈骗鉴别系统 IcoRating,试图帮助解决这一问题。这种新方法评估了市面上绝大部分加密货币的生命周期、价值变化与其 ICO 信息(包括白皮书、github 库、创始人信息)之间的关联,去预测并实现了很高的准确率。

引言

加密货币(如 BTC、ETH、NEO 等)正吸引着越来越多人的关注。与中心化电子货币和中心化银行系统相反,大多数数字代币不需要任何授权。这些去中心化系统通过区块链运转,区块链是一个开放、持续增长的分布式账本。加密货币的市场资本化在过去的三年中取得了显著增长,如图 1 所示。根据 CoinMarketCap.com 提供的数据,加密货币日最高交易量接近 2017 年纽约证券交易所的日均交易量。

因其去中心化的本质,加密货币众筹不需要满足风险投资的必要条件,而是经过 ICO。在 ICO 中,投资者用法定货币(如美元、人民币)或其他加密货币(BTC、ETH)来获得众筹的加密货币。ICO 后,这些众筹的加密货币成为具备货币功能的货币单元。新型加密货币发行前一般会先准备一个白皮书,详细介绍这个币的商业、技术和财政细节。如图 2 所示,ICO 项目的数量从 2013 年 7 月到 2017 年 1 月稳定增长,而 2017 年突飞猛进。

图 1: 市场资本化 v.s. 时间

图 2:新 ICO 项目的数量 v.s. 时间

尽管 ICO 项目可以提供公平的投资机会,众筹的便捷性给肆无忌惮的企业创造了使用 ICO 进行「拉高出货」的机会。也就是说 ICO 的发起人抬高了众筹加密货币的价格(「俗称拉盘」),然后迅速出售加密货币来获利(「俗称砸盘」)。此外,加密货币的去中心化本质对政府监管带来了极大的挑战。根据 Engadget 的数据,2017 年,902 个基于众筹的数字货币中 46% 都失败了。图 3 和图 4 展示了一个更严重的问题。图 3 和图 4 中 x 轴上每一个间隔(bucket)表示价格改变范围,y 轴上对应的值表示 ICO 项目的百分比。可以看到的,4.56% 现有 ICO 项目在发行半年后都遭受了价格下跌,下跌程度超过令人发指的 99.9%,一年后该比例甚至上升到了 6.89%。大约 29% 的项目在半年后价格下降超过 80%,一年后这一比例上升到了 39.6%。虽然说每一个价格骤跌的 ICO 项目都是诈骗是不确切的,但构建一个可靠的 ICO 信用评级系统在 ICO 之前对数字货币进行评估是必要且紧迫的。

图 3: ICO 项目百分比 vs 半年后价格变化

图 4:ICO 项目百分比 vs 一年后价格变化

本论文提出 IcoRating,一种基于机器学习的 ICO 评级系统。通过分析 2251 个 ICO 项目,研究者关联了数字货币的生命周期和价格变化与不同级别的 ICO 信息,包括白皮书、创始团队、GitHub 库、网站等。通过整合不同种类的信息,该模型能够以 0.83 的准确率和 0.80 的 F1 分数预测一个 ICO 项目能够在 ICO 半年以后依然存活。

IcoRating 是一个基于机器学习的系统。与人类评级系统相比,IcoRating 有两大强项:(1)客观性:机器学习模型包含更少的先验知识,可以从数据中学习因果关系,这与需要大量人类专家的人类评级系统相反,且人类专家不可避免会引入错误。(2)不会被肆无忌惮的人随意篡改:该信用评级结果是机器学习模型通过黑箱训练得到的输出。该过程涉及极少的人为操作。

希望这个工作可以鼓励大家更多地分析和评估 ICO 项目的质量,并且可以潜在地帮助投资者识别哪些是 ICO 项目诈骗。

本论文其余部分的结构如下:第二部分简要概述加密货币、区块链和 ICO。第三部分介绍了 ICO 项目数据集的构建过程,并且提供了一些基本的数据分析。第四章介绍了论文提出的机器学习模型,第五部分是简短总结。

加密货币、区块链和 ICO

加密货币

加密货币是「一种数字资产,旨在作为交换媒介,使用加密技术来保护其交易。」大多数加密货币使用去中心化控制。第一个去中心化的加密货币是比特币(简称 BTC)(Nakamoto, 2008),由一个或一群不明身份的人用 Satoshi Nakamoto(中本聪)的名字于 2009 年创建。自 BTC 出现后,多种加密货币被创造出来,最著名的包括 Ethereum、Ripple、EOS 和 NEO。

区块链

加密货币的交易由区块链进行验证。人们可以将区块链视为分布式账本,它不断增长并永久记录两方之间的所有交易。每条记录叫作一个块,包含链接到前一个块、时间戳和交易数据的加密哈希指针。账本以分布形式被所有参与者拥有,且记录只能在改变所有后续网络块的情况下得到更改。交易被广播给网络中的所有节点。区块链使用多种时间戳方案,例如工作量证明或股权证明。区块链概念消除了数据集中储存的风险:它没有中心故障点,数据对每个参与者都是透明的。

ICO

ICO 是以加密货币为中心的众筹融资手段。在 ICO 中,众筹加密货币(主要以代币形式)被转移给投资者,以换取法定货币或其他加密货币。当 ICO 的融资目标达到时,这些代币就成为具备货币功能的货币单元,可用于交易货物或者其他加密货币。

ICO 为早期项目提供众筹机会,以逃避风险投资家、银行和证券交易所的规定。它们还提供了超越风险投资或私募股权投资的投资机会,二者是早期投资机会的主导。另一方面,由于缺乏监管,ICO 给投资者带来了重大风险。不同的国家对 ICO 和加密货币有不同的规定。例如,中华人民共和国政府禁止所有 ICO,而美国证监会(SEC)则表示它有权对 ICO 应用联邦证券法,而委内瑞拉政府则推出了自己的加密货币 petromoneda。

数据集构建、处理和分析

研究者收集了 2251 个 ICO 项目的信息,包括白皮书、网站信息、ICO 时的 GitHub 库,以及创始团队。我们从多个提供商处获取数据,提供商包括 CryptoCompare、CoinMarketCap 和 CoinCheckup。

LDA

研究者在收集到的白皮书上运行了一个潜在狄利克雷分布(LDA)模型(Blei et al., 2003)。LDA 是一个生成统计模型,解释了具备基于词共现的词丛(即「topic」)的文本文档。每个文档以潜在主题的概率分布形式呈现,每个潜在主题都是词的概率分布。LDA 的生成过程如图 5 所示,过程图示见图 6。

图 5:在收集到的白皮书上运行 LDA 模型。

图 6:LDA 模型概览。假设我们有 M 个白皮书、K 个主题、V 个不同单词。每个白皮书 m ∈ M 都有文档-主题分布 θ(M × K 矩阵)。每个主题 k ∈ K 都有主题-单词分布 φ(K × V 矩阵)。

ICO 评级模型

IcoRating 是一个基于机器学习的评级模型。这里使用的模型是监督学习模型。在标准监督学习设置中,研究者希望找到模型 F,可使输入 x 映射至输出 y:

输入 输入 x 是 ICO 项目,包括其公开可获取的各方面信息。

表 2:不同 LDA 主题的 top word,以及分配至该主题的加密货币。

输出 输出 y ∈ {0, 1} 是一个二分变量,表示输入 ICO x 是否为诈骗项目。这里的关键问题是如何确定 ICO 项目是诈骗项目。本文认为如果数字货币在其 ICO 一年后下跌 80%,则该 ICO 项目是诈骗项目。换言之,通过检查数字货币的历史价格,如果数字货币一年后的价格不到初始价格的 20%,则我们认为该 ICO 项目是诈骗。在收集到的 2251 个项目中,研究者收集了 1482 个项目的历史价格,且这些 ICO 项目都实施至少一年(截止到本研究进行时)。

结果

实验结果展示了使用不同的特征组合识别 ICO 诈骗项目的结果。随着 m 值从 0.01 逐渐提升至 1,诈骗项目的比例也逐渐增加,查准率不断提升,召回率逐渐降低。实验显示,白皮书和 GitHub 库是最重要的两类特征,在 m 值分别为 0.1 和 0.5 时 F1 分数都达到了 0.7。研究者考虑了更多特征,能够逐渐获得更好的查准率和召回率。研究者使用所有类型的特征,在 m=1 时预测 ICO 诈骗项目达到了 0.83 的查准率、0.77 的召回率和 0.80 的 F1 分数。

表 5:识别 ICO 诈骗项目的结果。

论文:IcoRating: A Deep-Learning System for Scam ICO Identification

论文链接:https://arxiv.org/pdf/1803.03670.pdf

摘要:加密货币(或数字代币、数字货币,如比特币、以太币、 XRP 和 NEO)近年来在公众使用、看重程度和理解方面增长迅速,为投资者带来了惊人的利润。与其他货币或银行系统不同,大多数数字代币无需中央授权。这种去中心化的方式对信用评级构成了重大挑战,大多数 ICO 项目目前不受政府监管,这意味着我们急需一种值得信赖的 ICO 评级系统。

本论文介绍了 IcoRating,第一个基于机器学习的加密货币评级系统:我们分析了目前 2251 种数字货币,并评估了货币的生命周期、价格变化与其 ICO 信息之间的关联,ICO 信息包括白皮书内容、创始团队、GitHub 库和网站。该系统预测 ICO 诈骗的准确率达到了 0.85。

我们希望该研究可以帮助投资者识别 ICO 诈骗,同时引出更多对 ICO 项目的分析与评估研究。


点击阅读原文,从技术到产品体验搜狗机器翻译



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/3lHR5LHCN5
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/8714
 
286 次点击