综述：深度学习用于加密货币预测

1. 引言

传统金融生态系统通过一系列复杂的政策和结构机制来运作，这些机制由金融机构利用，以在经济中创造货币。该系统的核心是中央银行、国库和商业银行，它们被归类为三种主要的货币框架：基于商品的、基于商品支持的以及法定货币系统。由于这些机构存在通货膨胀倾向和交易效率低下等缺陷，货币的数字化已成为一场革命。加密货币旨在纠正现有系统的缺陷，如通货膨胀、金融稳定性、交易效率和降低运营成本。加密货币是一种点对点的数字交换系统，利用加密技术来创建和分配货币单位。

加密货币市场在其短暂的存在中经历了快速且不可预测的变化。其安全性由一种称为区块链的技术保障，该技术提供了全面的安全保障。截至2024年，加密货币行业已有超过5000种加密货币和580万活跃用户。由于其将密码学与货币单位相结合的固有特性，比特币（BTC）成为最受欢迎的加密货币，并在计算机科学、经济学和密码学等领域引起了关注。Satoshi Nakamoto在2009年1月以开源软件的形式匿名引入了比特币。涵盖比特币和替代币（如Civic和BitDegree）的加密货币生态系统，标志着向去中心化金融体系迈出了重要一步。

然而，由于其去中心化的性质和缺乏政府支持，加密货币市场容易出现价值的大幅波动和定价泡沫的形成。加密货币的固有波动性，包括交易量波动和价格变化，使得预测分析变得复杂。然而，波动性使其成为投机的有利可图的市场，因为它是潜在收益的来源。主要的加密货币，如比特币（BTC）、以太坊（ETH）和莱特币（LTC），在估值、交易速度、用途和波动性方面有所不同。由于该行业的显著波动性，确定这些价格趋势的确切催化剂仍然难以捉摸。尽管如此，加密货币的市场价值预计将在未来增加，预计复合年增长率为11.1%。

与此同时，金融审计部门正在发展，以将加密货币整合为有效的交易媒介。由于价格泡沫导致极端波动，投资者在之前的实例中遇到了挑战。为了克服这些障碍，必须有一个可靠的模型来帮助市场参与者识别趋势并生成准确预测。由于加密货币对多种因素敏感，包括政府政策、技术进步、公众认知和世界事件，因此精确预测加密货币价格是困难的。

一些研究人员正在肯定加密货币与其他领域（如经济学、金融、互联网甚至政治）之间的相关性。机器学习和深度学习模型由于其预测能力和对多模态时空数据和时间序列预测的建模能力，对于加密货币来说是有前景的。

2. 文献综述

2.1 金融时间序列预测

金融时间序列预测的重点是预测资产价格。尽管有多种方法，但主要关注点一直是使用深度学习模型预测底层资产的未来走势。这一领域涵盖了许多主题，包括股票价格预测、指数预测、外汇价格预测以及商品（如石油和黄金）、债券价格、波动性和加密货币价格的预测。尽管主题范围广泛，但这些预测中应用的基本原理在所有类别中都是普遍适用的。

金融时间序列预测的研究大致分为两类：精确价格预测和趋势（方向性变动）预测。尽管精确的价格预测符合回归任务，但许多金融预测项目的主要目标并不是准确预测价格，而是正确识别价格变动的方向。这将重点转向趋势预测，或确定价格的方向性变化，使其成为比精确价格预测更为关键的调查领域。因此，趋势预测被视为一个分类问题。一些分析侧重于二元结果，只关注向上/向下的变动，而另一些则包括第三个类别（中性选项），从而构成一个三分类问题。

近年来，研究人员利用机器学习和深度学习来分析金融时间序列数据。深度学习模型在股票市场趋势预测中表现出更高的准确性。研究人员使用LSTM模型结合网格搜索和前向验证来增强NIFTY-50印度股票指数预测，并取得了显著的准确性。深度学习与频率分解方法（如经验模态分解（EMD）和完全集合经验模态分解（CEEMD））相结合，用于预测股票价格，并证明了CEEMD-CNN-LSTM和EMD-CNN-LSTM的有效性。

2.2 加密货币预测

一些研究人员采用了机器学习模型，如简单神经网络（SNN，也称为反向传播）和人工神经网络、支持向量机（SVM）、基于遗传算法的SNN以及通过增强拓扑的神经进化（NEAT），它同时进化架构和神经网络参数。

接下来，我们回顾了一些在预测加密货币价格方面至关重要的机器学习模型。研究表明，神经网络在比特币价格预测方面优于线性回归、逻辑回归和支持向量机（SVM）。研究人员使用自回归分布滞后（ARDL）和S&P50指数研究了市场因素对各种加密货币的影响。通过时间混合模型改进短期比特币波动性预测，优于传统方法。研究人员调查了链状物的预测性格兰杰因果关系，并确定了某些类型的链状物对比特币价格和投资风险具有最高的预测影响。使用ARIMA、自回归和移动平均模型预测比特币加权成本的短期波动性。

2.3 深度学习模型在加密货币预测中的应用

近年来，深度学习模型在加密货币预测中占据了重要地位。研究人员结合CNN和强化学习进行投资组合管理，利用历史加密货币定价数据在指定的组合约束下优化资产配置。通过在LSTM网络中利用自回归特性提高比特币预测准确性，优于标准LSTM。研究人员引入了一种新方法，采用逆强化学习结合基于代理的建模来预测比特币价格。LSTM网络被用来预测比特币趋势，展示了模型预测价格变化和分类市场走势的能力。

2.4 加密货币波动性和预测

一些研究人员专注于分析和预测加密货币的波动性。加密货币市场的波动性是影响商业和金融领域众多决策的重要因素。最近，已经确定了加密货币市场与其他金融市场之间的波动性溢出。研究人员使用非对称对角BEKK模型检查了加密货币市场的波动性动态，揭示了主要加密货币（如比特币、以太坊、瑞波币、莱特币和恒星币）的波动水平之间的显著相互依赖性和对重大新闻的响应。

3. 方法论：实现与评估

3.1 传统模型

3.1.1 ARIMA

ARIMA模型，通常被称为Box-Jenkins模型，是一种常用的统计/计量经济模型，用于预测时间序列数据。ARIMA模型由三个组成部分组成：自回归（AR）、积分（I）和移动平均（MA）。积分部分表示将系列数据转换为平稳表示所需的差分次数。自回归部分描述了时间序列的当前值与其先前值之间的关系，捕捉了它们的关联性。移动平均部分表示当前观测值与其先前误差项之间的关联性。这个组成部分帮助模型捕捉时间序列中的随机变化。这三个组成部分构成了模型中的三个参数、和。代表自回归部分中的滞后观测数量。是差分阶数，形成积分部分，是移动平均部分中的滞后预测误差数量。

3.1.2 多层感知器

简单的神经网络，也称为多层感知器，是一种机器学习模型，具有输入层、输出层和至少一个隐藏层。MLP需要使用训练算法来更新权重和偏置，以确保网络的输出（预测）类似于实际观测（训练数据）。网络通过计算输入的加权和来得到隐藏层和输出层。

3.2 深度学习模型

3.2.1 LSTM网络的变体

RNN以其建模时间序列的能力而闻名，其特点是具有上下文层，因为它记忆了先前输入的信息以影响未来结果。有几种简单的RNN架构，例如Elman RNN（也称为简单RNN），这是有效建模时间序列的最早尝试之一。然而，简单的RNN在训练中遇到了问题，这是由于在处理序列数据中的长期依赖性时出现的梯度消失问题。LSTM算法被认为是RNN的增强版本。LSTM通过增强其通过隐藏层中的记忆单元保留长期依赖性的能力，克服了梯度消失的约束。

双向LSTM（BD-LSTM）是一种基于LSTM的高级算法，它使用两个独立的隐藏层双向处理信息。基本的想法是每个输入序列在正向和反向都通过RNN传递一次。这种双向架构为输出层提供了输入序列中每个节点的完整过去和未来上下文信息。与LSTM相比，BD-LSTM在需要从两个时间方向获取上下文的某些应用中表现出更高的效率，这在自然语言处理和语音识别领域尤为明显。

编码器-解码器LSTM（ED-LSTM）可以根据输入序列输出所需的序列（序列的长度可以不同）。ED-LSTM对原始LSTM进行了特定的架构更改，以更好地处理一系列称为序列到序列的问题。ED-LSTM非常适合将某种语言翻译成不同的语言。

3.2.2 卷积神经网络

CNN是最著名的深度学习模型之一，最初设计用于计算机视觉和图像处理任务。CNN通常包括几个层，包括卷积、池化和全连接层。全连接层类似于传统的神经网络，确保连续层节点之间的密集互连。CNN通过迭代卷积和池化来识别数据中的分层模式（特征），最终在完全连接的层中整合这些特征以输出最终任务的结果。这种结构设计对于它们在处理与图像处理相关的任务中的熟练程度至关重要。

3.2.3 卷积LSTM网络

卷积LSTM（Conv-LSTM）网络最初是为天气预报问题引入的。该网络扩展了原始的全连接LSTM，并将LSTM单元的矩阵乘法更改为卷积。我们使用来表示卷积操作。Conv-LSTM单元中的关键方程表示为：

其中和分别指遗忘门、输入门、输出门和隐藏状态。是随着一起调整学习的权重矩阵，是偏置。此外，过去的状况可以在过程中被视为“遗忘”，而是当前的细胞记忆。

3.2.4 Transformer网络

Transformer模型是编码器-解码器LSTM架构的扩展，已广泛应用于机器翻译问题。编码器将输入序列的基本数据压缩成一个固定长度的向量，随后由解码器将其转换为输出。解码器的设计提供了一种处理长序列数据的方法。

我们输入序列数据到向量表示层。给定输入序列，维嵌入层通过一个密集网络生成矩阵。

我们需要将时间编码与向量化的输入结合起来，以封装时间序列的时间结构。因此，我们使用不同频率的正弦和余弦函数来表示时间信息，我们定义：

其中。因此，时间编码是 TE 。然后将向量表示与时间编码连接起来，并提供给编码器层。

我们模型的完整框架的简要概述在图7中描述。图7中所示的编码器由个结构相同的层组成。每个层都配备了两个子层：多头自注意力机制和全连接的前馈网络。这两个子层都包含残差连接和归一化，以增强其功能。解码器，如图7所示，也反映了编码器的结构，但有一个显著的区别：它具有一个额外的多头自注意力层。与[117]中描述的原始解码器不同，这个版本省略了掩码注意力机制，因为它只处理观察到的历史数据，不包括未来信息。

注意力机制的出现标志着深度学习中的一个重要创新，它将计算工作集中在捕捉认知中的注意力机制。Vaswani等人[117]通过引入基于独家使用自注意力机制的Transformer架构，彻底改变了这种方法。自注意力机制的定义如下：

其中对应于从同一输入的三个独立线性变换中得到的查询、键和值矩阵。自注意力机制的架构如图7所示。

自注意力机制改变了关注数据中重要局部内容的策略。Vaswani等人[117]扩展了这个想法，提出了多头注意力，即并行执行多个自注意力过程，或“头”，每个头评估查询、键和值的不同投影版本。然后将这些头的综合结果线性转换以获得最终输出。

4. 结果

在本节中，我们提供有关数据集的全面信息，并提出研究设计与计算结果。

4.1 数据分析

我们调查了选定四种选定加密货币的趋势，涵盖了COVID-19的所有阶段，包括其开始、传播和衰退。图10显示了选定时期内比特币、以太坊、狗狗币和莱特币的收盘价，粉红色阴影区域表示COVID-19。我们可以观察到，每种加密货币的收盘价在红色区域内都表现出大幅波动。莱特币在COVID-19开始前经历了显著的波动，而其他三种加密货币（比特币、狗狗币和以太坊）在COVID-19前的价格波动并不显著。这表明，COVID-19之后，加密货币的价格比之前更加波动。我们观察到，以太坊的趋势在COVID-19之前和期间与比特币高度相关。从2020年到2022年，价格显著上涨，随后下降，然后在比特币和以太坊的情况下再次上涨。接下来，我们在图11中展示了月度波动图，我们观察到，以太坊和莱特币在COVID-19期间（粉红色突出显示）通常低于10%。我们还展示了同一时间比特币的月度波动低于6%；然而，狗狗币在COVID-19期间呈现不同的趋势。2021年1月和5月，狗狗币的月度波动率达到了20%以上。在其他月份，它始终保持在15%的水平。我们的分析表明，四种加密货币的波动模式表明，在高波动性时期之后的次月，波动性显著下降。COVID-19期间的月度波动性通常与疫情前（2018年至今）的月度波动性相似。尽管月度波动性没有显著变化，但在整个时期内查看每日收盘价时，它会显著波动。

由于我们将开发一个多变量模型，我们还需要提供对加密货币的不同特征（低、高、开放和收盘价）与黄金价格的关联性的分析。图12显示了使用Pearson相关性在每种加密货币的多变量模型的特征之间的相关性。我们观察到，关闭价与低价、高价和开盘价高度相关。我们观察到，黄金与其他特征之间的相关性较低；然而，我们将黄金用于我们的多变量模型，因为它是加密生态系统之外但与之相关的外部数据。我们还发现，黄金价格与比特币的相关性最高，其次是以太坊和莱特币，与狗狗币的相关性最低。图13显示了包括给定加密货币的收盘、高、低和开盘价与黄金价格以及最相关的其他加密货币（使用图12）的Pearson相关性，在比特币的情况下，即图13 -面板（a）。我们将使用这个进行多变量预测策略，使用图8所示的数据处理。

4.2 结果：COVID-19之前

接下来，我们实施了在框架（图9）中概述的步骤4（实验1）的调查，我们比较了选定的深度学习模型以及使用COVID-19之前的训练数据集的单变量和多变量策略。请注意，我们的测试数据集包括COVID-19的第一阶段（表7）。

我们展示了每种预测范围（步骤）从30次独立实验运行中获得的平均RMSE和95%置信区间的结果，这些运行使用不同的初始权重和偏置进行模型训练。我们注意到，稳健性是指对预测的信心程度，它通过较低的置信区间表示。此外，可扩展性是指随着预测范围的扩大，保持恒定的性能的能力。我们的主要关注点是测试数据集上的性能（RMSE），无论是5个预测范围的平均值，还是各个预测范围。因此，在其余的讨论中，我们关注的是测试数据集。

我们首先使用比特币数据来评估传统模型（MLP和ARIMA）与深度学习模型（LSTM、ED-LSTM、BD-LSTM、CNN、Conv-LSTM、Transformer），用于单变量（图14）和多变量策略（图15）。结果表明，MLP和ARIMA的表现不如深度学习模型。MLP表现出缺乏稳健性，而ARIMA模型在与深度学习模型相比时，在测试预测准确性方面遇到困难。我们注意到，ARIMA在训练数据集上表现最好，这是由于过度训练，并且在泛化能力方面遇到困难。深度学习模型的结果与Chandra等人[40]的发现一致，即深度学习模型的预测准确性优于传统机器学习模型，用于多步前向时间序列预测。每个模型的预测性能显示出一个趋势，即最佳多变量策略（ED-LSTM）在预测范围变化时提供了与单变量策略（BD-LSTM）一致的准确性。在图15中，多变量策略显示Conv-LSTM提供了最低的预测准确性，而ED-LSTM和BD-LSTM模型提供了最准确的预测。在图14中，与多变量策略的结果相反，最稳健的单变量模型预测比特币是Conv-LSTM。

5. 讨论

我们首先回顾了第一个实验的结果，该实验调查了没有COVID-19数据的模型性能。我们的结果表明，Conv-LSTM与多变量策略在四种不同的加密货币中提供了出色的预测性能。我们还注意到，在所有加密货币中，单变量模型的表现不如多变量策略。单变量策略在准确性上通常优于多变量策略（表10和11）。我们发现，具有高预测准确性（较低RMSE）的模型通常伴随着较窄的置信区间（例如，图22）。相反，较高的RMSE值通常导致模型的稳健性较低，即较高的置信区间。随着预测范围的增加，预测准确性通常会下降，这是多步前向问题的自然现象（图14b）。预测是从当前值派生的，随着预测步骤的增加，信息差距扩大。这是因为我们的任务被定义为直接预测多步，而不是迭代预测策略。我们发现，使用卷积操作的CNN相关模型在预测加密货币价格方面比其他模型提供了更好的准确性。

6. 结论

在这项研究中，我们对加密货币价格预测的创新深度学习模型进行了严格的评估。我们比较了使用单变量和多变量策略的著名深度学习模型。结果表明，具有多变量策略的卷积LSTM在预测两种主要实验设置中加密货币价格方面提供了最高准确性，这些设置涉及数据、COVID-19疫情前和期间的数据。此外，我们的发现表明，包含高度相关的加密货币数据的多变量策略显著提高了预测准确性，与单变量策略相比。在COVID-19的影响方面，我们发现加密货币的收盘价波动性相当明显，这给各自的模型带来了进一步的挑战。我们的实验结果表明，使用具有高波动性的训练数据集会削弱我们预测的精度。

论文及代码见星球

往期回顾

QuantML-Qlib开发版：