Python社区  »  机器学习算法

用机器学习揭示共同基金的隐含信息

量化先行者 • 10 月前 • 114 次点击  

摘要

文献来源:Zhang, A. L. (2020). Uncovering Mutual Fund Private Information with Machine Learning. Available at SSRN 3713966.

推荐原因:本文基于共同基金股东信中披露的文本信息,利用自然语言处理模型和神经网络对共同基金的业绩进行预测。通过预测模型确定的知情基金能够提供卓越的回报,而且更有可能获得晨星评级的提升。在股东信披露后的3天至24个月,知情基金也吸引了更大的资金流入,特别是当其披露引起投资者更大的关注。该现象表明投资者认可了定性披露的信息。机器学习模型显示,消息灵通的基金倾向于讨论特殊化行业、投资组合风险承担、金融市场整体情况和跨资产混合策略。总体而言,本研究表明,共同基金披露了丰富的、与价值相关的文本信息,可以通过最先进的机器学习模型进行分析,帮助投资者识别知情基金。

1. 简介

       对于投资公司(如共同基金)来说,股东报告不仅仅披露投资组合持有量、基金业绩、会计报表和投票政策等信息,还提供了一个有效的渠道,来与股东以及潜在的投资者就各种主题进行沟通,包括对赢利和亏损的剖析,对行业和基金业绩的评论,对投资理念的强调,以及对经济和市场状况的看法。在2016年8月24日的股东报告中,Impax资产管理公司的总裁Joseph Keefe提出对政治的关注,正如他在报告的开头写道。"最重要的是,我们有英国脱欧,以及一股反移民、反全球化的情绪突然席卷西方国家,使经济前景进一步蒙上阴影。" 然而,他对自己的基金仍然充满信心,并补充说:"我们坚信,随着时间的推移,我们的股东会从投资于符合更高环境、社会和治理(ESG)标准的公司并从中受益。我们的投资是长期的,所以是缓慢的。但它是至关重要的工作。它可能不会成为头条新闻,但它正在产生变化"。 

       虽然股东报告中几乎所有的量化信息都来自于投资者和研究人员长期研究的投资组合,但来源于文本讨论(即股东信)的定性数据仍未得到充分探讨。投资者能否从股东信的披露中了解到有价值的信息,如经理的投资技巧?哪些基金从这种披露中受益?本文将探讨这些问题。 

       从共同基金的股东信中提取价值相关的信息,存在几个挑战。第一个问题是如何从非结构化文本中提取内在的句法和语义特征。文本分析中传统的词包方法依赖于单个词汇的含义,因此忽略了词汇和句子之间的高阶互动特征,而这些特征可能包含重要的定性信息。例如,"董事会 "这个词在 "欢迎加入董事会 "和 "董事会 "中会有相同的无语境表示。作者通过实施自然语言处理(NLP)中最前沿的发展之一--由Devlin、Chang、Lee和Toutanova(2019)创建和开发的双向编码表示(Bidirectional Encoder Representations from Transformers,BERT)来解决这一难题。与传统的语言表征模型从左到右或从右到左读取上下文不同,BERT联合对左右文进行条件处理。由于BERT从大量未标记的文本中预训练深度双向表征,它可以在不损失上下文信息的情况下捕捉到单词和句子之间的高阶语义和句法结构。 

       第二个问题来自于对股东信的相关特征进行解码,即确定哪些特征可能与基金经理的私人信息有关。我们通过建立一个循环神经网络模型来解决这个问题,以学习语言特征(通过BERT从基金经理的股东信中提取)和随后的基金业绩(计算为Fama和French(1993)和Carhart(1997)四因素模型的α)之间的关系。为了训练和验证我们的模型,我们将从证券交易委员会(SEC)的电子数据收集、分析和检索(EDGAR)系统中检索到的股东信样本分成训练集和测试集。我们使用2006年至2014年的股东信(即训练集)来训练模型,使其适合于财务背景,然后使用训练过的模型来预测基于2015年至2018年的股东信(即测试集)的未来基金业绩。我们在测试期进行所有实证分析,以避免使用训练过程中的任何信息。


2. 在股东信上应用NLP和神经网络
       在本节中我们实施了两个主要步骤,将股东信转化为文本测量,即文本基金信息,准备用于我们的实证分析。第一步是从股东信中提取特征,第二步是建立一个神经网络模型,将提取的特征作为输入,并对每只基金的信息度进行预测。 
       股东信的非正式格式向投资者传达了丰富的信息,但由于其非结构化的性质,给研究者带来了障碍。在文本分析中,传统的词汇包方法可能会遗漏有用的信息。为了说明问题,这里有一个假设性的讨论。"基金的表现还不错"。在这个例子中,经理对基金表现的语气应该是积极的或中性的,但词包法会认为这个语气是消极的。 
       有两个维度的特征来自文本信息。词汇化特征和词汇之间的高阶互动特征。前者抓住了每个词的意义和属性,而后者抓住了词的序列和词之间的关系(Chen and Manning, 2014)。然而,正如Loughran和McDonald(2016)所指出的,词包方法在上述例子中可能效果不佳,因为它对分析词之间的语义和句法结构有局限性。 
       我们通过应用NLP中最具突破性的发展之一--BERT来克服这一限制。它是第一个双向和无监督的语言表示,是一种基于神经网络的NLP技术。传统的NLP模型,如word2vec和GloVe,是无语境的,为词汇中的每个词产生一个单一的词嵌入表示。此外,这些模型可以从左到右或从右到左阅读文本序列。 
       然而,BERT不仅双向读取整个文本,而且它还捕捉到一个词的所有周围环境,为该词提供一个与上下文相关的表示。BERT在拥有25亿个单词的整个维基百科和拥有8亿个单词的书籍语料库中进行了训练。我们将预先训练好的基础BERT模型应用于股东的字母,并在最终的隐藏状态中提取一个句子的总表征,表示为向量C∈RH,其中H是隐藏大小,在基础BERT模型中等于768。高质量的特征C后来作为神经网络模型的输入,旨在选择知情的共同基金。 
       BERT的一个限制是对长于几百字的输入的适用性(Pappagari, Zelasko, Villalba, Carmiel, Dehak, 2019)。股东信件的长度从不到一百个字到超过2000个字,导致在整个文件上应用BERT在计算上是不适用的。为了适应BERT的适用性,对于每一封股东信,我们首先在每一个句子上使用BERT,然后创建一个N×C矩阵作为股东信的总体表示,其中N是一封信中的句子数量。 
       在第二个主要步骤中,我们在Keras中建立了一个循环神经网络模型,这是一个为人工神经网络提供Python接口的开源库。我们的模型包含四个隐藏层和一个额外的长短时记忆(LSTM)层。 
       我们将2006年至2018年的所有股东信件分成一个训练集(从2006年至2014年)和一个测试集(从2015年至2018年)。对于训练集,我们在每封股东信提交后计算出未来的基金Alpha(变量构造见第3.2节)。接下来,每年我们都会根据Alpha将信件分为三等份,并给它们贴上2(最上面的三等份)、1和0(最下面的三等份)。换句话说,标签为2的信件代表一年中表现出色的基金,而标签为0的信件则是同一年中表现不佳的基金。我们用BERT生成的特征和Alpha创建的标签来训练我们的模型,使用训练集中的所有股东字母。 
       在模型训练完成后,我们将模型应用于测试集中的股东信件,并为每个股东信件生成一个预测标签。例如,一个基金的股东信件的预测标签为2(0),表明该基金在未来的Alpha排名中处于最高(最低)的第三位。 
       股东信可以有两个部分,后向信息和前向信息。我们的研究设计有助于提取向前看的成分,这对研究人员和投资者有独特的价值。在训练集中,神经网络模型只捕捉对未来业绩有预测作用的前瞻性成分,而有效地忽略了后向成分。当可预测性被带入测试集时,文本基金信息因此只由前瞻性成分构成.

3. 数据、变量构造和样本概述

3.1. 共同基金的股东报告

       我们从美国证券交易委员会EDGAR网站上的N-CSR(管理投资公司经认证的年度股东报告)和N-CSRS(管理投资公司经认证的半年度股东报告)文件中搜罗共同基金的股东报告,时间从2006年到2018年。注册投资公司(如共同基金公司)必须在向股东发送相应报告后的十天内以电子方式向美国证券交易委员会提交N-CSR表(此后我们用N-CSR代表N-CSR和N-CSRS文件)。 

       在许多情况下,经理人在股东信中包括经理人对各种主题的定性讨论,如基金业绩、行业表现、市场概况、风险承担、财政政策、政治和全球问题。与N-CSR表格的其他部分不同,这些信件不遵循任何模板,因此成为基金与投资者之间的有效沟通方式。然而,由于存在不明确是否是股东信的部分,我们用Python语言编写了一个计算机程序,通过常见的短语来定位信件的开头和结尾,如果计算机程序无法提取信件,则用人工来补充。 

       如第2节所述,2015年至2018年的股东信作为神经网络预测的测试集,用于我们的实证分析。根据我们的神经网络模型生成的股东信的标签,我们认为,股东信获得标签为2的基金是预测的知情基金,而标签为0的基金是预测的不知情基金。在我们的实证分析中,标签为2或0的基金作为主要样本。具体来说,本研究中的关键变量,文本基金信息是一个指标变量,如果一个基金被预测为知情的,则等于1,如果被预测为不知情的,则等于0。 

       为了获得股东信的读者数据,我们使用SEC EDGAR的相关日志文件数据集,该数据集跟踪了请求和下载的流量。具体来说,它包括2003年1月至2017年6月期间EDGAR系统上SEC文件的所有请求记录。原始数据集中的每个观察值都包含访问者的互联网协议(IP)地址、时间戳和访问者下载的文件的标识符等信息。因为股东报告是N-CSR表格的一部分,我们用N-CSR表格的下载量来代表嵌入式股东信的读者人数。我们保留所有非重复的请求,包括那些由机器人和算法提出的请求,因为最近的研究(Cao, Du, Yang, and Zhang, 2021; Cao, Jiang, Yang, and Zhang, 2021)表明,自动下载者的信息获取对披露的公司和基金产生了重大影响。

3.2. 共同基金数据

       我们从证券价格研究中心(CRSP)的无生存偏差共同基金数据库中获得基金收益数据和基金特征,如费用率、周转率、总净资产(TNA)和基金年龄,从汤森路透共同基金控股(s12)数据库中获得基金投资组合持有情况。我们使用沃顿研究数据服务(WRDS)提供的MFLINKS表来合并CRSP共同基金数据库和汤森路透s12数据库。此外,为了对资本流动的时间进行更深入的分析,我们使用Trimtabs数据库的每日流动数据。 

       为了合并N-CSR股东报告和共同基金数据库,我们在系列ID(N-CSR中的基金标识符)和WFICN(沃顿金融学院代码,MFLINKS中基金组合的标识符)之间建立了联系。从2006年2月6日开始,SEC要求所有开放式共同基金在其N-CSR文件中报告系列(基金组合)和类别(份额类别)识别信息。对于每个系列标识,共同基金公司还报告相关的股份类别信息,包括类别标识、类别名称和类别代号。我们使用类别代号与CRSP共同基金数据库中的股票符号相匹配。当一个股票类别与股票代码相匹配时,我们认为相关的系列ID和WFICN是匹配的。由于系列ID和WFICN都是基金组合层面的标识符,我们放弃了一个系列ID与多个WFICN匹配的情况。在投资组合层面,我们能够将N-CSR文件与CRSP的2910个国内股票共同基金的数据进行匹配。 

       虽然共同基金在2003年开始提交N-CSR,但系列和类别识别信息直到2006年才是强制性的。因此,我们使用2006年1月至2018年12月的文件。在这13年的时间里,我们的初始样本包括17717份由国内股票基金提交的带有股东信的N-CSR文件。 

       由于我们对管理者的投资决策技能感兴趣,我们放弃了ETF、年金和指数基金,而专注于主动管理基金。此外,我们遵循Kacperczyk, Sialm, and Zheng (2008)的常规选择标准来识别国内股票基金。我们在基金层面上汇总了所有的股票类别。TNA是申报日期前一个月的所有股份类别的总净资产($mm)。年龄是基金最老的份额类别推出后的年数。我们在实证分析中使用TNA和Age的自然对数。基于回报的变量,周转率(Turnover),费用率(Expense),12b-1费用(fee12b1)和管理费(mgmtfee)是所有基金份额类别的TNA加权平均值,并以百分点为尺度。任期是指投资组合经理受雇以来的年限;如果一个基金有多个经理,则使用最长的任期。

       一般来说,基金每半年报告一次股东报告。因此,我们使用提交股东报告后的180天(或6个月)的窗口来衡量基金业绩(Alpha),计算为每日超额收益对Fama-French-Carhart四个因子的回归的截距,通过乘以253进行年化。我们遵循Sirri和Tufano(1998)的常规方法,在不同的窗口中构建流量指标,包括3天、5天、6个月、12个月和24个月。MSRating是晨星9评估的基金评级,并在申报后6个月进行检索。为了控制过去的风险承担和业绩,我们使用提交股东报告前180天的每日回报来构建年化的PastRisk(定义为每日回报的标准偏差乘以253的平方根)和PastAlpha指标。我们通过计算提交报告前6个月的流量来控制PastFlow。 

       我们遵循现有的文献,通过Kacperczyk, Sialm和Zheng(2008)的回报差距指标来识别基金经理的不可观察技能。月度回报差距是基金的实际总回报与最近披露的投资组合的假设回报之间的差异。更高的回报差距已被证明可以预测更好的未来业绩,从而代表更好的不可观察的技能。我们将ReturnGap定义为申报日期前六个月(约180天)的月平均回报差距。所有潜在的无界变量都在1%的极值上进行了优胜化。

3.3. 股东信函的文本测量

       传统的文本分析采用词包法来衡量管理者在信中的语气。我们将这些变量作为文本控制变量。LM_Negative是Loughran-McDonald(Loughran和McDonald,2011)在股东信中与财务有关的否定词的数量除以股东信中的总字数,以百分点表示。LM_Positve、LM_Uncertainty、LM_Litigious、LM_StrongModal、LM_WeakModal和LM_Constraning的构建方法类似。


4. 文字型基金信息能否选择知情的基金?

4.1. 基金业绩

       其中一个关键的任务是确认共同基金在股东信中披露私人信息的联合假设,以便我们的神经网络模型能够成功地选择知情基金。因此,我们考察了未来的基金业绩,以验证我们模型的预测。

       在这项研究中,我们专注于国内股票基金,因为它们是共同基金的主要类别,而且它们的业绩有明确的基准,如Fama-French-Carhart四因素模型。我们考虑在申报层面进行以下回归,以基金(i)-申报(j)-日期(t)为索引,加上年份和基金的固定效应。

       在神经网络模型有能力选择知情基金的假设下,我们预计系数β会显著为正。图2的结果证实了这样一个猜想。在所有规格中,预测模型识别的知情基金都战胜了不知情的基金。前四列显示,知情基金的年度异常收益率高出80-88个基点。对有基金固定效应和无基金固定效应的规格进行比较,可以发现添加基金固定效应实际上并不影响β,这表明基金的信息性是随时间变化的,取决于经理人在下一时期的私人信息。我们进一步增加了家族(公司)固定效应和经理人固定效应,发现了类似的结果,证实了文本基金信息捕捉了经理人在下一时期的信息集,而不是由未观察到的、时间不变的经理人和公司特征驱动。

       因为训练和预测过程只使用股东信中的文字内容,所以文字基金信息应该独立于其他被现有文献认为与未来基金业绩相关的特征或技能衡量标准。事实上,在控制了包括回报差距、DGTW基准调整后的回报、过去持有的投资组合回报等技能指标,以及过去的业绩、规模和年龄等基金特征后,知情基金优异的经济和统计意义几乎没有变化。由于其随时间变化的性质,基金文本信息与现有文献中记载的技能衡量标准不同。经理人在N-CSR表格中也披露了投资组合的持有情况,其中可能包含未来业绩的信息。在未经分析的情况下,我们进一步控制了同期投资组合的持有回报,以获取与投资组合持有情况正交的信息,并获得了类似于文本基金信息的系数,这表明文本基金信息为投资组合持有情况提供了增量信息。

4.2. 晨星基金评级

       最近的研究(Ben-David, Li, Rossi, and Song, 2019; Cheng, Lu, and Zhang, 2021; Evans and Sun, 2021)记录了投资者使用晨星基金评级来分配他们的资本流动。因此,基金提高其评级是理性的。例如,2018年有7%的股东信明确提到晨星评级或晨星创建的基准收益。 

       我们认为晨星评级是技能的一个替代。我们期望由神经网络模型预测的知情基金在未来拥有更高的晨星评级,并寻找更有可能经历晨星评级升级的基金。具体来说,我们考虑在申报水平上进行以下回归,以基金(i)-申报(j)-日期(t)为指数,加上年份和基金(或基金家族)的固定效应。

       系数β反映了文本基金信息和MSRating水平之间的关系。如果我们加上PastMSRating作为控制变量,那么系数β就能捕捉到文本基金信息和MSRating的变化之间的关系。

       图3给出了两种情况的结果。例如,第(1)栏显示,知情基金可能与MSRating高出0.1个标准差有关。在列(5)和(6)列中,我们发现在控制PastMSRating的情况下,结果基本相似,说明知情基金不仅更有可能拥有较高的MSRating,而且更有可能获得MSRating的提升。


5. 投资者能否识别文字型基金信息?

5.1. 基金流量

       由于神经网络模型的预测完全依赖于针对基金投资者的股东信中所包含的文本信息,一个自然的问题是,知情基金所写的信是否可以吸引更多的资金。因此,一个测试方式是将未来的基金流量与截面上的文本基金信息联系起来。图4给出了以下回归的结果,以基金(i)-申报(j)-日期(t)为指数,加上年份和风格的固定效应,在申报层面上进行回归。

       虽然Flow6m是代表流量的主要变量,但我们通过使用Flow12m、Flow24m、Flow3d和Flow5d,在不同的窗口中考虑长期和短期的流量。对于超过6个月窗口的流量,我们也控制了同期的Alpha,以排除投资者只是追逐同期的回报而不是根据股东信的信息进行投资的可能性。 

       图4 A的前两列显示,投资者根据文字基金信息将更多的资金投入到知情的基金。在申报后6个月的时间里,两组基金的流入资金差异为1.59%至1.82%。一个不知情的基金经理可以在股东信中夸大他的能力,以减少赎回风险,这是可能的。然而,投资者在长期会观察到他收集私人信息的真实能力。图4 A的最后四列说明,在投资者收到股东信后的半年期以上和两年内,预测表现较好的基金比预测表现较差的基金收到的资金更多。两组基金流量的经济幅度在下一年为2.84%至3.00%,在下两年为4.49%至4.63%。结果呼应了对知情基金的激励,即他们希望减少资本约束以实现其长期投资战略,即使他们在短期内可能不会有出色的表现。

       知情基金吸引资金的一个假定是,投资者会关注股东信。最近的研究表明,投资公司使用N-CSR表和13-F表来进行投资决策(Chen, Cohen, Gurun, Lou, and Malloy, 2020; Crane, Crotty, and Umar, 2020; Cao, Du, Yang, and Zhang, 2021)。我们放大了基金向投资者发信日期的短暂窗口,并分析了资金流动的时间。我们假设,由神经网络模型识别的知情基金在投资者收到股东信后会有更多的资金流入。为了验证这一假设,我们使用了Trimtabs数据库中的每日流量数据,该数据库以前在Greene和Hodges(2002),Kaniel和Parham(2017),以及Agarwal,Jiang和Wen(2020)中使用过。
       图4 B的结果证实了这一猜想。知情基金在[0,3]天内吸引了11.5至13.5个基点的资本流动,在[0,5]天内吸引了23.4至24.5个基点的资本流动,其中0天是指基金提交股东信的日期。我们控制了风格的固定效应,以尽量减少投资者因不同的投资目标而对基金进行不同的资金分配的可能性。在使用年度和风格固定效应的情况下,结果是成立的。五天内流量差异的经济规模相当于一个普通基金的美元价值448万美元。

5.2. 什么时候知情的管理者会得到更大的资本流动的回报?

       管理人的基本激励之一来自于管理基金的补偿方案。尽管经理人可以选择不同水平的管理费,但总的净资产(或资本流动)在决定他们的报酬方面起着同样重要的作用。一些经理人努力撰写具有启发性的股东信,以表明他们的技能并吸引资本流动,如果基金投资者确实阅读了他们的信并做出相应的投资决定,我们应该观察他们在这方面的成功。 

       由于我们无法追踪投资者的身份,发现投资者是否阅读股东信是一个挑战。为了克服这个障碍,我们使用SEC EDGAR网站上的股东信的访问次数来衡量投资者对该信的关注度,这代表了对股东信的阅读量。我们预计,当知情基金的股东信有更多的读者时,他们会对股东信做出更多的反应。另一方面,如果投资者对股东信的关注度较低,资金流在知情基金和不知情基金之间是无所谓的。

       图5的结果提供了支持性的证据,即当投资者在做投资决策时考虑到他们的信件(即投资者关注度高)时,知情的管理者比不知情的管理者成功地吸引了更多的资金流动。这样的结果进一步验证了投资于知情基金的投资者是根据股东信中的信息内容而不是其他同时存在的信息来源做出决策的。


6. 股东信的信息内容

6.1. 知情基金的主题

       第4节证实了为选择知情基金而设计的神经网络模型实现了目标,并表明被选中的基金产生了更好的未来业绩,更有可能拥有更高的晨星评级,并获得评级的提升。第5节进一步发现,投资者认识到定性披露所带来的收益,在3天的窗口期和两年内将更多的资金投入到知情基金中。在这一节中,我们将放大模型以了解预测能力的来源。

       我们首先探索知情基金所讨论的主题的选择。我们利用Blei、Ng和Jordan(2003)开发的无监督LDA,将股东信分为四类。对于每个类别,我们选择前五个关键词来识别潜在的主题,并根据这些关键词来分配一个标签。

       图6显示了知情基金所讨论的主题清单。我们观察到,第一类基金倾向于讨论部门,而且可能是某些部门的专家,如能源。第二类基金专注于投资组合的风险承担,第三类基金倾向于对金融市场和经济的大环境提出见解。虽然我们的样本由国内股票基金组成,但Kacperczyk、Sialm和Zheng(2008)的常规选择标准并不排除主要投资于股票市场的基金可以持有一小部分债券资产的可能性。有趣的是,最后一类的知情基金经常讨论债券收益率,以及利率,这取决于美联储的政策。这表明,持有混合金融证券的股票基金可能表现良好,因为这些经理人有能力收集股票市场以外的私人信息。

6.2. 谁在股东信中加入质量信息?

       我们的神经网络模型能够很好地工作的基本假设是,经理人在股东报告中提供信息丰富的讨论。第4节的结果验证了这样一个假设。然而,考虑到披露是有成本的,因为竞争对手可以模仿披露公司的投资策略(Frank, Poterba, Shackelford, and Shoven, 2004; Phillips, Pukthuanthong, and Rau, 2014; Cao, Du, Yang, and Zhang, 2021),这就引出了另一个问题:披露质量信息的程度。 

       我们探讨哪种类型的基金能够写出更多信息的文本内容。因此,我们将预测的准确性与基金特征联系起来,并考虑以下Logit回归。

       我们的神经网络模型能够很好地工作的基本假图7显示,我们的神经网络模型在参与高风险的基金中产生了更大的准确性,并以过去基金收益的波动率来衡量。对于具有较高风险的基金,由于历史收益的波动性,特别难以区分其技能和运气。因此,我们的模型在评估这些不透明的基金方面增加了独特的价值,并有可能为基金投资者提供洞察力。该模型还能对较老的基金和收取较高费用率的基金作出更准确的预测。

       图8 A显示,在 "高风险基金 "中,知情的基金在风险调整的基础上每年比不知情的基金多出1.32%至1.40%。在 "低风险基金 "中,表现要弱得多或不明显。图8B显示,在高风险的基金中,与不知情的对手相比,知情的基金更有可能获得晨星评级的提升。这种结果在低风险的基金中并不存在。

       在图8 C中,如果高风险基金被评估为拥有技能,则更有可能吸引资本流入。无论衡量资金流动的期限如何(从3天到24个月),资金流入的增量都很明显。另一方面,低风险基金经历了相同数量的资金流入,知情的基金和不知情的基金之间没有区别。

       总之,由于我们的神经网络模型完全依赖于股东信中的文字内容,图8中的结果支持这样的观点:承担更大风险的知情经理人更有可能给投资者写一封信息丰富的信,以便将自己与不知情的经理人区分开。

6.3. 自愿披露和基金特点

       为了进一步了解经理人披露特权信息的动机,我们将样本中的基金与未在N-CSR表格中加入股东信的基金进行比较,并研究加入股东信的决定是否与任何基金特征有关。由于只有两种结果(即包括或不包括信函),我们考虑采用Logit回归的决定因素模型。

       图9表示基金特征与在N-CSR表格中加入股东信的可能性之间的关系。承担风险较高的基金不仅更有可能撰写内容丰富的股东信(第6.2节和表7、表8),而且更有可能在其申报文件中首先包括定性披露。还有证据表明,周转率较高的基金倾向于写股东信,因为投资者很难从频繁的投资组合变化中分辨出他们的真实技能。

       撰写股东信的可能性与12b-1费用呈正相关,表明那些在营销和分配上花费巨大的基金有可能利用股东信作为与投资者沟通的有效工具。年龄较大的基金和经理任期较长的基金更有可能写股东信,因为经理可能对职业的关注较少,因此,更有可能自愿提供跨越各种话题的讨论,以吸引潜在的投资者,这与披露有价值的信息在未来证明的概念是一致的。经理的技能和可以在未来的劳动力市场帮助经理(斯特恩和詹姆斯,2016)。由于未来的劳动力市场机会包括外部工作和内部晋升,结果也突出了披露真实信息的动机,因为任何伪造的信息都很容易被目前的雇主核实,从而不利于可信的内部晋升。


7. 结论性意见

       本文通过对共同基金股东信中的文本信息实施NLP和神经网络模型,创建了一个创新的共同基金隐含信息衡量标准--基金文本信息。我们设计用以预判未来基金表现的神经网络模型比传统的文本分析中的词汇包方法更好。它能成功地识别出提供更优的非正常收益并获得更高的晨星评级的知情基金。我们通过汇编知情基金讨论的主题清单来进行机器学习,包括行业专业化、投资组合风险承担、金融市场的大环境和跨资产的混合策略。这些话题的信息内容有助于提高文本基金信息的预测能力。

       此外,拥有文本基金信息的基金在短期和长期都比没有文本基金信息的基金吸引了更多的资本流动,这表明投资者有能力识别这种信息;当更多的投资者在做投资决策时考虑时,结果就更明显了。

       我们的模型对具有较高风险投资组合的基金产生了更大的准确性,这些基金通常被视为不透明的基金,因为它们的真实投资能力与运气难以区分。更重要的是,这些基金比那些风险较低的基金更有可能写出翔实的信件。风险较高的基金,投资组合周转率较高的基金,营销费用较高的基金,经理任期较长的基金,以及年龄较大的基金,更有可能在N-CSR表格中包括定性披露,因为他们认为股东信是与投资者沟通的必要工具。




往期链接



海外文献推荐:因子选股类

向下滑动查看往期链接

第205期:哪些选股因子具有行业配置能力?

第200期:分析师预测与企业盈余管理

第185期:左尾动量:股票市场坏消息的不充分反应

第179期:价值股与成长股的久期——差异没有想象的那么大

第177期:Smart beta多因子构建的方法论:混合与整合

第174期:解决规模效应的问题

第173期:2018-2020年的量化危机:被大盘成长逼入绝境

第171期:Smart beta与多因子组合的最优混合

第170期:通胀错觉和股票价格

第164期:Smart beta 策略中的“肉”在哪里?

第163期:从实体经济角度对股市未来长期收益进行预测

第160期: 因子的两种类型:基于因子组合的收益分解

第157期:在分散化收益的视角下Smart Beta是否仍然Smart

第154期:异象策略的相关性结构

第144期:价值因子已死?

第142期:ESG投资:从罪恶股到Smart Beta

第135期:货币政策敞口因子MPE

第134期:横截面与时间序列因子模型比较

第125期:现金流久期因子

第118期:使用深度神经网络提升时间序列动量策略

第116期:更高的因子有效性评价标准

第108期:分析师的共同覆盖——动量溢出效应的根源

第99期:低PE,成长,利率:对估值的再思考——最聪明的投资回收期

第98期:低波动需要很少的交易

第97期:机器学习时代的回测原则

第95期:防御性质的因子择时

第90期:收益预测性:来自中美两国供应链的证据

第89期:盈利,留存收益,账面市值比在股票横截面收益中的作用

第87期:因子大陆上的爱丽丝梦游:纠缠因子投资的三大谬误

第79期:不确定性、动量和盈利能力

第77期:因子动量与动量因子

第71期:短期的Beta还是长期的Alpha

第70期:SmartBeta与多因子组合的最优配置

第63期:劳动杠杆与股票收益的截面效应

第62期:利用CART决策树选股

第60期:学术研究毁了因子的预测结果吗?

第59期:策略回测效果如何评估?

第58期:ESG能够提高新兴市场投资的风险调整后收益

第56期:盈余公告收益及标准化预期外盈利

第54期:六因子模型与解决价值因子冗余

53 期:Shiller P/E与宏观经济环境

52 期:微观领先于宏观?非流动性对股票收益和经济活动的预测能力

第50期:因子如何复合——自上而下及自下而上的指数构建方法

第50期:分析报告的可读性与股票收益

第49期:风格在债券投资中的应用

第49期:盈利指标的紧缩指数

第48期:HML 因子中的细节

第46期:市值效应的事实与流言

第43期:机器学习与资产定价

第43期:价值投资的事实和流言

第40期:因子择时是与非

第39期:质优股与垃圾股

第38期:隔夜收益与特定企业股票的投资情绪

第37期:因子选择的新指标

第36期:一种新的公允周期调整市盈率(CAPE)预测方法

第35期:因子投资模型增强:基于深度学习来预测基本面数据

第34期:工匠阿尔法:风格投资的应用

第33期:风格投资与机构投资者

第31期:因子正交与系统性风险分解

第31期:情景基本面,模型与主动管理

第30期:消化异象:一种投资方法

第29期:风格投资、联动性与股票收益可预测性

第28期:期估值因子的风险来源于哪里?由PB 分解得来的证据

第28期:基于波动率管理的投资组合

第26期:收益的可预测性

第25期:价格影响还是交易量:为什么是Amihud(2002)度量

第25期:金融危机期间企业社会责任的价值

第24期:股票流动性和股价暴跌风险

第22期;估计Beta

第22期:价值、规模、动量、股利回报以及波动率因子在中国A股市场的表现

第19期:恐慌指数v.s.规模因子

第18期:调整因子在对收益率解释中的表现

第15期:改进的动量模型

第15期:利润质量研究

第13期:股票市场波动性与投资学习

第13期:社会责任共同基金的分类及其绩效的衡量

第13期:因子择时风险导向模型

第10期:利用信息因子解释回报

第10期;异质现金流和系统性风险

第9期:“打赌没有β”投资策略研究

第9期:利用条件信息理解投资组合的有效性

第8期:因子择时模型

第8期:优化价值

第7期:动量崩溃

第7期:动量因子及价值因子在投资组合中的运用的实证研究

第7期:后悔的神经证据及其对投资者行为的影响

第6期:持续过度反应和股票回报的可预测性

第6期:五因子资产定价模型在国际市场上的检验

第5期:价值的另一面:毛盈利能力溢价

第5期:卖空比例与总股票收益

第4期:巨变的贝塔:连续型贝塔和非连续型贝塔

第4期:全球、本地和传染的投资者情绪

第4期:投资者更关注哪些因子?来自共同基金资金流的证据

第4期:总资产增长率与股票截面收益率的实证

第3期:Beta套利

第3期:前景理论与股票收益:一个实证研究

第3期:趋势因子:投资时限的信息能获得收益?

第3期:时变的流动性与动量收益

第2期:CAPM新视角:突尼斯和国际市场基于copula方法的验证

第2期:资本投资,创新能力和股票回报

第2期:风暴来临前的平静

第2期:资本投资,创新能力和股票回报

第1期:三因子与四因子模型对比与动量因子的有效性检验

第1期:五因子资产定价模型

第1期:多资产组合中的动量因子影响

第1期:基于插值排序标准化变量法和复杂变量的平衡分离树的多因子选股模型





海外文献推荐:资产配置类

          向下滑动查看往期链接

第193期:债券收益下限与资产配置:债券在资产配置中所扮演的角色将于何时受到危及?

第188期:ESG的Alpha,Beta和Sigma:更好的Beta,额外的Alpha

第187期:货币政策的非对称效应

第156期:资产配置vs.因子配置——我们能否构建一类两者兼顾的策略

第151期:利用新闻情绪动量进行战术性资产配置

第143期:关于低风险投资的事实与误区

第141期:利用先锋核心+卫星策略指引

第126期:利用Fama-French五因子模型的alpha进行行业轮动

第123期:行业收益的可预测性:使用机器学习方法

第122期:Capital Group 2020年市场展望

第65期:通过VaR Black-Litterman模型构建FOF投资绝对收益组合

第56期:利用低风险现象增强Black-Litterman 模型:来自韩国市场的证据

第56期:波动率模型以及波动率的程式化特征实证

第54期:放大市场异象

53期:风险平价组合与其他资产配置方法的比较探索

第51期:关于公式化价值投资方法的事实

第48期:对风险配置策略的再思考

第41期:投资组合再平衡管理的另一类方法-叠加期权卖出合约

第38期:Smart Beta 策略怎么会出错?

第27期:风险因子的风险平价

第27期:桥水基金对风险平价和全天候策略的一些思考

第26期:协方差矩阵的非线性压缩:当Markowitz遇见Goldilocks

第24期:考虑寿命风险的多变量战略资产配置模型

第19期:稳定性风险调整后的投资组合

第17期:推动多因子世界中的战略资产配置

第17期:用更高阶矩衡量组合分散性

第16期:将因子暴露映射到资产配置

第14期:风险平价股票组合的转售价值

第12期:构造有效收入组合

第12期:投资组合中股票数量是否会影响组合表现

第11期:对冲基金收益优化投资组合

第5期:集中投资与全球机构投资者业绩



海外文献推荐:事件研究类

          向下滑动查看往期链接


第147期:政治事件投资组合

第146期:信息传播速度与卖方研究行业

第138期:心情Beta与股票收益的季节性

第119期:节假日前的公告效应

第115期:粘性预期与盈利异象

第96期:规模效应隐藏于日历效应之中

第47期:工业用电量与股票收益率

第45期:预测中国股票市场的股灾

第40期:IPO 批准对现有股票的影响:来自中国的证据

第21期:低频调仓、收益率自相关性和季节性

第8期:机构投资者和股票拆分的信息产生理论 

第6期:季节性收益

第6期:可预测的行为、利润和关注

第6期:盈余公告与系统性风险






海外文献推荐:投资者行为类

         向下滑动查看往期链接


第186期:情绪交易与对冲基金收益

第183期:投资决策频率对长期投资结果的影响

第180期:隔夜收益与特定公司的投资者情绪

第167期:决策疲劳和启发式分析师预测

第161期:收益预期是如何形成的?——截面上的趋势外推

第159期:估计分析师预期偏差新方法——投资者是否过度依赖分析师预期

第153期:谷歌搜索量与个人投资者交易者行为

第137期:股票高收益同步性意味着怎样的价格信息含量?

第129期:“懒惰”的投资者——不可忽视的财报措辞变化

第128期:高频交易竞争

第105期:投资者情绪对于异象的解释是否源于“伪回归”?

第85期:原油期货市场的知情交易

第78期:高频报价:买价和卖价的短期波动性

第57期:数据提供者的信息中介角色    

第55期:分析师的重新覆盖与市场反应不足

第42期:卖方研究在经济不景气时期更有价值吗?

第33期:公司债市场收益的共有因子

第23期:媒体关注与消费者投资行为之间的因果关系

第20期:高频交易之间的影响

第20期:是什么使得股价移动?基本面 vs. 投资者认知

第18期:短期机构交易的表现

第16期:坏习惯和好方法

第11期:状态变量、宏观经济活动与个股截面数据的关系

第10期:条件夏普比率

第9期:强制清算,减价出售与非流动性成本

第7期:买方与卖方谁发起交易

第7期:后悔的神经证据及其对投资者行为的影响

第7期:排名效应和交易行为:卖出最差的和最好的,忽略其余的

第6期:持续过度反应和股票回报的可预测性

            

            

            







海外文献推荐:择时策略类

         向下滑动查看往期链接


第184期:市盈率、商业周期与股票市场择时

第166期:时间序列因子择时与横截面因子配权的新方法

第136期:因子溢价与因子择时:一个世纪的数据验证

第106期:宏观经济的风险对因子收益的影响

第86期:哪种趋势指标是你的朋友

第76期:商品期货的特质动量

第32期:行业表现能预测股市走势吗

第14期:几类择时策略的比较




海外文献推荐:公司金融类

         向下滑动查看往期链接


第204期:媒体报道和投资效率

第182期:以整合法量化ESG投资

第152期:识别导致价值/成长溢价的预期偏差效应:一种基本面分析方法

第150期细节决定成败:ESG数据的差异性与责任投资的意义

第145期预期管理与股票收益率

第103期:全球化风险溢价

第72期:独立董事的价值

第23期:经济周期、投资者情绪和高成本的外源融资

第12期:世界各地的资本结构决策:哪些因素重要

第11期:财务风险有多重要?

第3期:机构投资者对公司透明度和信息披露的影响





海外文献推荐:基金研究类

         向下滑动查看往期链接


第199期:主题基金值得炒作吗

第197期:共同基金的alpha分解:选股与赋权

第194期:基金费率能降到多低?

第192期:小样本下的共同基金筛选

第175期:机器学习能用于基金组合构建吗?

第169期:持股的创新偏好与共同基金业绩研究

第162期:COVID-19期间共同基金的业绩表现与资金流动

第155期:双重调整的共同基金业绩评估

第148期:长期任职的基金经理的业绩表现

第140期:价值平均策略、美元成本平均策略以及随机投资方式的收益对比——基于多场历史数据的实证检验

第139期:投资组合集中度与基金绩效

第133期:使用机器学习法推理基金配置

第132期:晨星债基风格箱构建方法论

第130期:什么时候基金管理技能更有价值?

第121期:使用期权对公募基金的益处

第120期:共同基金业绩,管理团队与董事会

第113期:基于DEA方法的共同基金业绩预测

第109期:只有艰难时期的赢家才能持续

第100期:便宜不一定好:论高费率共同基金的优越表现

第94期:基金经理是否具有市场流动性择时能力

第92期:波动率与主动基金管理者能力

第85期:主动ETF或将何去何从

第83期:基金经理的运气与技能

第75期:ETF的战争从未停止

第74期:风格中性FOF:分散投资还是成本重负

第73期:基于APB指标的共同基金业绩评估

第68期:弱市赢家方能恒强:对冲基金再不同市场下的表现持续性

第67期:美国ESG基金发展概览

第64期:基金的alpha源自基金经理的管理能力吗?

第52期:美国目标日期基金市场的成败之争

第51期:买方分析师的能力与角色研究

第47期:下滑轨道内部应该如何配置

第46期:时变的基金经理管理能力

第44期:一个有效的下行风险衡量指标下的FOF 策略

第42期:趋势跟踪策略在目标日期基金中的应用

第41期:基金经理的个人特征与业绩     

第39期:风格中性的基金中基金:分散化还是锁定权重?

第37期:如何设计目标基金?

第34期:市场情绪与技术分析的有效性:来自对冲基金的证据

第32期:目标日期基金需要更好的分散化

第30期:一种新的衡量基金经理能力的方式

第29期:基金真的交易越多赚的越多么?

 




      海外文献推荐:其他

         向下滑动查看往期链接


第203期:高收益债券适合主动管理

第181期:大美国战后经济周期实证研究

第178期:关于大宗商品投资的再思考

第176期:指数期权套利中的提前平仓策略

第172期:风险恐惧情绪在商品期货市场中的定价作用

第165期:商品期货价值投资


关注我们

风险提示:本报告内容基于相关文献,不构成投资建议。

注:文中报告节选自天风证券研究所已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。

证券研究报告

《天风证券-金融工程:海外文献推荐第208期》

对外发布时间

2022年01月21日

报告发布机构

天风证券股份有限公司

(已获中国证监会许可的证券投资咨询业务资格)

本报告分析师

吴先兴 SAC 执业证书编号:S1110516120001

韩乾 联系人

点击“赞”或“在看”,及时获取最新推送


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/126217
 
114 次点击  
分享到微博