摘要
文献来源:Zhang, A. L. (2020). Uncovering Mutual Fund Private Information with Machine Learning. Available at SSRN 3713966.
推荐原因:本文基于共同基金股东信中披露的文本信息,利用自然语言处理模型和神经网络对共同基金的业绩进行预测。通过预测模型确定的知情基金能够提供卓越的回报,而且更有可能获得晨星评级的提升。在股东信披露后的3天至24个月,知情基金也吸引了更大的资金流入,特别是当其披露引起投资者更大的关注。该现象表明投资者认可了定性披露的信息。机器学习模型显示,消息灵通的基金倾向于讨论特殊化行业、投资组合风险承担、金融市场整体情况和跨资产混合策略。总体而言,本研究表明,共同基金披露了丰富的、与价值相关的文本信息,可以通过最先进的机器学习模型进行分析,帮助投资者识别知情基金。
1. 简介
对于投资公司(如共同基金)来说,股东报告不仅仅披露投资组合持有量、基金业绩、会计报表和投票政策等信息,还提供了一个有效的渠道,来与股东以及潜在的投资者就各种主题进行沟通,包括对赢利和亏损的剖析,对行业和基金业绩的评论,对投资理念的强调,以及对经济和市场状况的看法。在2016年8月24日的股东报告中,Impax资产管理公司的总裁Joseph Keefe提出对政治的关注,正如他在报告的开头写道。"最重要的是,我们有英国脱欧,以及一股反移民、反全球化的情绪突然席卷西方国家,使经济前景进一步蒙上阴影。" 然而,他对自己的基金仍然充满信心,并补充说:"我们坚信,随着时间的推移,我们的股东会从投资于符合更高环境、社会和治理(ESG)标准的公司并从中受益。我们的投资是长期的,所以是缓慢的。但它是至关重要的工作。它可能不会成为头条新闻,但它正在产生变化"。
虽然股东报告中几乎所有的量化信息都来自于投资者和研究人员长期研究的投资组合,但来源于文本讨论(即股东信)的定性数据仍未得到充分探讨。投资者能否从股东信的披露中了解到有价值的信息,如经理的投资技巧?哪些基金从这种披露中受益?本文将探讨这些问题。
从共同基金的股东信中提取价值相关的信息,存在几个挑战。第一个问题是如何从非结构化文本中提取内在的句法和语义特征。文本分析中传统的词包方法依赖于单个词汇的含义,因此忽略了词汇和句子之间的高阶互动特征,而这些特征可能包含重要的定性信息。例如,"董事会 "这个词在 "欢迎加入董事会 "和 "董事会 "中会有相同的无语境表示。作者通过实施自然语言处理(NLP)中最前沿的发展之一--由Devlin、Chang、Lee和Toutanova(2019)创建和开发的双向编码表示(Bidirectional Encoder Representations from Transformers,BERT)来解决这一难题。与传统的语言表征模型从左到右或从右到左读取上下文不同,BERT联合对左右文进行条件处理。由于BERT从大量未标记的文本中预训练深度双向表征,它可以在不损失上下文信息的情况下捕捉到单词和句子之间的高阶语义和句法结构。
第二个问题来自于对股东信的相关特征进行解码,即确定哪些特征可能与基金经理的私人信息有关。我们通过建立一个循环神经网络模型来解决这个问题,以学习语言特征(通过BERT从基金经理的股东信中提取)和随后的基金业绩(计算为Fama和French(1993)和Carhart(1997)四因素模型的α)之间的关系。为了训练和验证我们的模型,我们将从证券交易委员会(SEC)的电子数据收集、分析和检索(EDGAR)系统中检索到的股东信样本分成训练集和测试集。我们使用2006年至2014年的股东信(即训练集)来训练模型,使其适合于财务背景,然后使用训练过的模型来预测基于2015年至2018年的股东信(即测试集)的未来基金业绩。我们在测试期进行所有实证分析,以避免使用训练过程中的任何信息。
在本节中我们实施了两个主要步骤,将股东信转化为文本测量,即文本基金信息,准备用于我们的实证分析。第一步是从股东信中提取特征,第二步是建立一个神经网络模型,将提取的特征作为输入,并对每只基金的信息度进行预测。 股东信的非正式格式向投资者传达了丰富的信息,但由于其非结构化的性质,给研究者带来了障碍。在文本分析中,传统的词汇包方法可能会遗漏有用的信息。为了说明问题,这里有一个假设性的讨论。"基金的表现还不错"。在这个例子中,经理对基金表现的语气应该是积极的或中性的,但词包法会认为这个语气是消极的。 有两个维度的特征来自文本信息。词汇化特征和词汇之间的高阶互动特征。前者抓住了每个词的意义和属性,而后者抓住了词的序列和词之间的关系(Chen and Manning, 2014)。然而,正如Loughran和McDonald(2016)所指出的,词包方法在上述例子中可能效果不佳,因为它对分析词之间的语义和句法结构有局限性。
我们通过应用NLP中最具突破性的发展之一--BERT来克服这一限制。它是第一个双向和无监督的语言表示,是一种基于神经网络的NLP技术。传统的NLP模型,如word2vec和GloVe,是无语境的,为词汇中的每个词产生一个单一的词嵌入表示。此外,这些模型可以从左到右或从右到左阅读文本序列。 然而,BERT不仅双向读取整个文本,而且它还捕捉到一个词的所有周围环境,为该词提供一个与上下文相关的表示。BERT在拥有25亿个单词的整个维基百科和拥有8亿个单词的书籍语料库中进行了训练。我们将预先训练好的基础BERT模型应用于股东的字母,并在最终的隐藏状态中提取一个句子的总表征,表示为向量C∈RH,其中H是隐藏大小,在基础BERT模型中等于768。高质量的特征C后来作为神经网络模型的输入,旨在选择知情的共同基金。 BERT的一个限制是对长于几百字的输入的适用性(Pappagari, Zelasko, Villalba, Carmiel, Dehak, 2019)。股东信件的长度从不到一百个字到超过2000个字,导致在整个文件上应用BERT在计算上是不适用的。为了适应BERT的适用性,对于每一封股东信,我们首先在每一个句子上使用BERT,然后创建一个N×C矩阵作为股东信的总体表示,其中N是一封信中的句子数量。 在第二个主要步骤中,我们在Keras中建立了一个循环神经网络模型,这是一个为人工神经网络提供Python接口的开源库。我们的模型包含四个隐藏层和一个额外的长短时记忆(LSTM)层。 我们将2006年至2018年的所有股东信件分成一个训练集(从2006年至2014年)和一个测试集(从2015年至2018年)。对于训练集,我们在每封股东信提交后计算出未来的基金Alpha(变量构造见第3.2节)。接下来,每年我们都会根据Alpha将信件分为三等份,并给它们贴上2(最上面的三等份)、1和0(最下面的三等份)。换句话说,标签为2的信件代表一年中表现出色的基金,而标签为0的信件则是同一年中表现不佳的基金。我们用BERT生成的特征和Alpha创建的标签来训练我们的模型,使用训练集中的所有股东字母。 在模型训练完成后,我们将模型应用于测试集中的股东信件,并为每个股东信件生成一个预测标签。例如,一个基金的股东信件的预测标签为2(0),表明该基金在未来的Alpha排名中处于最高(最低)的第三位。 股东信可以有两个部分,后向信息和前向信息。我们的研究设计有助于提取向前看的成分,这对研究人员和投资者有独特的价值。在训练集中,神经网络模型只捕捉对未来业绩有预测作用的前瞻性成分,而有效地忽略了后向成分。当可预测性被带入测试集时,文本基金信息因此只由前瞻性成分构成.3. 数据、变量构造和样本概述
3.1. 共同基金的股东报告
我们从美国证券交易委员会EDGAR网站上的N-CSR(管理投资公司经认证的年度股东报告)和N-CSRS(管理投资公司经认证的半年度股东报告)文件中搜罗共同基金的股东报告,时间从2006年到2018年。注册投资公司(如共同基金公司)必须在向股东发送相应报告后的十天内以电子方式向美国证券交易委员会提交N-CSR表(此后我们用N-CSR代表N-CSR和N-CSRS文件)。
在许多情况下,经理人在股东信中包括经理人对各种主题的定性讨论,如基金业绩、行业表现、市场概况、风险承担、财政政策、政治和全球问题。与N-CSR表格的其他部分不同,这些信件不遵循任何模板,因此成为基金与投资者之间的有效沟通方式。然而,由于存在不明确是否是股东信的部分,我们用Python语言编写了一个计算机程序,通过常见的短语来定位信件的开头和结尾,如果计算机程序无法提取信件,则用人工来补充。
如第2节所述,2015年至2018年的股东信作为神经网络预测的测试集,用于我们的实证分析。根据我们的神经网络模型生成的股东信的标签,我们认为,股东信获得标签为2的基金是预测的知情基金,而标签为0的基金是预测的不知情基金。在我们的实证分析中,标签为2或0的基金作为主要样本。具体来说,本研究中的关键变量,文本基金信息是一个指标变量,如果一个基金被预测为知情的,则等于1,如果被预测为不知情的,则等于0。
为了获得股东信的读者数据,我们使用SEC EDGAR的相关日志文件数据集,该数据集跟踪了请求和下载的流量。具体来说,它包括2003年1月至2017年6月期间EDGAR系统上SEC文件的所有请求记录。原始数据集中的每个观察值都包含访问者的互联网协议(IP)地址、时间戳和访问者下载的文件的标识符等信息。因为股东报告是N-CSR表格的一部分,我们用N-CSR表格的下载量来代表嵌入式股东信的读者人数。我们保留所有非重复的请求,包括那些由机器人和算法提出的请求,因为最近的研究(Cao, Du, Yang, and Zhang, 2021; Cao, Jiang, Yang, and Zhang, 2021)表明,自动下载者的信息获取对披露的公司和基金产生了重大影响。
3.2. 共同基金数据
我们从证券价格研究中心(CRSP)的无生存偏差共同基金数据库中获得基金收益数据和基金特征,如费用率、周转率、总净资产(TNA)和基金年龄,从汤森路透共同基金控股(s12)数据库中获得基金投资组合持有情况。我们使用沃顿研究数据服务(WRDS)提供的MFLINKS表来合并CRSP共同基金数据库和汤森路透s12数据库。此外,为了对资本流动的时间进行更深入的分析,我们使用Trimtabs数据库的每日流动数据。
为了合并N-CSR股东报告和共同基金数据库,我们在系列ID(N-CSR中的基金标识符)和WFICN(沃顿金融学院代码,MFLINKS中基金组合的标识符)之间建立了联系。从2006年2月6日开始,SEC要求所有开放式共同基金在其N-CSR文件中报告系列(基金组合)和类别(份额类别)识别信息。对于每个系列标识,共同基金公司还报告相关的股份类别信息,包括类别标识、类别名称和类别代号。我们使用类别代号与CRSP共同基金数据库中的股票符号相匹配。当一个股票类别与股票代码相匹配时,我们认为相关的系列ID和WFICN是匹配的。由于系列ID和WFICN都是基金组合层面的标识符,我们放弃了一个系列ID与多个WFICN匹配的情况。在投资组合层面,我们能够将N-CSR文件与CRSP的2910个国内股票共同基金的数据进行匹配。
虽然共同基金在2003年开始提交N-CSR,但系列和类别识别信息直到2006年才是强制性的。因此,我们使用2006年1月至2018年12月的文件。在这13年的时间里,我们的初始样本包括17717份由国内股票基金提交的带有股东信的N-CSR文件。
由于我们对管理者的投资决策技能感兴趣,我们放弃了ETF、年金和指数基金,而专注于主动管理基金。此外,我们遵循Kacperczyk, Sialm, and Zheng (2008)的常规选择标准来识别国内股票基金。我们在基金层面上汇总了所有的股票类别。TNA是申报日期前一个月的所有股份类别的总净资产($mm)。年龄是基金最老的份额类别推出后的年数。我们在实证分析中使用TNA和Age的自然对数。基于回报的变量,周转率(Turnover),费用率(Expense),12b-1费用(fee12b1)和管理费(mgmtfee)是所有基金份额类别的TNA加权平均值,并以百分点为尺度。任期是指投资组合经理受雇以来的年限;如果一个基金有多个经理,则使用最长的任期。
一般来说,基金每半年报告一次股东报告。因此,我们使用提交股东报告后的180天(或6个月)的窗口来衡量基金业绩(Alpha),计算为每日超额收益对Fama-French-Carhart四个因子的回归的截距,通过乘以253进行年化。我们遵循Sirri和Tufano(1998)的常规方法,在不同的窗口中构建流量指标,包括3天、5天、6个月、12个月和24个月。MSRating是晨星9评估的基金评级,并在申报后6个月进行检索。为了控制过去的风险承担和业绩,我们使用提交股东报告前180天的每日回报来构建年化的PastRisk(定义为每日回报的标准偏差乘以253的平方根)和PastAlpha指标。我们通过计算提交报告前6个月的流量来控制PastFlow。
我们遵循现有的文献,通过Kacperczyk, Sialm和Zheng(2008)的回报差距指标来识别基金经理的不可观察技能。月度回报差距是基金的实际总回报与最近披露的投资组合的假设回报之间的差异。更高的回报差距已被证明可以预测更好的未来业绩,从而代表更好的不可观察的技能。我们将ReturnGap定义为申报日期前六个月(约180天)的月平均回报差距。所有潜在的无界变量都在1%的极值上进行了优胜化。
3.3. 股东信函的文本测量
传统的文本分析采用词包法来衡量管理者在信中的语气。我们将这些变量作为文本控制变量。LM_Negative是Loughran-McDonald(Loughran和McDonald,2011)在股东信中与财务有关的否定词的数量除以股东信中的总字数,以百分点表示。LM_Positve、LM_Uncertainty、LM_Litigious、LM_StrongModal、LM_WeakModal和LM_Constraning的构建方法类似。
4. 文字型基金信息能否选择知情的基金?
4.1. 基金业绩
其中一个关键的任务是确认共同基金在股东信中披露私人信息的联合假设,以便我们的神经网络模型能够成功地选择知情基金。因此,我们考察了未来的基金业绩,以验证我们模型的预测。
在这项研究中,我们专注于国内股票基金,因为它们是共同基金的主要类别,而且它们的业绩有明确的基准,如Fama-French-Carhart四因素模型。我们考虑在申报层面进行以下回归,以基金(i)-申报(j)-日期(t)为索引,加上年份和基金的固定效应。
在神经网络模型有能力选择知情基金的假设下,我们预计系数β会显著为正。图2的结果证实了这样一个猜想。在所有规格中,预测模型识别的知情基金都战胜了不知情的基金。前四列显示,知情基金的年度异常收益率高出80-88个基点。对有基金固定效应和无基金固定效应的规格进行比较,可以发现添加基金固定效应实际上并不影响β,这表明基金的信息性是随时间变化的,取决于经理人在下一时期的私人信息。我们进一步增加了家族(公司)固定效应和经理人固定效应,发现了类似的结果,证实了文本基金信息捕捉了经理人在下一时期的信息集,而不是由未观察到的、时间不变的经理人和公司特征驱动。
因为训练和预测过程只使用股东信中的文字内容,所以文字基金信息应该独立于其他被现有文献认为与未来基金业绩相关的特征或技能衡量标准。事实上,在控制了包括回报差距、DGTW基准调整后的回报、过去持有的投资组合回报等技能指标,以及过去的业绩、规模和年龄等基金特征后,知情基金优异的经济和统计意义几乎没有变化。由于其随时间变化的性质,基金文本信息与现有文献中记载的技能衡量标准不同。经理人在N-CSR表格中也披露了投资组合的持有情况,其中可能包含未来业绩的信息。在未经分析的情况下,我们进一步控制了同期投资组合的持有回报,以获取与投资组合持有情况正交的信息,并获得了类似于文本基金信息的系数,这表明文本基金信息为投资组合持有情况提供了增量信息。
4.2. 晨星基金评级
最近的研究(Ben-David, Li, Rossi, and Song, 2019; Cheng, Lu, and Zhang, 2021; Evans and Sun, 2021)记录了投资者使用晨星基金评级来分配他们的资本流动。因此,基金提高其评级是理性的。例如,2018年有7%的股东信明确提到晨星评级或晨星创建的基准收益。
我们认为晨星评级是技能的一个替代。我们期望由神经网络模型预测的知情基金在未来拥有更高的晨星评级,并寻找更有可能经历晨星评级升级的基金。具体来说,我们考虑在申报水平上进行以下回归,以基金(i)-申报(j)-日期(t)为指数,加上年份和基金(或基金家族)的固定效应。
系数β反映了文本基金信息和MSRating水平之间的关系。如果我们加上PastMSRating作为控制变量,那么系数β就能捕捉到文本基金信息和MSRating的变化之间的关系。
图3给出了两种情况的结果。例如,第(1)栏显示,知情基金可能与MSRating高出0.1个标准差有关。在列(5)和(6)列中,我们发现在控制PastMSRating的情况下,结果基本相似,说明知情基金不仅更有可能拥有较高的MSRating,而且更有可能获得MSRating的提升。
5. 投资者能否识别文字型基金信息?
5.1. 基金流量
由于神经网络模型的预测完全依赖于针对基金投资者的股东信中所包含的文本信息,一个自然的问题是,知情基金所写的信是否可以吸引更多的资金。因此,一个测试方式是将未来的基金流量与截面上的文本基金信息联系起来。图4给出了以下回归的结果,以基金(i)-申报(j)-日期(t)为指数,加上年份和风格的固定效应,在申报层面上进行回归。
虽然Flow6m是代表流量的主要变量,但我们通过使用Flow12m、Flow24m、Flow3d和Flow5d,在不同的窗口中考虑长期和短期的流量。对于超过6个月窗口的流量,我们也控制了同期的Alpha,以排除投资者只是追逐同期的回报而不是根据股东信的信息进行投资的可能性。
图4 A的前两列显示,投资者根据文字基金信息将更多的资金投入到知情的基金。在申报后6个月的时间里,两组基金的流入资金差异为1.59%至1.82%。一个不知情的基金经理可以在股东信中夸大他的能力,以减少赎回风险,这是可能的。然而,投资者在长期会观察到他收集私人信息的真实能力。图4 A的最后四列说明,在投资者收到股东信后的半年期以上和两年内,预测表现较好的基金比预测表现较差的基金收到的资金更多。两组基金流量的经济幅度在下一年为2.84%至3.00%,在下两年为4.49%至4.63%。结果呼应了对知情基金的激励,即他们希望减少资本约束以实现其长期投资战略,即使他们在短期内可能不会有出色的表现。
知情基金吸引资金的一个假定是,投资者会关注股东信。最近的研究表明,投资公司使用N-CSR表和13-F表来进行投资决策(Chen, Cohen, Gurun, Lou, and Malloy, 2020; Crane, Crotty, and Umar, 2020; Cao, Du, Yang, and Zhang, 2021)。我们放大了基金向投资者发信日期的短暂窗口,并分析了资金流动的时间。我们假设,由神经网络模型识别的知情基金在投资者收到股东信后会有更多的资金流入。为了验证这一假设,我们使用了Trimtabs数据库中的每日流量数据,该数据库以前在Greene和Hodges(2002),Kaniel和Parham(2017),以及Agarwal,Jiang和Wen(2020)中使用过。
图4 B的结果证实了这一猜想。知情基金在[0,3]天内吸引了11.5至13.5个基点的资本流动,在[0,5]天内吸引了23.4至24.5个基点的资本流动,其中0天是指基金提交股东信的日期。我们控制了风格的固定效应,以尽量减少投资者因不同的投资目标而对基金进行不同的资金分配的可能性。在使用年度和风格固定效应的情况下,结果是成立的。五天内流量差异的经济规模相当于一个普通基金的美元价值448万美元。5.2. 什么时候知情的管理者会得到更大的资本流动的回报?
管理人的基本激励之一来自于管理基金的补偿方案。尽管经理人可以选择不同水平的管理费,但总的净资产(或资本流动)在决定他们的报酬方面起着同样重要的作用。一些经理人努力撰写具有启发性的股东信,以表明他们的技能并吸引资本流动,如果基金投资者确实阅读了他们的信并做出相应的投资决定,我们应该观察他们在这方面的成功。
由于我们无法追踪投资者的身份,发现投资者是否阅读股东信是一个挑战。为了克服这个障碍,我们使用SEC EDGAR网站上的股东信的访问次数来衡量投资者对该信的关注度,这代表了对股东信的阅读量。我们预计,当知情基金的股东信有更多的读者时,他们会对股东信做出更多的反应。另一方面,如果投资者对股东信的关注度较低,资金流在知情基金和不知情基金之间是无所谓的。
图5的结果提供了支持性的证据,即当投资者在做投资决策时考虑到他们的信件(即投资者关注度高)时,知情的管理者比不知情的管理者成功地吸引了更多的资金流动。这样的结果进一步验证了投资于知情基金的投资者是根据股东信中的信息内容而不是其他同时存在的信息来源做出决策的。
6. 股东信的信息内容
6.1. 知情基金的主题
第4节证实了为选择知情基金而设计的神经网络模型实现了目标,并表明被选中的基金产生了更好的未来业绩,更有可能拥有更高的晨星评级,并获得评级的提升。第5节进一步发现,投资者认识到定性披露所带来的收益,在3天的窗口期和两年内将更多的资金投入到知情基金中。在这一节中,我们将放大模型以了解预测能力的来源。
我们首先探索知情基金所讨论的主题的选择。我们利用Blei、Ng和Jordan(2003)开发的无监督LDA,将股东信分为四类。对于每个类别,我们选择前五个关键词来识别潜在的主题,并根据这些关键词来分配一个标签。
图6显示了知情基金所讨论的主题清单。我们观察到,第一类基金倾向于讨论部门,而且可能是某些部门的专家,如能源。第二类基金专注于投资组合的风险承担,第三类基金倾向于对金融市场和经济的大环境提出见解。虽然我们的样本由国内股票基金组成,但Kacperczyk、Sialm和Zheng(2008)的常规选择标准并不排除主要投资于股票市场的基金可以持有一小部分债券资产的可能性。有趣的是,最后一类的知情基金经常讨论债券收益率,以及利率,这取决于美联储的政策。这表明,持有混合金融证券的股票基金可能表现良好,因为这些经理人有能力收集股票市场以外的私人信息。
6.2. 谁在股东信中加入质量信息?
我们的神经网络模型能够很好地工作的基本假设是,经理人在股东报告中提供信息丰富的讨论。第4节的结果验证了这样一个假设。然而,考虑到披露是有成本的,因为竞争对手可以模仿披露公司的投资策略(Frank, Poterba, Shackelford, and Shoven, 2004; Phillips, Pukthuanthong, and Rau, 2014; Cao, Du, Yang, and Zhang, 2021),这就引出了另一个问题:披露质量信息的程度。
我们探讨哪种类型的基金能够写出更多信息的文本内容。因此,我们将预测的准确性与基金特征联系起来,并考虑以下Logit回归。
我们的神经网络模型能够很好地工作的基本假图7显示,我们的神经网络模型在参与高风险的基金中产生了更大的准确性,并以过去基金收益的波动率来衡量。对于具有较高风险的基金,由于历史收益的波动性,特别难以区分其技能和运气。因此,我们的模型在评估这些不透明的基金方面增加了独特的价值,并有可能为基金投资者提供洞察力。该模型还能对较老的基金和收取较高费用率的基金作出更准确的预测。
图8 A显示,在 "高风险基金 "中,知情的基金在风险调整的基础上每年比不知情的基金多出1.32%至1.40%。在 "低风险基金 "中,表现要弱得多或不明显。图8B显示,在高风险的基金中,与不知情的对手相比,知情的基金更有可能获得晨星评级的提升。这种结果在低风险的基金中并不存在。
在图8 C中,如果高风险基金被评估为拥有技能,则更有可能吸引资本流入。无论衡量资金流动的期限如何(从3天到24个月),资金流入的增量都很明显。另一方面,低风险基金经历了相同数量的资金流入,知情的基金和不知情的基金之间没有区别。
总之,由于我们的神经网络模型完全依赖于股东信中的文字内容,图8中的结果支持这样的观点:承担更大风险的知情经理人更有可能给投资者写一封信息丰富的信,以便将自己与不知情的经理人区分开。
6.3. 自愿披露和基金特点
为了进一步了解经理人披露特权信息的动机,我们将样本中的基金与未在N-CSR表格中加入股东信的基金进行比较,并研究加入股东信的决定是否与任何基金特征有关。由于只有两种结果(即包括或不包括信函),我们考虑采用Logit回归的决定因素模型。
图9表示基金特征与在N-CSR表格中加入股东信的可能性之间的关系。承担风险较高的基金不仅更有可能撰写内容丰富的股东信(第6.2节和表7、表8),而且更有可能在其申报文件中首先包括定性披露。还有证据表明,周转率较高的基金倾向于写股东信,因为投资者很难从频繁的投资组合变化中分辨出他们的真实技能。
撰写股东信的可能性与12b-1费用呈正相关,表明那些在营销和分配上花费巨大的基金有可能利用股东信作为与投资者沟通的有效工具。年龄较大的基金和经理任期较长的基金更有可能写股东信,因为经理可能对职业的关注较少,因此,更有可能自愿提供跨越各种话题的讨论,以吸引潜在的投资者,这与披露有价值的信息在未来证明的概念是一致的。经理的技能和可以在未来的劳动力市场帮助经理(斯特恩和詹姆斯,2016)。由于未来的劳动力市场机会包括外部工作和内部晋升,结果也突出了披露真实信息的动机,因为任何伪造的信息都很容易被目前的雇主核实,从而不利于可信的内部晋升。
7. 结论性意见
本文通过对共同基金股东信中的文本信息实施NLP和神经网络模型,创建了一个创新的共同基金隐含信息衡量标准--基金文本信息。我们设计用以预判未来基金表现的神经网络模型比传统的文本分析中的词汇包方法更好。它能成功地识别出提供更优的非正常收益并获得更高的晨星评级的知情基金。我们通过汇编知情基金讨论的主题清单来进行机器学习,包括行业专业化、投资组合风险承担、金融市场的大环境和跨资产的混合策略。这些话题的信息内容有助于提高文本基金信息的预测能力。
此外,拥有文本基金信息的基金在短期和长期都比没有文本基金信息的基金吸引了更多的资本流动,这表明投资者有能力识别这种信息;当更多的投资者在做投资决策时考虑时,结果就更明显了。
我们的模型对具有较高风险投资组合的基金产生了更大的准确性,这些基金通常被视为不透明的基金,因为它们的真实投资能力与运气难以区分。更重要的是,这些基金比那些风险较低的基金更有可能写出翔实的信件。风险较高的基金,投资组合周转率较高的基金,营销费用较高的基金,经理任期较长的基金,以及年龄较大的基金,更有可能在N-CSR表格中包括定性披露,因为他们认为股东信是与投资者沟通的必要工具。
风险提示:本报告内容基于相关文献,不构成投资建议。
注:文中报告节选自天风证券研究所已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告
《天风证券-金融工程:海外文献推荐第208期》
对外发布时间
2022年01月21日
报告发布机构
天风证券股份有限公司
(已获中国证监会许可的证券投资咨询业务资格)
本报告分析师
吴先兴 SAC 执业证书编号:S1110516120001
韩乾 联系人
点击“赞”或“在看”,及时获取最新推送