本文利用最新的机器学习技术(词嵌入模型),基于209480份财报电话会议记录文本数据,生成了一套文化词典;而后分别针对创新、诚信、质量、尊重和团队合作五大价值观,对2001-2018年间每家企业的企业文化进行年度打分。相比于传统的基于研发支出和专利数量的企业创新能力度量方法,本文的企业文化度量方法可以反映企业的更多信息,涉及的范围更为广泛。此外,通过实证,我们发现企业文化与企业业务成果之间存在相关性(业务成果包括经营效率、风险承担能力、盈余管理能力、高管薪酬设计、企业价值和交易能力)。并且在经济不景气的情况下,企业文化与企业绩效的联系更加紧密。最后,本文提供了一些具有启发性的证据,表明企业文化可以由重大的企业事件(例如兼并和收购)塑造。
什么是企业文化?据O’Reilly和Chatman (1996, p. 160),企业文化是“一个共用的价值观系统和一套组织成员的态度行为准则”。与根深蒂固的国家文化价值观不同的是,企业文化具有路径依赖性,并且可以被某些企业事件改变和塑造 (Weber、Shenkar和Raveh 1996; Guiso、Sapienza和Zingales 2015; Graham et al. 2018; Grennan 2018)。企业文化之所以重要,是因为企业员工难免会面临无法被事先妥当规范的情景 (O’Reilly 1989; Kreps 1990)。尽管这一主题非常重要,然而现存文献对大样本的研究仍十分有限,这可能是由于企业文化的概念比较模糊,导致了实证研究中的度量问题(参见Zingales[2015]的评论和Graham 等人[2018]的访谈资料)。
在本文中,我们提出了一种半监督机器学习方法来衡量企业文化。我们的出发点是标普500中的企业在其网站上常提及的五个价值观(Guiso、Sapienza和Zingales 2015):“创新”、“诚信”、“质量”、“尊重”和“团队合作”,这其中的每一个词汇都代表了企业的核心价值观。我们通过引入一种量化文本的新型机器学习方法(Mikolov 等人,2013 年;word2vec模型),基于词嵌入模型对金融和会计领域相关研究做出了重要的方法论贡献。首先,本文基于词嵌入模型训练了一个神经网络模型,针对财报电话会议文本数据,通过联系上下文的方式来学习其中所有单词和短语的含义。然后,基于该模型的结果,我们构建了一套“文化词典”,其中包含了与每个文化价值观密切相关的单词和短语。例如,这个神经网络会自动学习像“联盟(alliance)”和“生态系统(ecosystem)”这样的单词、像“双赢(win-win)”这样的短语、甚至是像“肩并肩(shoulder to shoulder)”和“亲密的(hand in glove)”这样的俚语,然后将其分类为企业文化词典中的“团队合作”部分。接着,通过对会议记录中的该类单词和短语进行加权频率计数,我们可以得到一个企业在“团队合作”这一项的得分。
使用财报电话会议记录来计算企业文化的得分的原因如下:第一,高管团队会极大地影响一个企业目前的文化(例如,Guiso, Sapienza和Zingales 2015; Graham等人2019)。Guiso、Sapienza和Zingales (2015)进一步说明,要想使一个特定的价值观深入人心,企业领导必须以身作则,践行并宣传这个价值观。如果管理者可以做到“言行一致”,那么其在电话会议中的发言在一定程度上可以真实反映公司的价值观。第二,财报电话会议的主要目的并不是讨论一个企业的价值观,而是企业的经营和绩效。一个企业的网站或者新闻稿中所描述的信息并非一定有效,因为在那里他们将相对容易地运用“套话”来宣扬他们的价值观。为了确保信息有效,我们衡量企业文化时使用的是电话会议中的问答环节(QA),而不是演讲的部分,以此减少企业过度的自我营销问题。在问答环节中,管理者几乎没有机会选择要讨论的主题 (Lee 2016)。第三点,我们的方法判别并分类了与特定的企业文化最相关的单词和短语,创建了一个相对详尽的文化词典。此外,我们的方法在对企业文化进行打分时,对出现得较频繁的单词/短语赋予了更低的权重——这将有助于解决过度关注“声明”价值观的问题。在打分之前,我们也会删除主观感情色彩过于浓重的段落(Larcker和Zakolyukina 2012)。正如Loughran和McDonald (2011)所指出的,电话会议记录中的非平凡的词语会不可避免地面临被错误分类的问题,我们关心的是错误分类的情况占比有多少。在本文中,我们将尽可能地用通俗易懂的语言,介绍一种全新的机器学习方法,助力金融和会计领域的研究。
首先,本文基于2001至2018年间Thomson Reuters’ StreetEvents数据库中的209480份财报电话会议记录,训练了词嵌入模型,获得了7501个不同企业的企业文化价值观(共62664条企业的年度数据)。我们选择运用“创新”、“诚信”、“质量”、“尊重”和“团队合作”这些最成熟、最实用的指标,来检验我们的企业文化衡量方法的有效性。我们发现企业文化价值观与这些标志有很强的正相关关系。同时,我们也将本文基于QA部分的度量方法与基于以下内容的度量方法进行了比较:
(a)基于整个电话会议(包括讲演部分和QA部分);
(b)对QA部分的种子词语的简单统计,包括一些表示价值观的词语,如“创新”,参见Guiso、Sapienza和Zingales(2015);
(c)将词嵌入模型应用于年度报告( 10 - Ks )中的管理层讨论与分析部分(MD & A)。
测试结果表明,相对于其他备选的企业文化度量方法,将词嵌入模型应用于QA部分,可以显著提升效果。
接下来,我们将探讨强大的企业文化对企业业务成果的影响。我们发现,拥有强大企业文化的公司,通常有着更高的运行效率、更高的风险承受能力、更少的盈余管理、更有效的高管薪酬设计方案(更有利于培养风险承担能力和明确长期导向),以及更高的企业价值。并且,在经济不景气的时期,企业文化与绩效之间具有更明显的联系。在另一个应用实例中,我们检验了企业文化在兼并收购(M&As)中扮演的角色,使用的数据是2003至2018年间近8000次兼并收购数据。首先,我们发现,在“创新”和“尊重”这两项价值观得分高的企业更有可能成为收购者,而在“诚信”和“质量”这两项价值观得分高的企业则不大可能成为收购者。就兼并双方的匹配度而言,我们发现,文化价值观更相近的企业更有可能达成交易。我们进一步发现,在控制了并购方与目标企业的企业文化匹配程度后,并购方的价值观与其目标企业在并购前的价值观有着正相关关系——这表明企业文化本身也受到并购的影响。
本文对管理、会计、财务等领域的企业文化相关研究做出了重要的、长远的贡献。尽管这一主题很重要,但在以往有关企业文化与企业政策的研究中,主要是采用企业文化的代理指标(Biggerstaff、Cicero和Puckett 2015; Davidson、Dey和Smith 2015)或依赖调查/访谈所提供的证据(例如,Guiso、Sapienza和Zingales 2015; Graham等人2018, 2019)。本文通过使用一种最新的机器学习技术——词嵌入模型(Mikolov等人2013)来衡量企业文化。该模型可以随着时间的推移,轻松适用于大量的公司样本,从而扩展和补充了以往的研究工作。研究表明,相比于传统的基于研发支出和专利数量的企业创新性度量方法,本文的企业文化度量方法可以反映企业的更多信息,涉及的范围更为广泛。并且我们发现,基于大样本数据,企业文化与效益产出在任何维度都存在相关性。
据我们所知,本文是金融和会计学领域中的第一篇将神经网络语言模型应用于定性分析公司披露的文章。这个神经网络语言模型是“深度学习”的前沿理论(e.g., LeCun, Bengio和Hinton 2015)中的一个重要部分。
从方法论的角度来看,我们的贡献主要有两个方面。首先,我们引入词嵌入模型作为一种量化单词含义的新方法。Loughran和McDonald(2016)指出,大多数文本分析方法仅仅在文档层面进行,且忽略了文字间的顺序和其所处的语境,将单词视作了一个个独立个体。在许多应用场景背后都包含着这种“词袋”的假设。比如语气(情感)的测量、手动构建单词表(Loughran和McDonald 2011; Henry和Leone 2016)、文本分类(Routledge和Sacchetto和Smith 2018)和主题建模(Huang等人2018; Lowry、Michaely和Volkova 2020)。词嵌入模型( word2vec )通过使用神经网络,实现对词的上下文语境进行深度解析,从而超越了这个假设。因此,单词和短语被编码成数字向量,而不是被视作单独的标志。这种矢量化提供了一种在表达层面量化语义而不仅仅是句法的有效方法。
第二,我们提出了一种全新的用于文本分析的半监督机器学习方法。这个方法介于监督学习方法和无监督学习方法之间。监督学习方法需要大量带标记的观测值作为训练集——这些观测值通常以企业效益产出的形式呈现(例如预测并购,参见Routledge, Sacchetto和Smith [2018];管理层竞选,参见Erel等人[2019]);无监督学习则最大限度地减少了人为的输入,让数据自动呈现其内在含义(例如主题建模,参见Huang等人[2018]和Li等人[2020])。相比而言,我们的方法并不依赖人为标记的文档,但是我们仍然可以为算法提供有限但关键的指导(即文化价值及其种子词), 让它能够从财报电话会议文本数据中归纳和收集企业文化信息。因此,我们的方法可被应用于在以下两种情况中,从企业披露报告中衡量其他预定义的企业属性:(1)缺乏明确的企业效益产出结果或者人为标记的数据,这种情况下监督学习并不适用;(2)预定义的企业属性相当微妙,无法在数据中自动显现,这种情况下主题建模(例如隐式狄利克雷方法,即LDA方法)也不适用。
由于复现文本分析较为复杂,我们在Internet Appendix中提供了一个独立的专业附录,它会将文档句法分析和模型训练的步骤一步一步地展示出来。同时,我们也提供了Python代码,并将其储存在一个公共库中,以便于将来研究——这对于定量分析企业文化的方法来说尤为重要,因为与文化价值相关的词语和短语会随着时间推移而演变。
调查显示(Graham 等人,2018 年),当高管们被问及对建立企业文化影响最大的因素时,超过一半的人认为,其现任CEO是影响最大的因素,而不是公司所有者、创始人、市场声誉或形象、内部政策和程序以及过去经历的困难时期等。早期的研究结果(Biggerstaff, Cicero, Puckett (2015), Davidson, Dey, Smith (2015), Guiso, Sapienza, 和Zingales (2015))与该调查结论保持一致。这些研究运用了CEO的属性和行为来作为企业文化的代理变量。财报电话会议是一种常用的企业外部沟通渠道,主要涉及CEO(有时也有其他高管)与分析师们的交谈——我们希望,它能解释这些企业领导人以及其领导企业的重要企业价值观;Graham等人(2018) 也推荐将财报电话会议作为衡量企业文化的主要途径。
诚然,使用财报电话会议作为数据来源时存在一个重要问题:管理者可能会试图在会议期间粉饰自己的企业文化。值得说明的是,这些会议的首要目的应该是讨论企业的运营和绩效,而不是营销自己的企业文化。以往的研究表明,财报电话会议除了提供关于营收的信息之外,还提供了与价值观息息相关的信息。电话会议的信息质量大多归功于其交互性,这种交互性也使得电话会议包含更多针对会议参与者提出的具体问题的即时性回答(Frankel, Johnson, and Skinner 1999; Matsumoto, Pronk, and Roelofsen 2011; Lee 2016)。因此,高管对企业经营和绩效进行的讨论,使得我们最终可以应用财报电话会议,对企业文化进行评分。相较于QA部分,电话会议中的演讲部分很可能是提前打好了草稿,或者经过企业律师和投资者关系部精修的。而QA部分有更强的自主性,让管理者们几乎无法作假。在实验中,我们担心样本数据中混入了太多管理者们的“套话”,所以选择了QA部分来衡量企业文化。
从方法论的角度来看,我们使用的方法也有助于提高样本数据的有效性。一个合理的假设是,“讲套话”的管理者会更倾向于使用常用词,如表示价值观的词本身。我们的方法能够学习成百上千、甚至成千上万的与每一个文化价值观存在关联的单词和短语。而企业的文化得分是由所有这些词和短语的组合共同决定的,而不仅仅是管理者更容易提及的表示价值观的词所决定的。此外,由于词嵌入方法是从相邻的词/短语中学习一个词或短语的意义,所以,除非管理者能够在QA部分特意将某个流行词放在上下文中来帮助我们理解该词的含义,否则我们的方法不一定会将这个流行词收录在文化词典中。最后,我们采用了单词加权的方案:在对企业文化进行评分时,对电话会议中出现频率较高的词或者词组赋予较低的权重,这有助于减轻我们可能捕捉“陈述”价值观的担忧。为了进一步缓解这一担忧,我们将在第4节中就本文方法的有效性提供证明。
尽管如此,我们的单词列表和衡量方式是无法摆脱噪声的影响的,我们在未来仍需要做更多的工作来改进我们的方法。本研究中,尽管管理者们的意图是不可观测的,我们的目标是提供一种基于最佳可用数据源来衡量企业文化的新方法。
我们从homson Reuters’ StreetEvents (SE)数据库中获取了2001年1月1日至2018年5月25日之间的财报电话会议记录。每个文件都包含了每次电话会议的通话记录正文和有助于1.8在Compustat数据库中匹配公司信息的元数据:股票代码、公司名称、事件标题、电话会议的日期。匹配后,电话会议数据集由64,511条企业年度数据(包括209,480个QA部分)组成。请读者参阅Internet Appendix的第一节,了解我们的匹配程序。表1列出了形成最终样本所采取的步骤和过滤条件。
我们使用Stanford CoreNLP包来对文本进行预处理和解析。Internet Appendix的第2、3部分提供了这些步骤的详细说明。我们把文档分割为句子和单词,然后把单词还原成它们的基本形式。我们进行命名实体识别( Named Entity Recognition,NER ),以用预先定义的标记替换命名实体——如位置、时间、人员和公司名称。最重要的是,就像Routledge, Sacchetto和Smith (2018)所说明的那样,从企业披露中收集信息时,短语(搭配)起着至关重要的作用。在其工作的基础上,我们采用两步法来提取一般和特定语料的短语。在步骤一中,我们使用CoreNLP包中的依赖解析器来识别固定的、由多个词语组成的表达(例如“相对于”)和复合词(例如 “知识产权”、“医疗提供商”)。这些短语通常是普通英语词汇中的一部分,或者是可以根据词与词之间的语法关系而进行推断的短语。在步骤二当中,我们利用gensim库的短语模块,来查找特定语料库的两词和三词短语 (即在财报电话会议记录里QA部分中,在统计学意义上显著地共同出现的词语)。例如,在第二部分中学习到的短语,包括“前瞻声明(forward-looking statement)”和“多此一举(beat (a) dead horse)”。我们使用下划线“_”将所有短语连接成一个单词。结果表明,在财报电话会议中,短语是文化价值观传播的关键部分。
越来越多金融和会计领域的研究者依赖自动化文本分析技术来从企业披露中提取有用信息。一个普遍使用的方法是对具有共同含义的字典中的单词进行计数。例如,一些字典,像Harvard’s General 标签类别, Loughran和McDonald (2011), Linguistic Inquiry和Word Count (LIWC) (Pennebaker et al. 2015),已经被广泛用于测量文本的语气(情感)。然而,开发用于衡量企业文化的词典可能是一项艰巨的任务。就像Loughran和McDonald (2016)所指出的,创建一个实用的词典需要很好地把握商业案例的语境。像Loughran,McDonald (2011)和LIWC所提出的,传统的解决方法是让专家手动检查特定语境中常见的词汇,并将其分类。在应用这种方法生成企业文化词典时,会出现几个直接的难题。
首先,企业文化的讨论通常会以一种微妙的方式进行。与反映一般商业观点的语言不同,企业文化可以用频率较低的单词、缩略语、短语或习语来描述,而这些单词只有在特定的语境中才有意义。例如,在财报电话会议当中,人们可以理解“双向车道(two-way street)”这个短语是与团队合作有关的,然而,脱离了这个语境,即使是金融专家也很难从数百万个孤立的单词和短语中辨认出这个短语。其二,企业文化可以是一个难以捉摸的多维度的结构。这种内在的复杂性意味着,即使可以从一组文档中提取所有与文化相关的词和短语,与语气分析相比,对它们进行分类也将是一项更复杂的任务。当人们面临五种或五种以上的选择(例如我们设定的五种文化价值观)时,很难以一致和客观的方式对每个单词进行分类。第三,即便是专家也无法创建和维护能够适应商业世界不断变化的词典。随着技术和产业的发展,商业词汇体系会不断吸收和排除新的词语。例如,在20世纪初创建的一本词典可能无法预知"人工智能"这个单词将在20年后与企业创新息息相关;同样,它可能会忽视“自由职业者”这样的词——它无法预料到自由职业者在当今劳动力队伍中的作用越来越大。
总的来说,虽然深入了解业务运营的专家在理论上可以根据上下文理解单词和短语的细微的含义,但这样的做法往往是不切实际且成本效益低下的。因此,我们提供了一种基于机器学习的替代方案来应对这些挑战。我们提出的这个方法从定义每个文化价值观的种子词语开始,并基于定性的企业披露报告,自动创建一套高质量的词典。这个方法的核心是基于语境学习单词(短语)的含义的词嵌入模型。我们的方法不仅仅可以生成衡量企业文化的词典,也可用来生成适用于其他学科领域的词典。
词嵌入模型的目标是用数值向量表示语义(即词的意义)。反过来,词向量允许我们使用简单的向量算法来确定词与词之间的关系。在我们的实践中,我们首先计算任意两个词向量之间的余弦相似度,以此来判断两个词是否为同义词。基于学习到的词语与特定文化价值观的种子词之间的相似关系,可以识别出描述文化价值的一组广义词和短语的集合,并据此对企业进行评分。
词嵌入模型的原理是基于语言学中一个简单的、经过时间检验的概念之上:与相同的相邻词共同出现的词具有相似的意义( Harris 1954 );因此,该模型从常见的相邻词中识别同义词。一个简单的词嵌入方法是构造一个计数向量,该向量会计算语料库中出现在焦点词附近的其他词(例如,离焦点词不超过一定距离的词)的次数(第4.2节和Internet Appendix中表IA1提供了一个简单的例子)。一旦我们通过对每个词的相邻词进行计数而建立一个这样的计数向量,理论上,我们便可以通过计算任意一对词语的计数向量的余弦相似度,来估算它们之间的关联度。然而事实上,所有词语和它们可能的相邻词的组合是巨大的,使得简单的基于计数的词嵌入方法很难被实现;因此,我们需要一个全新的方法。
作为自然语言处理(NLP)技术的突破,word2vec (Mikolov等人2013)采用神经网络来高效地学习可以表明词语含义的、密集且低维的向量。从本质上来说,word2vec通过一个“阅读”文本文档的神经网络,来“学习”一个具体词语的含义,并由此学着去预测其所有相邻词语。神经网络中的参数是随机初始化的。随着学习的进行,神经网络中的参数通过反向传播(即神经网络的标准训练算法)进行调整,从而不断提高神经网络对词语邻近词的预测能力。在对文档进行多次迭代后完成学习之时,这些参数将成为一个单词的有效向量表示。该向量具有固定的维度,通常在50 - 500之间,并将捕获该词与其相邻词之间原始共现关系的属性。Levy和Goldberg ( 2014 )的研究表明,word2vec实现的向量化,类似于相邻单词计数矩阵的奇异值分解(即是降维技术)。请读者参考Internet Appendix中的4.4部分以便获得word2vec更多理论推导。
我们使用Python中的gensim库来训练word2vec模型。其他深度学习包,如TensorFlow和PyTorch,也可以用于训练模型。我们将词向量的维数设定为300;如果两个单词在句子中相距不超过5个单词,我们将它们定义为相邻词,同时我们省略了语料库中出现少于5次的单词。Internet Appendix中4.5节进一步解释了训练该模型的超参数。训练后,该模型将语料中的764,276个单词全部转换为300维向量,用以表示该单词的含义。
衡量企业文化的出发点是标普500企业在其企业网站上最常提到的五个价值观( Guiso,Sapienza,Zingales 2015 ),这五个价值观与对应出现频率分别为:创新( 80 %)、诚信( 70 % )、质量( 60 % )、尊重( 70 % )和团队合作( 50 % )。Guiso,Sapienza和Zingales ( 2015 )在考察了每个企业自己的、企业之间的每一个价值观聚类的所有词及其出现频率后,为每个价值观提供了其含义单位(即种子词)。Loughran和McDonald ( 2011 )指出,为其他学科开发的词表会错误地对金融文本中的常用词进行分类,因此,在我们使用财报电话会议来衡量企业文化的背景下,从公司网站( Guiso、Sapienza和Zingales 2015 )中筛选出的词表,可能并不完全适用。因此,在训练了word2vec模型之后(据此我们可以获得每个价值观/种子词的词向量),我们手动地检查了Guiso, Sapienza和Zingales (2015)所归纳的价值观/种子词,以确保在以下两个标准下,每类文化价值观都由一组连贯的种子词所明确定义:[1]
1. 标准1:这个词或短语出现在财报电话会议中。在这一标准下,像“做正确的事”(诚信)和“超出预期”(质量)这样的短语被我们剔除。
2. 标准2:在电话会议的QA部分的语境下,一个单词或者短语的同义词(借助word2vec)与企业文化价值观有着非常明晰的相关性。“成长”(创新)和“多样性”(尊重)等词被我们剔除,因为它们的同义词表明,“成长”更可能是描述过去的业绩,“多样性”则更可能是描述多样化战略。
在排除了Guiso, Sapienza和Zingales (2015)的词典中一些不符合上述标准的价值观/种子词之后,我们也会添加新的种子词。这些新添加的单词包括:(1)Guiso, Sapienza, 和Zingales(2015)中原始种子词的其他形式。例如,如果已知“合作”(名词)在列表中,则它的同义词“合作的”(形容词)和“合作”(动词)也会被加入列表;(2)Guiso,Sapienza和Zingales ( 2015 )中比原始种子词更具体明确的短语变体,例如,我们不使用“承诺”,而是加入了 “顾客承诺” (质量)。
Internet Appendix的IA2表列出了包括在Guiso, Sapienza, 和Zingales (2015)词典中的种子词及其高度相近的词,也列出了不包括在Guiso, Sapienza, 和Zingales (2015)词典中的价值观/种子词和它们高度相近的词语,并额外添加了一些种子词和它们的高度相近词。
我们使用经过训练的 word2vec 模型来开发一个扩展的、特定于上下文的词典来衡量企业文化价值。如前所述,我们可以计算任意两个词向量之间的余弦相似度来量化它们的关联,而后将财报电话会议中的单词与定义每个文化价值的种子词相关联,来构建文化词典。我们用下面的例子来说明这个过程。
“团队合作”这个文化价值观下的七个种子词是“collaborate”、“collaboration”、“collaborative”、“cooperate”、 “cooperation”、“cooperative”和“teamwork”。第一个种子词“collaborate”用向量表示成𝑉 {1} = [𝑥1 {1} , 𝑥2 {1} , … , 𝑥300 {1} ], 第二个种子词“collaboration”表示为 𝑉 {2} = [𝑥1 {2} , 𝑥2 {2} , … , 𝑥300 {2} ], …最后一个词的向量为𝑉 {7} = [𝑥1 {7} , 𝑥2 {7} , … , 𝑥300 {7} ]。我们首先计算这些种子词的向量的均值,即为`V {𝑡𝑒𝑎𝑚𝑤𝑜𝑟𝑘} = (1/7) * ∑ [𝑥1 {𝑖} , 𝑥2 {𝑖} , … , 𝑥300 {𝑖} ].然后我们计算财报电话会议记录中,每个单词与V {𝑡𝑒𝑎𝑚𝑤𝑜𝑟𝑘}之间的余弦相似度。我们挑选了最前面的500个和V {𝑡𝑒𝑎𝑚𝑤𝑜𝑟𝑘}有着紧密联系的单词(即有着最高的余弦相似度)作为文化价值观“团队合作”的词典。我们不考虑由CoreNLP包自动识别的命名实体。如果一个单词出现在不同的文化价值观的词典里,我们仅仅把它保留在跟相应种子词均值向量值有着最高余弦相似度的那个字典里。
最后,我们手动地检查所有自动生成的词典中的单词,并剔除不合适的单词。考虑一个单词是否应该被剔除时,我们仔细地学习了它在财报电话会议中的语意。大多数被剔除的单词是CoreNLP包遗漏的命名实体(例如gs1和dana-farber ),它们在行业背景方面过于具体(例如“厨师”和“药剂师”),或者在含义方面过于笼统(例如“重要性”和“工作”)。
Internet Appendix的表IA3列出了文化词典中收录和排除的词语,按照与每种文化价值的种子词语的相似度,从大到小依次排列。
在生成了企业文化字典之后,我们在会计年度层面分别对每个公司五种文化价值观进行度量。我们采用与每个价值观相关联的词数除以文档中的词总数的加权方式来计数,权重为tf . idf,其中tf (词频)表示文档中的词频,idf (逆文档频率)表示文档与语料库中的词的逆频率。本质上,这种加权方案既考虑了文档中单词的重要性,也考虑了语料库中单词的重要性。图表2中的A组,按每个单词与种子单词的相似度降序列出了 30 个最具代表性的单词。图表2中的B组列出了每个文化价值观中出现频率最高的30个词,频率( % )为tf . idf加权词数。
图表3提供了一个我们的样本的总览。我们每一会计年度对企业文化价值的衡量是基于年度文化价值数据的3年移动平均值。我们最终的样本由7,501个企业和62,664条企业年度数据组成。图表3中,A组展示了企业文化价值衡量标准和一些基本企业特征的汇总统计数据。基于财报电话会议,我们发现“创新”是最常被提及的企业文化价值——这恰好与Guiso, Sapienza, 和Zingales (2015)的结论一致;而“诚信”是最少被提及的文化价值观。
图表3中,B组展示了企业文化价值测量结果的自相关性。我们用样本期间具有超过15个观测值的企业数据来计算企业的自相关系数。我们发现,t年和t-1年文化价值观之间的平均相关系数范围为0.695(诚信)到0.790(创新),t年与t - 2年文化价值观的平均相关系数范围是从0.361(诚信)到0.512(创新)。计算第五年滞后相关系数时,平均相关系数大大下降,而且经常变为负值,这表明企业文化随着时间的推移缓慢演变。
图表3中,C组给出了企业文化价值观与企业特征的相关性。我们发现,在五种文化价值观中,“创新”与“质量”的相关系数最高,为0.490;“创新”与“团队合作”的相关系数次之,为0.371;而“诚信”与“质量”的相关系数最低,为0.02;,“创新”与“诚信”的相关性最低,为0.109。我们进一步发现,企业规模、企业杠杆均与“创新”、“质量”、“尊重”和“团队合作”呈显著负相关。经营绩效( ROA )与所有五种文化价值观均呈显著负相关。这些企业文化价值与ROA的负相关关系与以往的观测(如Guiso,Sapienza和Zingales 2015 )一致,即拥有强大企业文化的企业需要在研发和销售、综合费用和行政费用( SG & A )等方面进行投资,从而导致企业为了追求长期收益,而牺牲短期利润 (如本文后面所示)。销售额增长率与五种文化价值观中的任何一种都几乎没有关联(就经济意义而言)。排名前5位大机构持股占比与所有五种价值都存在适度关联。
图表4列出了三个子时期内在不同企业文化价值观中排名最高和最低的标普 500 指数成分公司。首先,我们发现,一个企业的强大企业文化价值是会随着时间改变的。例如,在2001-2006和2007-2012这两个时期,Nvidia Corp在“创新”这一项得分很高,然而在2013-2018这个时期其该项得分却从第一梯队中跌落。此外,我们还发现,一个公司能够在多种文化价值观方面都出色。在2007-2012年这个子时期,Salesforce.com Inc.在“创新”、“质量”和“尊重”方面得分很高,2013—2018年,Blackrock公司在“诚信”和“质量”方面得分很高。最后,我们也看到了企业文化是具有稳定度的。例如,Lauder (Estee) Cos Inc. 和 Procter & Gamble Co. (Texas Instruments Inc. 和 Archer-Daniels-Midland Co.) 在“创新”方面得分高(低);Emerson Electric Co. 在“质量”和“团队合作”方面得分较低;Tapestry Inc. 和 Tupperware Brands Corp. 在“尊重”方面得分很高。
图表5绘制了样本期间内五个文化价值观的图表,它们横跨Fama-French中的12个行业。我们发现了一些有趣的特征:随着时代的发展,大多数行业更加重视技术和创新,在“创新”方面得分更高;医疗保健行业在“诚信”和“团队合作”方面得分最高;而商业设备行业在样本期间“质量”得分最高。
总而言之,图表4和图表5的结果显示,随着时间的推移,企业文化会缓慢地演变。
鉴于我们对企业文化的测度方法是全新的,运用业界公认的、经过广泛实践的指标来检验我们的测度方法,就显得尤为重要。为此,我们对这五种文化价值观使用了大量的指标。
为了验证“创新”这个文化价值观,我们使用ln (专利)、研发支出和创新优势这几个指标。ln (专利)是1加一年内提交并最终授予的专利数的自然对数。数据来源于Kogan等人 (2017)。研发支出特指按总资产标准化的研发支出。创新优势是一个指示变量,如果认为企业在创新和研发方面具有优势,则赋值为1,否则为0。Kinder,Lydenberg & Domini ( KLD 2006 )将创新中的优势定义为“这个公司是其行业中研究和开发的领导者,特别是他会将引人注目的创新产品推向市场”。此数据来源于KLD。
为了验证“诚信”这个文化价值,我们采用了会计中的渎职行为和高管期权授予回溯(backdating executives’ option grants)这两个指标(Biggerstaff, Cicero, 和Puckett 2015)。重新声明是一个指示变量,如果企业后来对(年度或季度)财务报表进行了重新声明,则取1,否则为0。此数据来源于Audit Analytics。回溯(backdating)是一个指示变量,如果授予企业CEO的期权是回溯的,则其值为1,否则为0。为了识别回溯,我们遵循Heron和Lie ( 2009 )的估计方法,其假设是,在没有回溯或其他类型的授予日操纵的情况下,授予日前后一个月股票收益的分布应该大致相同。CEO期权授予数据来源于汤森路透( Thomson Reuters )的内幕资料库。
为了验证“质量”这个文化价值,我们使用产品质量、产品安全和头部品牌这几个指标。
产品质量是一个指示变量,如果企业被认为在产品质量方面有优势,则取1,否则为0。KLD ( 2006 )将产品质量方面的优势定义为“公司有一个长期、完善、广泛用于全公司的质量规划,或者说它有一个在美国业界被公认优秀的质量规划。” 产品安全是一个指示变量,如果企业被认为在产品安全这一块毫无隐忧,则取值为1,否则为0。KLD ( 2006 )将产品安全方面的隐忧定义为"公司最近支付了大量罚款或受到民事处罚,或参与了最近发生的重大争议或受到监管的行动——这些都涉及其产品和服务的安全"。这两个变量的数据皆来自KLD。头部品牌是一个指示变量,如果企业在Brand Finance中排名前500名,则其值为1,否则为0。该列表由Brand Finance构建( http://brandirectory.com/),数据范围为2007年至2017年。
为了验证“尊重”这个文化价值,我们使用多样性和“最佳雇主”称号这两个指标。前者是在多样性方面的优势减去在多样性方面的隐忧,数据来源于KLD;后者是一个指示变量,如果一个企业被列入《财富》( Fortune )的"美国100家最佳公司" ( Best Company to Work in America )排行榜,则其取值为1,否则为0;评判能否列于榜中的主要标准是工作满意度、公平性和友爱程度 (详情见Edmans ;附录中表A1 )。Edmans ( 2011 )的研究表明,财富榜上的企业相比其他企业,员工满意度更高。此列表数据截至2017年。
为了验证“团队合作”这一文化价值,我们使用了员工参与程度、合资企业数量( JVs )和战略联盟数量( SAs )这几个指标。前者是一个指示变量,如果企业被认为在员工参与方面具有优势,则取值为1,否则为0。KLD ( 2006 )将员工参与定义为“公司大力支持员工参与企业活动,或其大多数员工可获得股票期权的所有权;收益共享、持股、财务信息共享,或者参与管理决策。”数据来源于KLD。后者是企业在给定年份内形成的JVs和SAs的数量。数据来源于Thomson Reuters的SDC数据库。
图表6给出了我们主要测量指标(即在QA部分搜集的文化价值)的验证测试结果。在图表6中,A组的结果显示,“创新”这一文化价值与企业创新活动的所有三个指标皆呈显著正相关。即便考虑了行业、年份固定效应以及企业规模和经营绩效,这种正相关关系仍然存在。图表6的B组结果中,我们展示了文化价值观“诚信”和会计渎职形式之一——财务重述(Restatement)之间存在着一种强烈的负相关关系。此外,我们也发现,价值观“诚信”与高管期权授予的回溯也存在高度的负相关关系。图表6的C组中,我们进一步展示,价值观“质量”与三个对应指标中的两个存在显著的正相关关系,即产品安全和头部品牌地位。图表6的D组中,我们展示了文化价值观“尊重”和多样性得分(KLD制作)以及《财富》的最佳雇主排名存在强烈的正相关关系。最后,图表6的E组中,我们展示了文化价值观“团队合作”和KLD中的员工参与度、JVs/SAs的数量存在显著的正相关关系。在图表6的底部,我们给出了增量R2 ( Pseudo R2 ),它从加入利率变量(我们对特定文化价值的度量)到回归规范,提高了模型的拟合度。例如,在A组中,我们展示了在第一列中值为3.6%的R2,以及第三列中最高达到16.6%的R2, 这其中包括规模、ROA、行业和年份固定效应。这两种规格的“创新” 文化价值观增量(R2)分别为3.0 %和0.75 %。“创新”的R2增量为0.75 %,说明在考虑了各种固定效应后,“创新”仍然是解释企业专利数量的重要因素。
由于验证我们测度的有效性以及说明所有5个测度之间的正相关关系(见图表3中C组 )比较困难,我们引入了一个规范,将五个价值观的所有测度放在右边,而因变量则是每一个文化价值中的不同指标。Internet Appendix中的表IA4展示了结果。
表IA4的图A表明,在控制其他四个文化价值观之后,文化价值观“创新”和企业创新活动三个指标中的任何一个都仍然存在显著的正相关关系;其他四个文化价值观,没有像“创新”这样与企业创新活动的三个指标存在正相关关系。图B表示,在控制其他四种文化价值观之后, “诚信”与公司中不道德行为的任何两项指标之间仍存在显著的负相关关系;相比之下,对于两种不道德的企业的指标,“创新”和“尊重”与其呈显著正相关,“团队合作”与其呈显著负相关。与“诚信”不同,上述任何正相关关系都没有一个合理的经济解释。图C表明,在控制了其他四种文化价值观后,除了产品质量之外(1-3列),文化价值观“质量”和其他两种产品质量的指标——产品安全性和头部品牌,仍存在显著的正相关关系;其他四个文化价值观并没有像“质量”一样,与我们的产品质量的三个指标存在正相关关系。图D显示,在控制了所有其他四个文化价值观之后,文化价值观“尊重”与最佳雇主呈显著的正相关关系,而“创新”和多样性、最佳雇主两者间都呈现显著的正相关关系——这并不令人惊奇,因为“创新”和“尊重”之间本身就存在强正相关(相关系数0.321)。图E表明,在考虑到所有其他四个文化价值观之后,文化价值“团队合作”和员工参与&合作这两个指标都存在显著的正相关;其他四个文化价值观并没有像“团队合作”一样与员工参与&合作的两个指标存在正相关关系。
总之,图表6和表IA4中的有效性检验再一次确保了我们对企业文化的衡量方法与广大员工的共同价值观和行为一致,且测量效果良好。
上述验证工作中的一个隐忧是,有了这些测试的指标,我们对企业文化的测量可能会变得多余,因为它们本身具有高度的相关性。但是我们相信,我们的企业文化的度量方法是对企业财务研究的重要补充,原因如下。
首先,虽然企业文化在企业政策或绩效方面可能尚未见成效( Graham等人2018年,2019年),但是强大的企业文化渗透在公司运营和员工行为的各个方面。本文中,我们重点讨论了五种最常见的文化价值观及其指标,以确保分析的可操作性。
第二,我们用来验证某一特定价值观的指标集,通常远不如该价值观本身的含义丰富。例如,一个创新的文化远不仅仅是研发投入和专利数量,还有更多的意义,比如商业机密、新颖/原始的营销战略、优化的生产工艺和高效的后台运营等。同样,文化价值观“诚信”的验证也不局限于我们使用的两个关于渎职的指标。
第三,我们的企业文化测度方式,其数据覆盖面和质量远远优于大多数指标。尤其,我们可以使用财报电话会议衡量任何一个企业的企业文化(包括根据1934年《证券交易法》注册的私营公司;Gao, Harford和Li 2013),而大多数指标却只能用于公营公司。例如,考虑文化价值观“创新”,一个普遍的问题是,Compustat中只有不到40%的企业报告了正的研发投入,而且约15 %的企业重复提供可申请专利的创新产出( Bena和Li 2014;Koh等人2019 )。此外,我们的企业文化价值度量是连续的,而用于有效性检验的指标很多是二进制的(除了ln ( Patent ),R & D支出,多样性和JVs / SAs数量),因此在横截面上的变化有限。
我们对企业文化的主要衡量标准是通过将文化词典应用于电话会议的 QA 部分来获得的。将文化词典应用到完整的通话记录中后,我们便生成一组可供选择的企业文化价值度量,并将其后缀标记为_ Full。
鉴于本文是第一个将词嵌入模型应用于企业文化量化研究的文章,我们不可避免地会遇到这样的问题:与使用Guiso,Sapienza和Zingales ( 2015 )提供的种子词列表和特定的价值词(例如,“创新”)的简单计数方法相比,我们的方法表现如何? 在QA部分中,我们调用种子词(加上价值词)的简单计数来生成一组新的企业文化价值度量结果,并用后缀_ seed对其进行标记。
截止目前,我们都是使用财报电话会议文本数据来评估企业文化。另一种选择是采用10 - Ks的MD & A部分——该部分经常被用于企业披露的文本分析。我们将词嵌入模型应用于1993 – 2017会计年度10 - Ks的MD & A部分,生成另一套可供选择的企业文化价值度量,并使用后缀_ 10k对其进行标注。
图表7展示了对这三种可选测量方案的有效性检验的结果。与图表6作比较,图表7表明了本文的度量方法比其他三种替代方法表现得都要好。对种子词简单计数的替代方案表现最差,基于整个电话会议内容的替代方案次之。总体而言,图表7显示,虽然我们的方法也可以使用其他类型的定性披露,但是使用电话会议的QA部分来衡量企业文化是更好的选择。
最后,我们同样也考虑了给企业文化打分的另外两种替代方案。第一是将词嵌入模型应用于员工的评论,如Glassdoor.com。尽管这些评论是学习企业文化的合理来源(Graham等人2018; Grennan 2018),但这些数据却并不公开。此外,来自员工评论网站的数据时间覆盖范围有限,导致许多公司的评论很少。第二个选择是将主题建模工具如LDA应用于财报电话会议。然而,由于LDA是一种无监督的学习模型,因此无法保证所发现的主题与企业文化相关。Huang 等人(2018) 发现大多数从财报电话会议中提取的主题信息,或与行业相关,或是与业绩相关。我们将LDA运用于财报电话会议的QA部分;Internet Appendix中的表IA7列举了不同的几个排在前面的主题。与Huang等人(2018)的发现一致,我们发现这些主题与企业文化价值观都没有紧密联系。
总的来说,多次的有效性验证、与替代方案之间的比较都表明,词嵌入模型生成了一个高质量的文化词典,可用于对企业文化价值进行有效评分。
有人可能会担心管理者们会在电话会议中过度自我营销,也因此担心我们的方法不能很好地提炼企业文化。在本节中,我们将检验我们的衡量方法是否容易受到管理者情绪化话语的影响。
我们使用语言查询和字数统计(LIWC),来捕捉电话的QA部分中每个语句段落的积极和消极情绪。LIWC是一种计算机程序,用于研究个人口头和书面演讲中出现的各种情绪成分(Tausczik 和 Pennebaker,2010 年)。Larcker和Zakolyukina(2012)提供了一种会计应用程序,在该应用程序中,他们使用LIWC来检测电话会议中高度情绪化的讨论部分。
为了实现这种稳健性检查,我们删除了每一份记录中,那些积极(消极)情绪得分最高的段落的前四分之一部分。然后,我们使用修改后的语料库重新计算企业文化价值得分。当我们排除充满积极情绪的段落时,在公司的年度水平上,新测量值与原始测量值之间的相关性在0.909(质量)到0.961(团队合作)之间,当我们排除充满消极情绪的段落时,相关性在0.898(质量)到0.942(团队合作)之间。
作为一项补充调查,我们使用Larcker和Zakolyukina(2012)开发的替代词列表重复上述分析,仅仅捕捉极度积极的情绪——作者认为这些情绪是CEO们在通话中发表欺骗性讲话的重要标志。新测量值与原始测量值的相关系数在0.880(诚信)到0.927(团队合作)之间。总之,较高的相关系数表明,管理者们在电话会议中的自我营销对本文衡量企业文化的方法没有影响。
词嵌入模型的一大局限是一个单词的多重含义被融合形成了一个单一的向量。我们的语料库来自一个特定的领域——财报电话会议记录,与维基百科这样的更一般的语料库相比,从财报电话会议记录这样的语料库中派生出的词的含义几乎都是明确的(Magnini等人2002; Henry和Leone 2016)。尽管如此,我们还是通过检查我们的主要分析中使用的文化价值观,与使用删除了多义词的字典衡量的文化价值观之间的相关性来进行稳健性检查。
我们使用Pelevina等人(2016)开发的算法从嵌入向量中学习词义。该算法的原理是,对于字典中的每个焦点词,我们首先使用经过训练的word2vec模型,找到与其最高度相关的同义词。紧接着,根据同义词彼此之间的相似程度,将它们分成不同的组。若某一个焦点词的同义词之间存在多个组别,则意味着这个焦点词有着多重的含义。
我们发现,在我们的词典中,仅有很小一部分的单词(12%,212个词)有多重含义。我们从词典中移除了那些具有多重含义的单词之后,用相同的方法对QA部分量化计算了文化价值观。在五个价值观中,包含多义词和没有多义词的测量值之间的相关性很高,从0.868(质量)到0.939(团队合作),这表明对于我们的研究来说,多义词的影响有限。考虑到语料库的高度相关性和所聚焦的特定领域,我们选择在词典中保留多义词。
在最近一项针对北美CEO和首席财务官(CFO)的调查中,超过一半的高管将企业文化视为影响公司价值的三大因素之一,且超过90%的高管认为,改善企业文化将提高公司。在并购活动中,企业文化的契合是非常重要的,以至于大约一半的高管会选择放弃企业文化不一致的并购目标(Graham等人2019)。通过在财报电话会议中应用word2vec模型来给企业文化价值观打分,本文基于大样本数据,检验了“拥有强大企业文化”的影响。
根据Graham等人(2018)的研究,企业管理层将企业文化描述成一种“信赖系统”、“协调机制”和“一只无形的手”。他们通常相信企业文化影响着一个公司各项活动的方方面面。在这一部分,我们将通过Graham等人(2018, 2019)的调查或采访所提供的证据,探索在运行效率、风险承担、盈余管理的动机、高管薪酬设计和公司价值中,企业文化如何发挥作用。
首先,很难说哪一种文化价值观更加有益于企业运行。此外,就如之前所展示的,五种价值观之间存在着较强的正相关关系。紧跟着Graham等人(2019)的步伐,我们运用了一种总括方法来识别具有强大企业文化的公司。我们将“强大的企业文化”定义为一个指示变量,如果一家公司的五种文化价值观的总和在一年内位居Compustat中所有公司的前四分之一,则该变量取1,否则取0。表7的图A展示了强大的企业文化和公司收益的领先滞后关系。
与Graham等人(2018)的采访所提供的证据一致的是,通过资产周转率和存货周转率指标,我们发现,
那些具有强大的企业文化的公司和其较高的运行效率之间存在着正相关关系。Graham等人(2019)的调查所得的证据为“有效的企业文化如何提高风险承担能力”提供了一个例子。通过月度股票收益率的标准差,我们发现,具有强大企业文化的公司和其总体上较强的风险承担能力之间具有正相关关系。
据Graham等人(2019)所述,被采访的高管们一致地将有效的企业文化和企业对长期目标的关注联系起来,这也会对短期盈余管理和高管薪酬设计产生影响。我们将应计利润作为盈余管理能力的替代变量,我们发现具有强大企业文化的公司和其应计利润之间具有负相关关系。如果董事会适应相同的企业文化,高管薪酬的设定方式将符合现有价值观,并将进一步培养风险承担能力和明晰企业长期的方向。与这一推测一致的是,我们发现了企业文化的强度和CEO的财富-绩效敏感性(delta)有正相关关系,同时企业文化强度和CEO对财富和股票波动的敏感性也呈正相关(vega、Coles、Daniel和Naveen,2006),且企业文化的强度还和CEO任职期间的薪酬有正相关关系(Gopalan等人,2014年)。
由于强有力的企业文化有助于提升企业效率、培养风险承担能力且会潜移默化地影响企业的长期方向,我们有理由相信,一个拥有强有力的企业文化的企业会有着更高的企业价值。表A的第8列展示了企业的文化强度和Tobin’s q之间的正相关关系。值得注意的是,当我们使用最多相隔5年的不同领先滞后参数时,企业文化和业务成果之间的强烈关联仍然存在。
根据Graham et al. (2018),在艰难的运营环境中,文化与绩效之间的联系会更加明显——因为强大的企业文化使高管和普通员工能够基于长远的视角做出一致的决策和努力。
为了考察非常时期企业文化对绩效的影响,我们重点关注金融危机对金融公司的影响(根据Fama French 48行业分类,这些公司从事银行、保险、房地产和贸易);以及英国石油公司(BP)Deeper Horizon漏油事件对石油公司的影响。我们对金融危机的相关影响的测试很大程度上参考了Lins, Servaes, 和Tamayo (2017)的实验。样本期间从2007到2010年,且金融危机的发生期间是从2008年8月(早在9月雷曼兄弟破产之前)到2019年3月(标普500指数触及最低点时)。探究BP的漏油事件相关影响的样本期间是从2009年到2012年,漏油事件的期间是从2010年5月到2011年2月。
表7图B展示了使用市场模型修正月度回报的结果。第1列包括了年度固定效应,结果表明具有强大文化的公司在经济危机期间表现优异。第二列包含了公司以及年度固定效应,且可以得出相同的结果。就经济意义而言,强大企业文化与金融危机的交互项的系数为0.024,表明在经济危机期间,拥有强大企业文化的企业的月回报率比没有强大企业文化的企业高出2.4个百分点。第3和第4列展示了BP漏油事件对石油公司的影响的相关结果。我们发现,在产业危机时期,具有强大企业文化的石油公司表现得更好。就其经济意义而言,第四列中强大企业文化与BP漏油事件的交互系数为0.018,表明了在危机期间,拥有强大企业文化的石油企业的月度收益率比没有强大企业文化的企业高出1.8个百分点。
总之,与以往研究所提供的证据一致(例如,Guiso, Sapienza, Zingales 2015; Graham等人2018, 2019),我们也发现,企业文化与企业运营的方方面面都有关系,包括运营效率、风险承担能力、收益管理能力、高管薪酬激励设计、企业价值,并且,企业文化与绩效之间的关系在非常时期更加显著。我们注意到,在尝试将企业文化与业务成果相匹配时,并不存在一套完美的识别方案,因此上述大多数发现仅仅可以证明它们之间存在某种相关关系。
在并购的场景中,若合并公司的价值观和偏好相互冲突,那么他们的员工必须共同努力,以实现协同效应。如果他们对开展业务的最佳方式没有一致的信念,那么会出现诸多问题:诸如公司目标不匹配、不信任、士气低落、员工压力大和离职率高,并进一步阻碍团队合作和协调,从而使合并后的磨合变得困难,并降低生产效率。例如,在具有强大“创新”文化的企业中,通过创新打造未来市场机会是最终的目标,而在具有强“质量”文化的企业中,长期目标往往是:通过内部效率改进、实施更好的流程和质量改进来为企业创造价值。我们认为,整合两个文化差异较大的公司的成本将减少协同带来的收益,甚至远超协同收益。因此我们预计,发生在企业文化相互冲突的公司之间的交易将会非常少。这种文化适应的假说也表明,企业之间的文化差异是并购是否发生的关键决定因素。
然而,另一方面,企业文化在并购中起到的影响也是有限的。首先,与根深蒂固的国家文化价值观有所不同,企业文化是路径依赖的,并可以被企业的主要活动所改变(Weber, Shenkar, 和Raveh 1996)。Nahavandi、Malekzadeh (1988) 、Cartwright和Cooper (1993) 强调了并购中的文化适应和文化移植过程——并购后的整合过程会使得企业文化发生一定程度的变化。第二,企业文化的一致性也可以通过互补实现,而不总是通过相似实现;并且,兼容的文化也并不意味着相似的文化(Weber、Shenkar、Raveh 1996; Krishnan、Miller、和Judge 1997)。最后,根据兼并中的q理论(Jovanovic和Rousseau 2002),合同、经济激励和完全接管,可以一定程度上解决组织兼容的问题,让文化差异在并购中的影响降到最低。因此,文化适应假说也预测,不同文化的企业的合并,将促进一种由双方共同决定的文化的形成。
6.3.1 企业文化适应程度/冲突程度的度量
我们采用了度量企业文化差异的两个最普遍使用的总括指标——“企业文化相似度”。“企业文化相似度”是反映企业文化的两个5*1维向量之间的余弦相似性,这些向量捕捉了两个企业的文化价值。这个总括指标的值越高,那么这两个企业的文化就越相近。“文化距离”是所有五种文化价值观中公司之间差异的平方和的开方(即欧几里德距离)。这一总括指标的值越低,表明这两个企业之间的企业文化就越相近。
6.3.2 企业文化价值观和其收购能力
我们的样本包括2003年1月1日至2018年12月31日期间发生、并在汤森路透(Thomson Reuters)SDC数据库中报告的所有美国交易。
图表9的子图A,展示了线性概率模型(LPM)和条件logit模型(Clogit)的系数估计,并在此基础上,使用三个不同的样本预测收购者:Compustat中在各个会计年度中具有文化价值的全体企业;收购方及与之在行业和规模匹配的控股公司;收购方及与之在行业、规模和B/M相匹配的控股公司。
我们发现在“创新”和“尊重”上得分较高的公司更有可能成为收购者,而在“诚信”和“质量”上得分较高的公司不太可能成为收购者(“创新”的第2列和第3列除外)。根据第4列的结果,我们发现当“创新”(“尊重”)增加一个单位标准差时,企业成为收购方的可能性增加0.68(2.38%),而当“诚信”(“质量”)增加一个单位标准差时,公司成为收购方的可能性就降低了2.34%(1.13%)。相反,当杠杆价值(过去回报)增加一个单位标准差时,公司成为收购方的可能性降低(增加)2.67%(1.57%)。在经济层面,文化价值观的影响显然是有重大意义的。
尽管如此,与企业文化没有直接关系的其他研究结果,与以往在并购领域的研究结果是一致的(例如,Moeller, Schlingemann、Stulz 2004; Li, Qiu和Shen 2018)。特别地,我们发现,经营业绩更好、销售增长更快、往期年回报率更高、机构投资人持股比例更高的公司,更有可能成为收购方,而杠杆率更高的公司则不太可能成为收购方。
6.3.3文化适应与并购匹配
图表9的子图B给出了用来预测合并配对的条件logit模型的系数估计。我们发现,有更相近的文化价值观的企业之间更容易达成交易,而文化价值观相差较大的企业之间达成交易的可能性会更小一些——这正好印证了我们的文化适应假说。我们进一步发现,总部位于同一州或按照10-K标准有着类似产品类型的公司(Hoberg和Phillips[2016]中定义的HP相似性)更有可能达成交易。就经济意义而言,使用第3(4)列中的参数,我们发现,当文化相似性(差异)的度量增加一个单位标准差时,企业成为收购方目标的可能性增加(减少)3.18%(4.10%)。相反,当两家公司的总部位于同一州时,被匹配的公司成为收购目标的可能性增加9.59%;当产品类型相似性的度量增加一个单位标准差时,被匹配的公司成为收购目标的可能性增加13.12%。在经济层面,文化相似度的影响显然是有重大意义的。
总的来说,图表9的子图B为我们的文化适应假说(具有相近的文化价值观的企业之间更有可能达成交易)提供了强有力的支持。
6.3.4企业并购后的文化移植
在人类学和跨文化心理学的领域,文化移植通常被定义为“由于文化元素在两个方向的扩散导致两个文化系统的变化”(Berry 1980, p. 215)。我们推测,一个成功的企业并购同时也将会促进收购方的成员和被收购方的相互适应,并且将会很好地解决出现的矛盾;因此,并购本身就能够塑造和改变企业文化。
为了更好地探索文化移植,我们需要并购方在其所聚焦的交易完成后,持续1年(3年)不再从事其他重大交易。这些样本包括交易完成后1年(3年)的492(335)笔交易。图表9的子图B表明,收购方的文化价值观与其意向收购公司在前期调研阶段所表现的文化价值观存在正相关关系。为了提取一种区别于在企业文化匹配中收购方企业文化的特定企业文化,我们进行了普通最小二乘法(OLS)的回归运算,其中,目标公司在交易宣布前一年的特定文化价值观是因变量,而收购方的相应文化价值和收购方在交易宣布前一年的特征是解释变量。回归残差项是在控制收购方及其意向收购方之间文化一致性后,目标企业的特定企业文化。如果像M&As这样的企业活动也能够塑造、改变企业文化,那么我们有理由相信,合并后的企业的文化与合并前的被收购方的特定文化显著相关。
图表9的子图C提供了一些启发性的证据。我们看到,不管是在交易完成后一年还是三年的阶段,收购方的文化价值观与收购方、被收购方合并前的文化价值观都具有显著的关联性。因此,我们得出结论,并购能够帮助收购方创造一种新的、由双方共同决定的文化——这符合我们的文化移植假说。
本文发现,词嵌入模型(一种人工神经网络自然语言模型)可以对特定语境下的单词和短语的含义进行学习。我们运用该模型,提出了一种全新的有监督的机器学习方法,并生成了一个文化词典,针对企业披露内容量化分析了企业文化情况。我们将本文方法应用于209,480份财报电话会议文本数据,获得了在2001年-2018年期间,62,664个企业年度数据中,排名最靠前的五种企业文化价值观的得分(“创新”、“诚信”、“质量”、“尊重”和“团队合作”——由Guiso,、Sapienza和Zingales (2015)提出)。为了检验我们的指标的有效性并说明我们的方法相较于几种备选方案的优势,我们做了大量的检测。我们发现,企业文化与业务成果相关(业务成果包括运营效率、风险承担能力、盈余管理能力、高管薪酬设计和公司价值)。在非常时期,企业文化与企业绩效之间的联系更加紧密。最后,我们发现企业文化在并购事件中起着重要作用,并且在并购后,收购者的文化价值观与其目标公司在并购前的文化价值观呈正相关,这表明企业文化是可以被重大企业事件(如并购)所塑造和改变的。根据本文的结果,机器学习方法对衡量企业文化非常有用,并且可以为社会科学领域中更多的应用场景提供支持。
[1] Athey, S., and G. W. Imbens. 2019. Machine learning methods that economists should know about. Annual Review of Economics 11:685–725.
[2] Bellstam, G., S. Bhagat, and J. A. Cookson. Forthcoming. A text-based analysis of corporate innovation. Management Science.
[3] Bena, J., and K. Li. 2014. Corporate innovations and mergers and acquisitions. Journal of Finance 69:1923–60.
[4] Berry, J. W. 1980. Social and cultural change. In Handbook of cross-cultural psychology, eds. H. C. Triandis and R. W. Brislin, vol. 5, 211–79. Boston: Allyn & Bacon.
[5] Biggerstaff, L., D. C. Cicero, and A. Puckett. 2015. Suspect CEOs, unethical culture, and corporate misbehavior. Journal of Financial Economics 117:98–121.
[6] BusinessWire. 2009. JCPenney recognized as a leader in innovative business technology. September 15. https://www.businesswire.com/news/home/20090915006394/en/JCPenney-Recognized-Leader-Innovative-Business-Technology
[7] Cartwright, S., and C. L. Cooper. 1993. The role of culture compatibility in successful organizational marriage. Academy of Management Executive 7:57–70.
[8] Chen, M. A., Q. Wu, and B. Yang. 2019. How valuable is FinTech innovation? Review of Financial Studies 32:2062–106.
[9] Coles, J. L., N. D. Daniel, and L. Naveen. 2006. Managerial incentives and risk-taking. Journal of Financial Economics 79:431–68.
[10] Cong, L. W., T. Liang, and X. Zhang. 2019. Textual factors: A scalable, interpretable, and data-driven approach to analyzing unstructured information. Working Paper, Cornell University.
[11] Davidson, R., A. Dey, and A. Smith. 2015. Executives’ “off-the-job” behavior, corporate culture, and financial reporting risk. Journal of Financial Economics 117:5–28.
[12] Edmans, A. 2011. Does the stock market fully value intangibles? Employee satisfaction and equity prices. Journal of Financial Economics 101:621–40.
[13] Erel, I., L. H. Stern, C. Tan, and M. S. Weisbach. 2019. Selecting directors using machine learning. Working Paper, Ohio State University.
[14] Frankel, R., M. Johnson, and D. J. Skinner. 1999. An empirical examination of conference calls as a voluntary disclosure medium. Journal of Accounting Research 37:133–50.
[15] Gao, H., J. Harford, and K. Li. 2013. Determinants of corporate cash policy: Insights from private firms. Journal of Financial Economics 109:623–39.
[16] Gentzkow, M., B. Kelly, and M. Taddy. 2019. Text as data. Journal of Economic Literature 57:535–74.
[17] Gentzkow, M., J. M. Shapiro, and M. Taddy. 2019. Measuring group differences in high-dimensional choices: Method and application to congressional speech. Econometrica 87:1307–40.
[18] Gopalan, R., T. Milbourn, F. Song, and A. V. Thakor. 2014. Duration of executive compensation. Journal of Finance 69:2777–817.
[19] Graham, J. R., J. Grennan, C. R. Harvey, and S. Rajgopal. 2018. Corporate culture: The interview evidence. Working Paper, Duke University.
[20] ———. 2019. Corporate culture: Evidence from the field. Working Paper, Duke University.
[21] Grennan, J. 2018. A corporate culture channel: How increased shareholder governance reduces firm value? Working Paper, Duke University.
[22] Guiso, L., P. Sapienza, and L. Zingales. 2015. The value of corporate culture. Journal of Financial Economics 117:60–76.
[23] Hanley, K. W., and G. Hoberg. 2019. Dynamic interpretation of emerging risks in the financial sector. Review of Financial Studies 32:4543–603.
[24] Hansen, S., M. McHahon, and A. Prat. 2018. Transparency and deliberation within the FOMC: A computational linguistics approach. Quarterly Journal of Economics 133:801–70.
[25] Harris, Z. S. 1954. Distributional structure. Word 10:146–62.
[26] Henry, E., and A. J. Leone. 2016. Measuring qualitative information in capital markets research: Comparison of alternative methodologies to measure disclosure tone. Accounting Review 91:153–78.
[27] Heron, R. A., and E. Lie. 2009. What fraction of stock option grants to top executives have been backdated or manipulated? Management Science 55:513–25.
[28] Hoberg, G., and G. Phillips. 2016. Text-based network industries and endogenous product differentiation. Journal of Political Economy 124:1423–65.
[29] Huang, A. H., R. Lehavy, A. Y. Zang, and R. Zheng. 2018. Analyst information discovery and interpretation roles: A topic modeling approach. Management Science 64:2833–855.
[30] Jones, J. J. 1991. Earnings management during import relief investigations. Journal of Accounting Research 29:193–228.
[31] Jovanovic, B., and P. Rousseau. 2002. The Q-theory of mergers. American Economic Review 92:198–204.
[32] KLD Research & Analytics, Inc. 2006. Getting started with KLD STATS and KLD’s ratings definitions.
[33] Kogan, L., D. Papanikolaou, A. Seru, and N. Stoffman. 2017. Technological innovation, resource allocation, and growth. Quarterly Journal of Economics 132:665–712.
[34] Koh, P.-S.. D. M. Reeb, E. Sojli, W. W. Tham, and W. Wang. 2019. Deleting unreported innovation. Working Paper, ESSEC Business School.
[35] Kreps, D. 1990. Corporate culture and economic theory. In Perspectives on positive political economy, eds. J. E. Alt and K. A. Shepsle, 93–104. Cambridge, UK: Cambridge University Press.
[36] Krishnan, H. A., A. Miller, and W. Q. Judge. 1997. Diversification and top management team complementarity: Is performance improved by merging similar or dissimilar teams? Strategic Management Journal 18:361–74.
[37] Larcker, D. F. and A. A. Zakolyukina. 2012. Detecting deceptive discussions in conference calls. Journal of Accounting Research 50:495−540.
[38] LeCun, Y., Y. Bengio, and G. Hinton. 2015. Deep learning. Nature 521:436–44.
[39] Lee, J. 2016. Can investors detect managers’ lack of spontaneity? Adherence to predetermined scripts during earnings conference calls. Accounting Review 91:229–50.
[40] Levy, O., and Y. Goldberg. 2014. Neural word embedding as implicit matrix factorization. In NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems, eds. Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, 2177–85. Cambridge: MIT Press.
[41] Li, K., X. Liu, F. Mai, and T. Zhang. 2020. The role of corporate culture in bad times: Evidence from the COVID-19 pandemic. Working Paper, University of British Columbia.
[42] Li, K., B. Qiu, and R. Shen. 2018. Organization capital and mergers and acquisitions. Journal of Financial and Quantitative Analysis 53:1871–909.
[43] Lins, K. V., H. Servaes, and A. Tamayo. 2017. Social capital, trust, and firm performance: The value of corporate social responsibility during the financial crisis. Journal of Finance 72:1785–24.
[44] Loughran, T., and B. McDonald. 2011. When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks. Journal of Finance 66:35–65.
[45] ———. 2016. Textual analysis in accounting and finance: A survey. Journal of Accounting Research 54:1187–230.
[46] Lowry, M., R. Michaely, and E. Volkova. 2020. Information revelation through regulatory process: Interactions between the SEC and companies ahead of the IPO. Review of Financial Studies. Advance Access published January 27, 2020, 10.1093/rfs/hhaa007.
[47] Magnini, B., C. Strapparava, G. Pezzulo, and A. Gliozzo. 2002. The role of domain information in word sense disambiguation. Natural Language Engineering 8:359–73.
[48] Manning, C. D., M. Surdeanu, J. Bauer, J. Finkel, S. J. Bethard, and D. McClosky. 2014. The Stanford CoreNLP Natural Language Processing Toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 55–60. Stroudsburg, PA: Association for Computational Linguistics.
[49] Matsumoto, D., M. Pronk, and E. Roelofsen. 2011. What makes conference calls useful? The information content of managers’ presentations and analysts’ discussion sessions. Accounting Review 86:1383–414.
[50] Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems, eds. M. I. Jordan, Y. LeCun, and S. A. Solla, 3111–9. Cambridge: MIT Press.
[51] Moeller, S. B., F. P. Schlingemann, and R. M. Stulz. 2004. Firm size and the gains from acquisitions. Journal of Financial Economics 73:201–28.
[52] Nahavandi, A., and A. R. Malekzadeh. 1988. Acculturation in mergers and acquisitions. Academy of Management Review 13:79–90.
[53] O’Reilly, C. 1989. Corporations, culture, and commitment: Motivation and social control in organizations. California Management Review 31:9–25.
[54] O’Reilly, C., and J. A. Chatman. 1996. Culture as social control: Corporations, cults, and commitment. In Research in organizational behavior, vol. 18, eds. B. M. Staw and L. L. Cummings, 157–200. Greenwich, CT: JAI Press.
[55] Pelevina, M., N. Arefiev, C. Biemann, and A. Panchenko. 2016. Making sense of word embeddings. In Proceedings of the 1st Workshop on Representation Learning for NLP, 174–83. Stroudsburg, PA: Association for Computational Linguistics.
[56] Pennebaker, J. W., R. L. Boyd, K. Jordan, and K. Blackburn. 2015. The development and psychometric properties of LIWC2015. Working Paper, University of Texas at Austin.
[57] Routledge, B. R., S. Sacchetto, and N. A. Smith. 2018. Predicting merger targets and acquirers from text. Working Paper, Carnegie Mellon University.
[58] Song, K. 2018. Kate Spade suicide defies a lighthearted, all-American style that forever changed fashion. CNBC, June 10. https://www.cnbc.com/2018/06/09/kate-spades-legacy-a-new-style-for-the-quintessential-american-woman.html
[59] Tausczik, Y. R., and J. W. Pennebaker. 2010. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of Language and Social Psychology 29:24−54.
[60] Weber, Y., O. Shenkar, and A. Raveh. 1996. National and corporate cultural fit in mergers/acquisitions: An exploratory study. Management Science 42:1215–27.
[61] Zingales, L. 2015. The “cultural revolution” in finance. Journal of Financial Economics 117:1–4.
风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成, 在政策、市场环境发生变化时模型存在失效的风险。