|
1.资料名称:2023-2007年上市公司企业家注意力配置数据
: k0 X$ s( j' w4 ^; z- y2.测算方式:参考顶刊《世界经济》余振(2024)老师研究的做法,分为注意力内容配置和注意力时间配置,使用文本分析
2 V! V: Y, z5 A. W |$ j; `5 y, n
我们做了上市公司年报和管理层讨论与分析两部分,大家可以核心变量和稳健性检验,具体做法和结果如下图所示4 w& G8 K0 z: i3 e
: A/ Z6 z2 W0 f6 L
(1)注意力内容配置:文本分析首先需要构建“创新注意力”词集。参照胡楠等(2021)和 Brochet et al.(2015),本文通过机器学习 Word2vec 这一方法寻找近义词,缓解人为定义词表的主
3 J) F. {( G8 `$ b3 h& X/ I观性和通用同近义词工具的弱相关性(LeCun et al.,2015)。利用Word2vec模型对文本语料进行训练后,生成词向量空间,为每个词分配一个向量。在向量空间中,距离越近的词意思越近,可以通过两词的距离计算相似性。具体筛选词集方式如下:第一步为选择既往中文文献中曾用过的“创新注意力”词集作为基础词(黄珊珊和邵颖红,2017),其中包括:“创新”“自主”“研发”“科研”“新产品”“技术”“开发”“研究”“专利”。第二步根据Word2vec中的CBOW模型(连续词袋模型,Continuous Bag-of-Words Model)对中文年度财务报告语料进行训练,生成词向量空间,并在词向量空间中,对基础词的相似词进行筛选。筛选标准为:财报文本语料中出现频次在1000次以上,且和基础词频相似度在30%以上的拓展词。第三步为邀请了 3名业界和学术界专家对 CBOW 模型得到的相似词进行人工核查,并筛
# `& [! x* h; m4 V8 L6 I, a: _$ d选出包括“发明”和“技术成果”等额外的“创新注意力”拓展词集①。本文将“创新注意力”基础词集和“创新注意力”拓展词集分别作为文本分析的词典,并基于词典法对每家企业的年报中MD&A部分进行词频分析。通过计算词集中词汇总词频占 MD&A 总词频的比例并乘以 100②,得到企业家创新注意力配置指标。为了验证稳健性,本文还计算了两个指标:词集总词频占不含数字MD&A总词数的比例,词集总词频占不含数字和英文MD&A总词数的比例。这两个指标数值越大,表示企业家越注重创新。
* f' H m K: T
\% a: S; _' \3 _5 B: \(2)注意力时间配置:本文采用对企业年报中MD&A一章进行文本分析的方法来测量企业家注意力时间配置。使用文本分析测度人们的时间配置有着较强的语言学理论基础(Chen,2013)。跟上述做法相似,分三个步骤选取表征当下和表征未来的词集。第一步参照陈守明和胡媛媛(2016)的做法,采用“现在”“此时”“此刻”“当下”“当前”“近期”“目前”作为表征关注当下的基础词,采用“未来”“即将”“将来”“将要”“接下来”“今后”作为表征将来的基础词。第二步基于 Word2vec 中的 CBOW 模型构造词向量空间,并在其中寻找近义词,筛选出词频数在1000词以上,和基础词相似度在 30%以上③。第三步邀请 3名业界和学术界专家对 CBOW 模型得到的相似词进行人工核查,并筛选出包括“现在”“此时”等表征当下的词集④,并得到包括“将来”“将要”等表征未来的词集⑤。本文分别基于表征当下和表征未来的词集用来文本分析,并利用词典法对每家企业的年报中 MD&A 部分进行词频分析,分别计算以下 3 个指标:词集词频数占MD&A总词数的比例,词集词频数占不含数字MD&A总词数的比例,词集词频数占不含数字和英文MD&A总词数的比例。0 Z% @" i% C, \! A
7 U: q' P% s3 G
3.资料范围:5万多个样本,5000多家企业,包括原始数据词频和最终计算结果,大家科研验证一下确保准确性!- Q2 j8 F, f$ g5 X
4.参考文献:, c- w! `' t1 l8 O" G" n
6 N1 s9 J# y" s/ Y余振,李元琨,李汛.外部关税冲击、企业家注意力配置与创新发展[J/OL].世界经济,2024,(06):65-94[2024-09-19].https://doi.org/10.19985/j.cnki.cassjwe.2024.06.003.( U6 D f; j0 l3 w% T4 l
1 G: z+ {+ c: x& a m
# y! |0 I2 [7 _ |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|