1.资料名称:2021-2001上市公司数字化转型-MDA词频分析
2.数据来源:基于上市公司年报种的管理层分析与讨论部分️
3.数据范围:
单独的txt文档,每公司每一年都有一个txt文档 基本上囊括了所有上市公司的文件。50480份txt文档
文件名称已全部按照方便提取的形式进行了命名
️赠送词频提取的代码,可通过python 提取MDA的关键词词频
️MDA的基本信息:词数 总字数 句子数
4.计算方式:
第一步,构建企业数字化术语词典。由于缺乏专门的数字经济领域的术语词典,本文以国家政策语义体系为基础构建企业数字化术语词典。借鉴何帆和刘红霞(2019)等的研究,通过对中央人民ZF、工业和信息化部网站进行检索,人工筛选得到2012—2020年期间发布的30份重要的国家层面数字经济相关政策文件以用于提取企业数字化相关的关键词。经Python分词处理及人工识别,最终筛选得到197个频率大于等于5次的企业数字化相关词汇,这些词汇构成了本文的企业数字化术语词典。
第二步,对年报相关语段进行文本分析。本文把上述数字化术语词典中的197个词汇扩充到Python软件包的“jieba”中文分词库,然后基于机器学习的方法对上市公司年报“管理层讨论与分析”(MD&A)部分进行文本分析,统计得到197个与企业数字化相关词汇在年报中出现的频率。
第三步,企业数字化程度指标的构建。考虑到年报MD&A部分文本长度的差异,在提取得到每家上市公司每年年报中各个关键词的出现频率后,本文采用企业数字化相关词汇频数总和除以年报MD&A语段长度衡量微观企业数字化程度(Digital)。为了表述方便,本文将该指标乘以100。Digital指标数值越大,表示企业数字化程度越高。
①2001-2020的数据为直接在wingo数据平台提取的关键词,输出结果以及整个的处理流程也全部给大家附上。 ②2021的数据则是采用jieba分词程序进行爬取,之后再进行的词频比例的统计
③在袁淳197词汇的基础上加入了吴非的词频,最终得到238多词,都有具体的词频数和词典
5.参考文献:
[1]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.DOI:10.19744/j.cnki.11-1235/f.2021.0097.
[2]袁淳,肖土盛,耿春晓,盛誉.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021(09):137-155.DOI:10.19581/j.cnki.ciejournal.2021.09.007.
|