|
1.资料名称:2023-2007年上市公司企业技术封锁数据. s' G3 n( _) {& I: Z J5 U0 V
2.测算方式:参考C刊《科学学研究》彭家乐(2024)老师的做法,对沪深 A 股上市公司年报进行文本分析,使用年报文本中技术封锁关键词的总词频占比来刻画企业受技术封锁影响的程度,从而更精细地识别和描述感知到技术封锁影响的企业及影响程度。
. X1 v) M) [( a. I(1)参考已有研究使用的技术封锁的相关关键词,借助 WinGo 财经文本数据平台的深度学习相似词扩充关键词词库,并结合人工阅读公司年报的结果进行筛选,最终确定的关键词词集包括技术封锁、技术管制、法令、制裁、禁令、保护主义、中美科技冷战等表示技术封锁含义的词汇;
' k: C) G. n$ N+ T/ M(2)使用 Python 从巨潮资讯网爬取沪深 A 股上市公司 2007-2023 年年度报告的 PDF 文件,并将其转换为易于读取的 TXT 格式文档;
2 p, Y* _& ]' U(3)使用中文通用词典 Jieba 对上市公司年报正文内容进行分词,去除停用词,将非结构化的文本数据转化为词向量进行存储;' |! y4 G6 J9 F6 n: E: w
(4)基于词典法统计关键词词集中的每个词汇在年报中出现的次数,并计算关键词总词频占年报正文总词频的比例,乘以 100 后得到技术封锁指标。7 u2 a( v8 v! g( A: x, C
3.资料范围:5.2万个样本,5062家企业,包括原始词频和最终计算结果,大家可以验证一下确保准确性!9 H/ V2 W* }% X8 ~$ [0 t
4.参考文献:: z, b3 U% v1 D* z( V: T+ l4 W
彭家乐,谢伟,李习保.技术封锁与并购:基于文本分析的实证研究[J/OL].科学学研究,1-22[2024-08-21].https://doi.org/10.16192/j.cnki.1003-2053.20240409.001.
% Y) S7 H! s+ v, I0 d, q" `& R
& X' X+ H3 f8 a$ L5 h |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|