|
1、资料名称:2024-2001年上市公司企业诚信文化数据 2、测算方式:参考c刊《金融研究》诚信文化相关句子的筛选。( 1 ) 基于 w o r d 2 v e c 的关键词初步筛选。由于企业管理层讨论与分析( M D & A ) 文本中句子数量多达 7 0 0 万句, 为了提高效率, 参考 L i e t a l . ( 2 0 2 3 )的研究, 本文首先使用 w o r d 2 v e c 模型并基于“ 诚信” “ 信任” 等种子词, 选取近义词, 经人工筛选后保留了其中的 67 个, 基于此找到包含诚信相关词语的句子。( 2 ) 基于 S V M模型的深度筛选。针对虽未直接包含关键词但也可能与诚信文化相关的句子, 本文采用S V M ( 支持向量机) 模型进行深度筛选, S V M模型在文本分类领域具有广泛应用( 金星晔等, 2 0 2 4 ; C h e n e t a l . , 2 0 1 9 ) 。本文构建了一个用于训练 S V M模型的正负类集合, 该正负类集合依据句子中是否包含特定关键词进行分类。具体而言,一类为不太可能与诚信文化相关的句子( 负类) , 此类句子通过随机抽取不包含关键词的句子获得; 另一类则为可能与诚信文化紧密相关的句子( 正类) , 即那些包含了诚信相关关键词的句子。在正负类集合中, 负类句子与正类句子的数量比例设定为 3 ∶ 1 , 其中负类句子共计 5 9 . 2 万句, 而正类句子为 1 9 . 7 万句。按照 8 ∶ 2 的比例将正负类集合分为训练集和测试集。( 3 ) S V M模型标签判断与阈值调整。利用训练好的 S V M模型对年报句子进行标签判断, 将“ 是” ( 判断为诚信文化相关) 的阈值调整至 5 %以减少遗漏, 人工检查确认该阈值附近的句子, 防止可能存在的遗漏问题。( 4 ) 待确认集构建。本文将关键词筛选出的句子以及 S V M 认为的与诚信文化相关的句子合并形成待确认集。 基于判断结果构建诚信文化的量化指标, 分别是诚信文化相关句子的字数除以当年企业文本的总字数、 诚信文化相关句子的数量除以当年企业文本的句子总数这两类指标。 3、资料范围:6.5万个样本,5600多家企业,包括原始数据、计算代码、计算代码视频运行(由于视频运行时间太长占用太多无效内存,因此给大家做了部分视频录制,确保代码是真实的)及最终结果,大家可以验证一下确保准确性! 4、参考文献:田子方,左从江,李涛,等.诚信文化与金融企业社会责任承担[J].金融研究,2025,(09):152-169.
|