1、资料名称:2024-2000年上市公司企业网络安全风险治理数据
2、测算方式:参考顶刊《金融研究》杨鹏(2026)老师的做法,企业网络安全风险治理指标的计算步骤如下: ( 1 ) 为提高指标计算效率, 本文构建了一个网络安全风险词典, 提前筛选出需要标注和预测的年报文本。具体地, 本文基于国家有关部门发布的网络安全相关法律法规文件、 国内外权威研究报告和国内现有文献(
, 筛选出 68个与网络安全相关的词汇(为了使研究更加准确完整,我们在68的词汇上还增加了一些同义词)对待标记的年报文本按照句号进行分割, 并形成初始语料库, 然后以 5 %的比例, 年份层面对语料库进行随机抽样, 得到1706 条待标记的句子, 并以此作为待预测的句库。( 3 ) 人工阅读待标记句库中的句子, 络安全治理, 并打上 0—1 标签。( 4 ) 对已标注的文本按照 70%与 30 %的比例划分训练集与验证集, 使用 E R N I E 模型对上述人工标注的 1706条句子进行训练与验证。( 5 ) 等待E R N I E 模型完成对训练集的学习, 并在验证集上达到 有微调权重的 E R N I E 模型对余下未标记文本进行预测, 判断年报文本中的句子是否真正反映的是企业网络安全风险治理行为。因此, 若企业在某年度年报中首次出现与网络安全风险治理措施相关的信息, 则从该年度起, 其网络安全风险治理指标一直赋值为 1 ; 反之, 赋值为 0 。 3、资料范围:6万多个样本,5000多家企业(其中cybersecurity非0有效值在5800多个,有关键词汇的非0有效有2万多个,有关键词汇并不意味着有网络安全风险治理,需要大语言模型训练及人工核对)
资料包括原始数据、计算代码及最终结果,大家可以验证一下确保准确性!
4、参考文献:
网络安全风险治理与企业创新——基于大语言模型的识别与发现 杨鹏, 孙伟增, 田轩, 左祥太 《金融研究》. 2026, (1): 76-94.(目前为网络首发)
|