|
|
1、资料名称:2024-2011年上市公司企业渐进式创新数据、渐进式创新锁定数据
2、测算方式:参考顶刊《经济研究》孙雅慧(2024)老师的做法,渐进式创新的特点在于当前创新活动和往期创新在内容上存在连续性, 可用当期创新和往期创新的内容重叠度作为衡量渐进式创新程度的合理指标。专利申请作为企业创新成果的重要组成部分, 其摘要凝练了创新活动的核心内容 (刘青和肖柏高, 2023)。本文搜集海量专利摘要, 测算当前专利申请和既有专利的内容相似度, 反映企业在双元创新中更倾向于渐进式创新的程度。在文本分析方法的选择上, 基于关键词频率的识别方法在创新研究中应用最普遍, 但词频法高度依赖于关键词选取的合理性, 限制了指标测度的准确性 (Hain et al., 2022)。近期研究开发了基于机器学习和深度学习的文本挖掘方法, 通过嵌入模型将非结构化文本转换为数值向量, 从而实现对文本信息的深度处理。该方法此前普遍用于刻画技术发展路径和前沿技术搜索 (Arts et al., 2021; Hainet al., 2022), 在实证指标测度方面的应用尚未得到充分探索。本文根据专利相似度构造企业层面渐进式创新程度指标, 具体方法如下:第一步, 专利摘要文本向量化。首先通过 Python 程序进行专利摘要文本分词, 并剔除语气词、 连接词等出现频率较高但无实际含义的词汇。通过机器学习方法反复训练优化分词结果, 形成专利文本词典。进一步构造专利摘要文本向量, 专利文本中各词汇的语义重要性不同, 以往研究大多仅保留名词与形容词 (陈强远等, 2022 ), 但该方法难以避免割裂语义和丢失关键信息的风险, 更合理的方式是根据词汇的重要程度对其加权。本文在保留专利全文本的基础上, 采用词频-逆文本频率 (TF-IDF ) 作为权重对专利词频进行加权, 进而生成专利文本特征向量。具体做法和公式如下图文献所示,与文献做法一致!
3、资料范围:6万多个样本,5300多家企业,包括原始数据、计算代码及最终计算结果,大家可以验证一下确保准确性!
由于专利文本数据大多在2011年及其后,之前有较多缺失值,因此数据从2011年开始是比较合理的,原文的也是从2010年开始
4、参考文献:
孙雅慧,时省,彭飞,等.研发补贴与渐进式创新锁定:基于机器学习的专利文本分析[J].经济研究,2024,59(11):89-105.
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号? 建议用 立即注册
x

|