|
1.资料名称:2023-2000年上市公司企业人工智能词频数据、人工智能数据
2.测算方式:参考《管理世界》姚加权(2024)老师的研究,具体的大家可以看一下参考文献,(1)参考陈和斯里尼瓦桑(2020)提供的人工智能相关词语的中文翻译版、平安证券发布的《科创板系列——AI 产业链全景图》、中商产业研究院编制的《2019 年中国人工智能行业市场前景研究报告》、深圳前瞻产业研究院发布的《2019 年人工智能行业现状与发展趋势报告》等业界研究报告以及世界知识产权组织(World Intellectual Property Organization,WIPO)提供的人工智能词表,人工选取了“人工智能”、“机器学习”、“物联网”、“云计算”等 52 个词语作为种子词(Seed Words)。(2)参考李等(2021),使用Word2vec(米科洛夫等,2013)技术,采用 Skip-gram 模型,将年报和专利文本材料中的词语作为语料进行训练。根据种子词与输出词语之间的余弦相似度,针对每个种子词筛选出 10 个与该种子词语义程度最相近的词语。(3)将重复词语、与人工智能不相关的词语以及词频过低的词语剔除,人工智能关键词数量加1的自然对数作为企业人工智能的替代指标, 由于中文文字之间没有空格切分,而且词语才是能够独立运用的最小语言单位,因此需要对年报文本进行专门的分词处理。我们使用广泛运用的 Python 开源“jieba”中文分词模块对上市公司年报文本进行分词处理。中文文本分析存在 3 个难点,即切分颗粒度、歧义词识别以及新词的识别(姚加权等,2020)。例如,“机器学习”是人工智能的核心术语之一,但“jieba”分词模块会将其切分为“机器”和“学习”两个词语。为解决该问题,我们将生成的人工智能词典作为预设专有名词词典加入到“jieba”的分词模块并统计上市公司年报中人工智能词语的数量。采用上市公司年报中人工智能关键词数量加 1 的自然对数(Lnwords)作为企业人工智能指标
3.资料范围:6.2万个样本,5316家企业,包含原始年报、原始词频、Python词频提取代码及最终计算结果,大家可以验证真伪确保准确性!
最终指标为证券代码 stkcd year 人工智能(最终指标) 总计(词频) 人工智能 计算机视觉 图像识别 知识图谱 智能教育 增强现实 智能政务 特征提取 商业智能 智能养老 支持向量机 SVM 知识表示 模式识别 物联网 人机对话 AI产品 人机交互 数据挖掘 智慧银行 智能客服 虚拟现实 自动驾驶 无人驾驶 智慧金融 大数据营销 长短期记忆 LSTM 智能芯片 边缘计算 云计算 深度神经网络 AI芯片 深度学习 特征识别 智能保险 智能零售 智能医疗 智能运输 智能家居 循环神经网络 大数据风控 机器人流程自动化 可穿戴产品 大数据平台 増强智能 大数据运营 机器翻译 神经网络 语音合成 人机协同 智能农业 智能音箱 卷积神经网络 问答系统 强化学习 大数据分析 自然语言处理 大数据管理 智能计算 语音交互 机器学习 生物识别 语音识别 智能监管 智能投顾 智能语音 声纹识别 人脸识别 智能体 大数据处理 分布式计算 智能传感器 智能搜索 智能环保
4.参考文献:姚加权,张锟澎,郭李鹏等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-12.
2022年也是我整理的,无售后问题确保准确性,大家可以看一下!
https://www.caomeikeyan.com/forum.php?mod=viewthread&tid=4720
(出处: 草莓科研服务网——中国专业社科交流平台)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x

|