草莓科研服务网——中国专业社科交流平台

 找回密码
 
建议用户用微信快捷登录

快捷登录

查看: 1495|回复: 2

文本关键词 词频统计代码

[复制链接]
发表于 2022-10-25 20:33:34 | 显示全部楼层 |阅读模式
本帖最后由 Davion2018 于 2022-10-25 20:50 编辑
Project description:
[数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表...可以根据“创新、数字化等关键词+Word2vec相似词扩充”计算词典的词频作为代理变量;

How to use:
1)根据1-3文件夹里面的数据将所需文件放在运行目录下面;
2)在Jupyter Notebook运行 Wordfreq_Davion.py 主程序;

Dataset description:
1)test.txt 文件存放上市公司文本数据,可以根据爬取的PDF文件转换为该纯文本格式;
2)stopwordlist.txt 文件为停用词词典;
3)add_word_list.txt 文件格式是"单词"+"空格"+"n",或者其他vn、a、nr等词性;针对词典可能存在的“专有名词、网络名词和歧义分割”等缺陷,定义用户词典,同时可以对词性进行过滤;该项目中存放了与上市公司数字化转型相关的关键词表;
4)synonym_list.xlsx 文件为同义词词典,需要用户自定义;第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语;
5)synonym_list.txt 文件为同义词词典,需要用户自定义;每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”);
6)word_freq.xlsx 文件为不考虑同义词的词频结果;word_freq1.xlsx 文件为考虑同义词的词频结果;word_freq2.xlsx 文件为直接依据word_freq.xlsx 文件结果,进而考虑同义词的词频结果;

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2022-10-30 21:27:15 | 显示全部楼层
感谢前辈们的经验分享!
回复

使用道具 举报

发表于 2022-11-1 20:46:23 | 显示全部楼层
感谢楼主分享资料!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

回帖奖励

[详情]

  • * 每天自己主题被回复3次可获得额外5论坛币奖励。
  • * 每天回复他人主题5次可获得额外8论坛币的奖励。
  • * 奖励每天都可领取,一定要多参与论坛讨论哦。
  • * 同一主题的重复回复不计。
  • 草莓科研服务网——中国专业社科交流平台 ( 津ICP备2023000499号 )|网站地图

    GMT+8, 2025-5-10 21:45 , Processed in 0.109453 second(s), 54 queries .

    Copyright © caomeikeyan

    快速回复 返回顶部 返回列表