草莓科研服务网——中国专业社科交流平台

 找回密码
 
建议用户用微信快捷登录

快捷登录

查看: 150|回复: 1

python文本分析停用词及jieba停用词表

[复制链接]
发表于 10 小时前 | 显示全部楼层 |阅读模式
python文本分析停用词及jieba停用词表文本分析常用及必不可缺的内容,现将资料进行分享!
顶刊文本分析常用


[1]袁淳,肖土盛,耿春晓等.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021,No.402(09):137-155.
[2]吴非, 胡慧芷, 林慧妍,等. 企业数字化转型与资本市场表现——来自股票流动性的经验证据[J]. 管理世界, 2021, 37(7):15.
[3]李玉花,林雨昕,李丹丹.人工智能技术应用如何影响企业创新[J].中国工业经济,2024,(10):155-173.


  停用词是指在文本分析中,那些对文本内容的理解和分析没有实质性帮助、需要被过滤掉的词,例如 “的”“地”“得”“啊”“呀”“呢” 等。jieba 是一个常用的中文分词工具,它有自己的停用词表。停用词及 jieba 停用词表在文本分析中的作用主要有以下几点:

提高分析效率:文本中停用词的出现频率通常很高,如果在分析过程中不将其去除,会增加数据处理的负担,延长分析时间。去除停用词后,可以减少数据量,使算法能够更专注于有实际意义的词汇,从而提高分析效率。

降低噪声干扰:停用词本身不携带太多有价值的信息,反而会在文本分析中产生噪声,干扰对文本主题和关键信息的提取。例如在情感分析中,停用词可能会影响对文本情感倾向的准确判断;在文本分类中,也可能会干扰分类模型的准确性。通过使用停用词表去除这些无关词汇,能够降低噪声,提高文本特征的纯度,使分析结果更加准确和可靠。

突出关键信息:去除停用词后,文本中的关键信息和有代表性的词汇能够更加突出。这有助于更准确地提取文本的主题、关键词等重要信息,便于进行后续的文本挖掘、信息检索等任务。例如在关键词提取中,停用词的去除可以让真正具有代表性的关键词更容易被识别出来,从而更好地概括文本的主要内容


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
 楼主| 发表于 10 小时前 | 显示全部楼层
此资料在会员数据目录中,加入会员可免费获取,会员性价比之王可以任意对比!
加入会员!海量资料免费下载!【价格真的优惠】(stata代码、上市公司数据、数字经济数据、银行数据、统计年鉴数据)
https://www.caomeikeyan.com/forum.php?mod=viewthread&tid=688
(出处: 草莓科研服务网——中国专业社科交流平台)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

回帖奖励

[详情]

  • * 每天自己主题被回复3次可获得额外5论坛币奖励。
  • * 每天回复他人主题5次可获得额外8论坛币的奖励。
  • * 奖励每天都可领取,一定要多参与论坛讨论哦。
  • * 同一主题的重复回复不计。
  • 草莓科研服务网——中国专业社科交流平台 ( 津ICP备2023000499号 )|网站地图

    GMT+8, 2025-5-9 21:09 , Processed in 0.120745 second(s), 52 queries .

    Copyright © caomeikeyan

    快速回复 返回顶部 返回列表