|
巨潮网年报爬虫代码/ D# |* q1 g; e! s; U
共包含三部分:PDF爬虫,PDF转txt,词频统计
- z4 X; e3 s) R6 {$ v. q ?0 e( G6 z! w( W
文件爬虫结果如图1所示
, T2 m! b& W+ c, e
8 R6 H" h% S. S* P8 w7 n) l图2中,359/360可以自定义修改,想要爬虫的公司,359放公司代码,360可以是存放公司代码的Excel文件$ N0 @3 p; D" O6 g$ v
361可以自定义爬虫的时间范围
! ^% x+ H( q# a1 a, S9 L362防止想要从文件里边提取统计的关键词. y2 N- t. k9 }5 M* W5 k4 U! x
367/368/369分别对应是三个步骤,不需要哪个步骤可以直接注释掉
4 n. }8 U( @8 m! i
8 E) u0 @# H& {& }# S/ M有时候运行错误是因为网站识别到你爬虫,过一会或者重新开始运行就可以了
, B) Q6 j$ m0 \0 g: N! ]
. d! d+ V& Y5 B1 \7 z7 a
( L& ^" h9 Y _9 Q |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|