|
巨潮网年报爬虫代码, k( ^5 ~' d0 a% V) X
共包含三部分:PDF爬虫,PDF转txt,词频统计0 A! t/ M0 j- H5 R
/ |5 u1 v+ v0 B2 N1 W8 E$ R% m文件爬虫结果如图1所示$ r! j4 {# k4 D) ]' A
1 ]. k+ [$ p6 F, \图2中,359/360可以自定义修改,想要爬虫的公司,359放公司代码,360可以是存放公司代码的Excel文件3 E3 w- n' l9 [7 v4 O" a6 y
361可以自定义爬虫的时间范围
+ k4 l; ~$ h4 J# k3 a362防止想要从文件里边提取统计的关键词) y* b t5 y- N D' Z
367/368/369分别对应是三个步骤,不需要哪个步骤可以直接注释掉
9 C" r) D' b' M6 w
1 z/ R+ T1 @! A有时候运行错误是因为网站识别到你爬虫,过一会或者重新开始运行就可以了
! y' S) U/ c( F9 B& x2 f, K4 [7 I4 K& O
8 H, y- Q' J7 U |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|