|
巨潮网社会责任报告爬虫代码
" D2 W& b1 ?: d+ v3 |9 r$ t p, i" f. G& _/ e
共包含三部分:PDF爬虫,PDF转txt,词频统计+ l3 _7 J( H' D4 h) H9 n
; y) ?* j0 U, Y$ \2 c6 X- C
文件爬虫结果如图1所示$ ?$ M! @/ w/ D* o( s/ a
# W7 l$ f: y; p, U图2中,359/360可以自定义修改,想要爬虫的公司,359放公司代码,360可以是存放公司代码的Excel文件
+ X; [5 t; h3 z: O; v362防止想要从文件里边提取统计的关键词
% S! H/ J. N' K; H8 |) v3 V367/368/369分别对应是三个步骤,不需要哪个步骤可以直接注释掉
7 T9 U" U- d) v$ Y) [; S
/ r( \; K* U, _ a# n有时候运行错误是因为网站识别到你爬虫,过一会或者重新开始运行就可以了
O5 @; [1 [- `$ j+ k& h/ Z/ X/ _
' o- e C- ?7 h6 K' y: A, r+ G3 }% N
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|