<返回更多

Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

2019-08-26    
加入收藏
Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

 

PySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。

能够在需要编写大量爬虫的情况下,帮助开发者快速编写爬虫。赞赞赞

安装操作

1.搭建环境:

Python版本:2.7

系统环境:centos7.3

1.1.搭建python3环境:

下载依赖

yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel

安装pyspider

pip install pyspider
Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

 

如果启动python中的pycurl模块出现如下问题:

ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)

解决方法:

pip uninstall pycurl
export PYCURL_SSL_LIBRARY=nss
pip install pycurl

安装phantomjs

官网下载:http://phantomjs.org/download.html

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2

解压:

yum -y install bzip2.x86_64 
bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 
tar -xf phantomjs-2.1.1-linux-x86_64.tar
mv phantomjs-2.1.1-linux-x86_64 phantomjs
ln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs

启动pyspider

再次启动就不会提示没安装phantomjs

Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

 

由于放在公网,编辑了一个配置文件config.json ,用于登录认证
[root@ceph-host-01 local]# vim config.json 
{
 "webui": {
 "port": "5000",
 "username": "abc",
 "password": "123456",
 "need-auth": true
 }
}

开启进程(后台运行)

nohup pyspider --config config.json &

进入web界面:

Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

 

关注{程序员新视界},获取有趣、有料的流行前沿技术信息,每天进步一点点
声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>