发布于 2016-08-12 07:14:34 | 257 次阅读 | 评论: 0 | 来源: 网友投递
Scrapy Python的爬虫框架
Scrapy是一个Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
0.环境说明
win10 64bit,电脑也是64bit的处理器,电脑装有vs2010 64bit,但是为了保险起见,只试验了32位的安装,等有时间了,再试下64位的安装。如无特殊说明,一切操作都是在windows命令行下执行的。电脑也需要联网,因为pip在安装包的时候,需要在线下载相关包。
1.安装python
我用的是win32-python-2.7.12,请切记用版本高于.10以上版本,因为我记得到装pip的时候,好像必须要.8以上版本。
然后是将相关环境变量配置到path路径中,不懂请谷歌,结果如下图黄色说明。
2.安装pip
点击https://pypi.python.org/pypi/pip 下载pip-6.1.1.tar.gz (md5, pgp)
解压后进行文件夹,执行:python setup.py install
3.安装lxml
lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。选择对应的Python版本安装。;
安装命令:pip install lxml
验证是否安装成功见下图:
4.安装zope.interface
pip install zope.interface
5.安装Twisted
Twisted是用Python实现的基于事件驱动的网络引擎框架,安装命令:
pip install twisted
我转的时候,遇到了问题:
error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27
解决办法如下:
Execute the following command based on the version of Visual Studio installed:
Visual Studio 2010 (VS10):SET VS90COMNTOOLS=%VS100COMNTOOLS%
Visual Studio 2012 (VS11):SET VS90COMNTOOLS=%VS110COMNTOOLS%
Visual Studio 2013 (VS12):SET VS90COMNTOOLS=%VS120COMNTOOLS%
Visual Studio 2015 (VS14):SET VS90COMNTOOLS=%VS140COMNTOOLS%
然后再重新执行:
pip install twisted
即可。
6.安装pyOpenSSL
pip install pyopenssl
7.安装win32py
提供win32api,点击 http://sourceforge.net/projects/pywin32/files/pywin32/下载
pywin32-220.win32-py2.1.exe,点击安装即可。
8.安装scrapy
pip install scrapy
9.测试scrapy是否可用:
安装完成,开始使用吧!
哈哈……