Scrapy 0.24 文档 - Scrapy 0.24 中文文档 - PHPERZ中文资讯站

第一步

Scrapy 0.24 文档初窥Scrapy 安装指南 Scrapy入门教程例子

基本概念

命令行工具(Command line tools) Items Spiders 选择器(Selectors) Scrapy终端(Scrapy shell) Item Loaders Item Pipeline Feed exports Link Extractors

内置服务

Logging 数据收集(Stats Collection) 发送email Telnet终端(Telnet Console) Web Service

解决特定问题

调试(Debugging)Spiders Spiders Contracts 实践经验(Common Practices) 通用爬虫(Broad Crawls) 借助Firefox来爬取使用Firebug进行爬取调试内存溢出下载项目图片 Ubuntu 软件包 Scrapyd 自动限速(AutoThrottle)扩展 Benchmarking Jobs: 暂停，恢复爬虫 DjangoItem

扩展Scrapy

架构概览下载器中间件(Downloader Middleware) Spider中间件(Middleware) 扩展(Extensions) 核心API

参考

请求和响应(Requests and Responses) 设置(settings) 信号(Signals) 异常(Exceptions) Item Exporters

其他

更新日志(Release notes) Contributing to Scrapy Versioning and API Stability 试验阶段特性

同类教程 Scrapy教程

发布于 2015-09-04 06:47:02 | 2431 次阅读 | 评论: 0 | 来源: 网络整理

本文档涵盖了所有Scrapy的内容。

获得帮助¶

遇到问题了？我们来帮您！

查看下 FAQ ，这里有些常见的问题的解决办法。
您可以在 scrapy-users的邮件列表中寻找内容，或者提问问题
在 #scrapy IRC channel 提问
在 issue tracker 中提交Scrapy的bug

第一步¶

初窥Scrapy
了解Scrapy如何助你一臂之力。
安装指南
安装Scrapy。
Scrapy入门教程
编写您的第一个Scrapy项目。
例子
通过把玩已存在的Scrapy项目来学习更多内容。

基本概念¶

命令行工具(Command line tools)
学习用于管理Scrapy项目的命令行工具
Items
定义爬取的数据
Spiders
编写爬取网站的规则
选择器(Selectors)
使用XPath提取网页的数据
Scrapy终端(Scrapy shell)
在交互环境中测试提取数据的代码
Item Loaders
使用爬取到的数据填充item
Item Pipeline
后处理(Post-process)，存储爬取的数据
Feed exports
以不同格式输出爬取数据到不同的存储端
Link Extractors
方便用于提取后续跟进链接的类。

内置服务¶

Logging
了解Scrapy提供的logging功能。
数据收集(Stats Collection)
收集爬虫运行数据
发送email
当特定事件发生时发送邮件通知
Telnet终端(Telnet Console)
使用内置的Python终端检查运行中的crawler(爬虫)
Web Service
使用web service对您的爬虫进行监控和管理

解决特定问题¶

常见问题(FAQ)
常见问题的解决办法。
调试(Debugging)Spiders
学习如何对scrapy spider的常见问题进行debug。
Spiders Contracts
学习如何使用contract来测试您的spider。
实践经验(Common Practices)
熟悉Scrapy的一些惯例做法。
通用爬虫(Broad Crawls)
调整Scrapy来适应并发爬取大量网站(a lot of domains)。
借助Firefox来爬取
了解如何使用Firefox及其他有用的插件来爬取数据。
使用Firebug进行爬取
了解如何使用Firebug来爬取数据。
调试内存溢出
了解如何查找并让您的爬虫避免内存泄露。
下载项目图片
下载爬取的item中的图片。
Ubuntu 软件包
在Ubuntu下下载最新的Scrapy。
Scrapyd
在生产环境中部署您的Scrapy项目。
自动限速(AutoThrottle)扩展
根据负载(load)动态调节爬取速度。
Benchmarking
在您的硬件平台上测试Scrapy的性能。
Jobs: 暂停，恢复爬虫
学习如何停止和恢复爬虫
DjangoItem
使用Django模型编写爬取的item

扩展Scrapy¶

架构概览
了解Scrapy架构。
下载器中间件(Downloader Middleware)
自定义页面被请求及下载操作。
Spider中间件(Middleware)
自定义spider的输入与输出。
扩展(Extensions)
提供您自定义的功能来扩展Scrapy
核心API
在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能

参考¶

命令行工具(Command line tools)
学习命令行工具及所有可用的命令。
Requests and Responses
了解代表HTTP请求和回复的request,response类
Settings
了解如何配置Scrapy及所有可用的设置。
信号(Signals)
查看如何使用及所有可用的信号
异常(Exceptions)
查看所有可用的exception以及相应的意义。
Item Exporters
快速将您爬取到的item导出到文件中(XML, CSV等格式)

其他¶

Release notes
了解最近的Scrapy版本的修改。
Contributing to Scrapy
了解如何为Scrapy项目做出贡献。
Versioning and API Stability
了解Scrapy如何命名版本以及API的稳定性。
试验阶段特性
了解最新的特性

最新网友评论 共有(0)条评论发布评论返回顶部

后端技术

前端技术

数据库

热门框架

常用IDE

其他

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved 冀ICP备14009818号版权声明广告服务