爬虫

一个使用 asyncio 协程的网络爬虫(一)

首先,我们会实现一个事件循环并用这个事件循环和回调来勾画出一只网络爬虫。它很有效,但是当把它扩展成更复杂的问题时,就会导致无法管理的混乱代码。
2017-03-04
11分钟阅读时长

Python 学习:urllib 简介

Python 3 的 urllib 模块是一堆可以处理 URL 的组件集合。如果你有 Python 2 的知识,那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块。这些现在都是 Python 3 的 urllib 包的一部分。
2016-08-09
5分钟阅读时长

Linux有问必答:nginx网络服务器上如何阻止特定用户代理(UA)

问题: 我注意到有一些机器人经常访问我的nginx驱动的网站,并且进行一些攻击性的扫描,导致消耗掉了我的网络服务器的大量资源。我一直尝试着通过用户代理符串来阻挡这些机器人。我怎样才能在nginx网络服务器上阻挡掉特定的用户代理呢? 现代互联网滋生了大量各种各样的恶意机器人和网络爬虫,比如像恶意软件机器人、垃圾邮件程序或内容刮刀,这些恶意工具一直偷偷摸摸地扫描你的网站,干些诸如检测潜在网站漏洞、收获电子邮件地址,或者只是从你的网站偷取内容。大多数机器人能够通过它们的用户代理签名字符串来识别。 作为第一道防线,
2015-05-22
4分钟阅读时长

如何在Ubuntu 14.04 LTS安装网络爬虫工具:Scrapy

这是一款提取网站数据的开源工具。Scrapy框架用Python开发而成,它使抓取工作又快又简单,且可扩展。我们已经在virtual box中创建一台虚拟机(VM)并且在上面安装了Ubuntu 14.04 LTS。 安装 Scrapy Scrapy依赖于Python、开发库和pip。Python最新的版本已经在Ubuntu上预装了。因此我们在安装Scrapy之前只需安装pip和python开发库就可以了。 pip是作为python包索引器easy_install的替代品,用于安装和管理Python包。pip包的安装可见图 1。 sudo apt-get install python-pip 图:1 pip安装 我们必须要用下面的命令安装python开发库。如果包
2015-03-21
3分钟阅读时长