吕家骏个人博客

设置背景图片

近期更新 python3 scrapy-redis分布式爬虫的介绍

一、简介     Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scr...

近期更新 python3 静态代码检查工具--Flake8

一、简介     Flake8 是由Python官方发布的一款辅助检测Python代码是否规范的工具,相对于目前热度比较高的Pylint来说,Flake8检查规则灵活,支持集成额外插件,扩展性强。Flake8是对下面三个工具的封装:     1)PyFlakes:静态检查Py...

近期更新 python3 二十三种设计模式

更多介绍:https://blog.csdn.net/zheng_lan_fang/article/details/76550093 一、什么是设计模式     设计模式是经过总结、优化的,对我们经常会碰到的一些编程问题的可重用解决方案。一个设计模式并不像一个类或一个库那样能够直接作用...

近期更新 python3 Linux或Windows配置virtualenv虚拟环境

引言:     在开发不同的应用时,我们可能需要不同的 Python 版本,同时可能还需要处理包的依赖、版本和间接权限问题。在同系统中,要解决这些问题往往非常棘手。在 Python 的开发环境中,为解决这样的问题最常用的方法是使用 virtualenv 包。 Virtualenv 是一个用来创建独立的...

近期更新 python3 爬虫代理池的搭建与维护

一、引言     在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务。 二、问题 ...

近期更新 爬虫各模块对代理的设置

一、urllib配置http和https代理 from urllib.error import URLError from urllib.request import ProxyHandler, build_opener proxy = '180.121.131.208:808' # 如果是需要认证的代理地址,只需要把proxy改成“u...
00:00 / 00:00
随机播放