python3.7爬虫:使用Selenium带Cookie登录并且模拟进行表单上传文件by Liu Yue/2020-03-28 标签: cookie python3.7 Selenium 上传 使用 并且 文件 模拟 爬虫 登录 表单 进行 前文再续,书接上一回,之前一篇文章我们尝试用百度api智能识别在线验证码进行模拟登录:Python3.7爬虫:实时api(百度ai)检测验证码模拟登录(Selenium)页面,这回老板又发话了,编辑利用脚本虽然登录成功了,但是有一些表单还是得手动上传,希望能改造成自动化流程。说实话,没毛病,机器能干的事,就没必要麻烦人了,拿人钱财,替人办事,开干。 首先理清思路,没必要每次登录都去实时监测识别登录页面的验证码,而是反过来想,当我们登录成功了,......了解更多
Python3.7爬虫:实时api(百度ai)检测验证码模拟登录(Selenium)页面by Liu Yue/2020-03-05 标签: 检测 爬虫 页面 Selenium python3.7 实时 登录 api ai 验证码 百度 模拟 今天有同学提出了一个需求,老板让自动登录这个页面:https://www.dianxiaomi.com/index.htm,毫无疑问登录页面基本都会有在线验证码,要破解这个验证码当然不是啥难事,诚然可以自己去训练模型,然而大量的训练集测试数据还得自己去打码,说白了,不值当,有现成的接口可以用,何乐而不为,于是我们向万恶的百度伸出了魔爪。 首先申请百度api开发平台:https://cloud.baidu.com/ ......了解更多
在阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redisby Liu Yue/2019-05-27 标签: 爬虫 Scrapy 阿里 基于 redis 部署 Centos7.6 分布式 上面 Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。 而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(......了解更多
禁止爬虫爬你的页面by Liu Yue/2013-04-21 标签: 爬虫 页面 禁止 众所周知,使用robots.txt文件可以对爬虫能否爬页面进行声明,但是这只是一个“君子协定”,有人遵守也有人不遵守,所以还需要对页面进行一个声明,加入meta代码<meta name="robots" content="noindex"> 这样才能有效的对爬虫进行封禁,例如本站就是如此,但是这是一个双刃剑,禁止爬虫的同时,SEO就不那么友好了......了解更多