爬虫

python3.7爬虫:使用Selenium带Cookie登录并且模拟进行表单上传文件

by Liu Yue/2020-03-28

标签: cookie python3.7 Selenium 上传使用并且文件模拟爬虫登录表单进行

前文再续，书接上一回，之前一篇文章我们尝试用百度api智能识别在线验证码进行模拟登录：Python3.7爬虫：实时api(百度ai)检测验证码模拟登录(Selenium)页面，这回老板又发话了，编辑利用脚本虽然登录成功了，但是有一些表单还是得手动上传，希望能改造成自动化流程。说实话，没毛病，机器能干的事，就没必要麻烦人了，拿人钱财，替人办事，开干。首先理清思路，没必要每次登录都去实时监测识别登录页面的验证码，而是反过来想，当我们登录成功了，......

python3.7爬虫:使用Selenium带Cookie登录并且模拟进行表单上传文件

了解更多

Python3.7爬虫：实时api(百度ai)检测验证码模拟登录(Selenium)页面

by Liu Yue/2020-03-05

标签: 检测爬虫页面 Selenium python3.7 实时登录 api ai 验证码百度模拟

今天有同学提出了一个需求，老板让自动登录这个页面：https://www.dianxiaomi.com/index.htm，毫无疑问登录页面基本都会有在线验证码，要破解这个验证码当然不是啥难事，诚然可以自己去训练模型，然而大量的训练集测试数据还得自己去打码，说白了，不值当，有现成的接口可以用，何乐而不为，于是我们向万恶的百度伸出了魔爪。首先申请百度api开发平台：https://cloud.baidu.com/ ......

Python3.7爬虫：实时api(百度ai)检测验证码模拟登录(Selenium)页面

了解更多

在阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis

by Liu Yue/2019-05-27

标签: 爬虫 Scrapy 阿里基于 redis 部署 Centos7.6 分布式上面

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(......

在阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis

了解更多

禁止爬虫爬你的页面

by Liu Yue/2013-04-21

标签: 爬虫页面禁止

众所周知，使用robots.txt文件可以对爬虫能否爬页面进行声明，但是这只是一个“君子协定”，有人遵守也有人不遵守，所以还需要对页面进行一个声明，加入meta代码<meta name="robots" content="noindex"> 这样才能有效的对爬虫进行封禁，例如本站就是如此，但是这是一个双刃剑，禁止爬虫的同时，SEO就不那么友好了......

了解更多