
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961用代理IP可以不被发现爬虫吗?网络爬虫在爬取目标网站的时候,总是不知不觉就被发现了,然后关进了小黑屋不见天日。那么,到底是什么行为触发了目标网站的反爬机制呢,只有找出了原因才能解决问题,才能避免下次掉进同一个坑里。让我们来看看有哪些行为会被反爬策略发现吧。
1、单一的访问频次过高,反人:普通人10秒访问一个网页, 爬虫一秒获取10个网页。
2、单一的ip出现非常规的流量,某个IP流量反差巨大。
3、大量的重复简单的网页浏览行为,有规律的访问相同网页。
4、 只下载html文档, 不下载js。
5、 在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden。
6、在页面写一段js代码, 浏览器直接执行, 程序不会执行。
7、判断请求头: 什么都变了,user-agent 万古不变。
这些行为比较明显,很容易被被反爬策略识别出来,要想不被识别,就要尽可能的模仿真实用户行为,可以看看以下一些策略,如果避免触发反爬策略。
1、多主机的策略, 解决单一ip的问题, 分布式爬取。
2、调整访问频次, 设置随机休眠时间,爬一会休息一下。
3、通过不断切换代理ip, 或者直接使用ip代理的形式。
4、 频繁的修改user-agent头。
5、Header中的Cache-Control修改为no-cache。
6、当返回状态码是403(服务器资源禁止访问),改变Header和IP。
ublic static void main(String[] args) throws Exception {
HttpGet httpGet = new HttpGet("https://news.163.com/");
//我是专门用来模拟浏览器,让我的请求看起来和真实的浏览器一样
httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");
httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
httpGet.setHeader("Cache-Control", "no-cache");
httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");
httpGet.setHeader("Host", "news.163.com");
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
httpGet.setHeader("referer","http://***.***.com/");
CloseableHttpClient httpClient = HttpClients.createDefault();
CloseableHttpResponse res = httpClient.execute(httpGet);
HttpEntity entity = res.getEntity();
String html = EntityUtils.toString(entity,"utf-8");
System.out.println(html);
}
相关文章内容简介
1 用代理IP可以不被发现爬虫吗?
用代理IP可以不被发现爬虫吗?网络爬虫在爬取目标网站的时候,总是不知不觉就被发现了,然后关进了小黑屋不见天日。那么,到底是什么行为触发了目标网站的反爬机制呢,只有找出了原因才能解决问题,才能避免下次掉进同一个坑里。让我们来看看有哪些行为会被反爬策略发现吧。 1、单一的访问频次过高,反人:普通人10秒访问一个网页,∵爬... [阅读全文]
最新标签
推荐阅读
01
2019-01
使用动态ip软件前,这三个概念你要弄懂
代理(英语:Proxy)也称网络代理,是一种独特的互联网服务,准许1个终端设备(通常为手机客户端)通过这个服务与另个终端设备(通常为网络服务器)进行非直接的联接。一些网关ip、无线路由器
06
2018-12
IP限制刷票怎么突破?还不被发现?
投票活动经常是通过网络进行的,越是大型的投票活动,越容易出现刷票的现象,因为并不是每个人都有非常的人脉资源,呼朋唤友投票,对于大型活动,根本溅不起水花。
30
2019-04
用代理IP可以不被发现爬虫吗?
网络爬虫在爬取目标网站的时候,总是不知不觉就被发现了,然后关进了小黑屋不见天日。那么,到底是什么行为触发了目标网站的反爬机制呢,只有找出了原因才能解决问题,才能避免下次掉
06
2019-03
如何找到大量的IP使用?找网络IP还是代理IP软件,vps拨号
有些工作就用一个IP地址是完成不了,但是IP资源少,找不到那么多的IP可以用。如果多拉网络线路,这成本也太高了,况且还是使用同一个区域的IP池,这IP量也并不大,那么如何找到大量的IP使
热门文章