最近统计了一下博客上的各种爬虫,基本是两个类型:
(1)搜索引擎厂家的爬虫,多数是知名大厂,只有一个seekport是个小众的德国搜索引擎,其他都是大厂,这个行业活下来的搜索引擎都不容易。
(2)专业搜索引擎或者行业研究的爬虫
从这些爬虫的排名看,国内搜索引擎大厂的爬虫都比较“懒”(或者是“笨”、“穷”),他们来访问我这个小站的次数远远低于国外大厂Bing或者Google,差别大约在6-10倍,这种效率上的差别,带来的直接效果就是这些国外大厂搜的内容更多、更新更快。究其原因,可能还是爬虫的数量不足,难以大范围、高频次采集。估计在国内搜索大厂眼中,搜索引擎毕竟只是带来收入的一个渠道,用户能否搜索到不重要,重要的是可以附带广告就行。但是国外的搜索引擎大厂,明显更为认真,他们会努力提高搜索引擎的结果和排名,以便获得更大的优势。
排名 | 爬虫 | 谁养的 | 链接 |
1 | BingBot 2 | Bing | |
2 | Google Bot 2.1 | ||
3 | AhrefsBot | Ahrefs online marketing,12 trillion link database | https://ahrefs.com/zh/robot |
4 | MJ12bot 1.4 | Majestic is a UK based specialist search engine | https://mj12bot.com/ |
5 | SemrushBot | SEMrush sends out to discover and collect new and updated web data | https://www.semrush.com/bot/ |
6 | Seekport Crawler | Seekport | http://www.seekport.com/ |
7 | Sogou Web Spider 4 | Sogou | |
8 | 360Spider | 360 | |
9 | Baiduspider 2 | Baidu | |
10 | General Crawlers | 不知道是啥 |
上述列表中是最常来的爬虫,肯定还有一些频次更低的,比如以前就有两个。DotBot和Feedly Feed Fetcher,最近这两位不怎么来了
相关信息