一個新域名,花了幾天的時間創建了900多個二級域名,然后查看服務器日志,發現百度抓取規律,如下圖:
這些IP地址 全是百度的各路蜘蛛,可以到ip138去查,其中/ HTTP/
1.1 代表的是域名首頁的意思,意思就是不含后綴鏈接的意思,比如二級域名,域名,從日志看發現百度最先抓取首頁,然后再逐個的抓取其他二級域名,然后再列表頁,這也是為什么百度沒有開始收錄內容頁原因,百度的原理先必須把網站的整體結構給索引號,然后最后才抓取內容頁, 200代表抓取成功,后面那串五位的數字是頁面大小的意思,單位為KB。
我們再來看谷歌蜘蛛的日志:
看圖可以發現谷歌在短時間內頻繁訪問sitemap,說明谷歌更注重站點地圖,也就是sitemap.xml文件,另外谷歌是在遵守robots.txt文件下看到鏈接就抓取,并且可以很快得到搜索,但是一定要先搞好網站結構,哪些該抓取哪些不該抓取一定要在建立站之前就設置好,給谷歌蜘蛛好印象,否則你收錄很多都不會有搜索。
這是統計谷歌搜索引擎顯示被用戶搜索到本站的關鍵字,一個新站三四天時間就得到谷歌那么多的搜索,我想很多站長都不會有這樣的經歷。