SEO和站長工具的之間秘密
除非搜索引擎能夠猜到你要搜索的具體的 URL 地址,一般地,它都會從自己的數據索引庫中扒拉數據。對于權重高、更新頻率高、原創內容多的網站,搜索引擎會十分勤快的爬最新內容。那么,如何讓搜索引擎知道網站上有多少網頁便成了一件重要的事情。
我們經常會聽到一個叫做”網站地圖”的東西。有些網站會在自己的站點中添加一個頁面,這個頁面包括了整站的重要入口,那么這個頁面就是該頁面的網站地圖。這些地圖是給人看的,如果只想給爬蟲引擎看,可以將所有的鏈接按照一定的格式放到 sitemap.xml 文件中,然后把這個文件放到網站的根目錄下。
而最重要的還是 robots.txt 這個文件,它是所有引擎約定俗成的一個文件,比如我的網站中用到的 http://www.barretlee.com/robots.txt ,其內容為:
Sitemap: http://www.barretlee.com/sitemap.xml
User-agent: *
Allow: /
SEO上,站長工具主要分為兩個方面,一個是對網頁的抓取,一個是對網頁的分析。它告訴搜索引擎,網站地址的位置、允許蜘蛛爬取的內容等,它是一個協議。最近,貌似還多了一個 humans.txt,也是一個比較有意思的文件,可以在這里了解它:http://www.humanstxt.org.cn/,它可以描述一些站點和團隊的故事。
網頁的抓取在百度站長工具中體現的比較多,而網頁的分析,諸如數據標注、結構化數據等,百度做的還比較搓,目前還在內測階段,需要發送郵件才能申請權限。看到百度站長工具頁面上的幾個數據標注示意圖,揣測應該比 google 弱一百倍,所以我還是重點說說 google 的吧。
網頁的抓取
這塊上,兩個站長工具都是強調讓開發者把網站地圖顯式的暴露給搜索引擎,提供了各種分析網站地圖準確性合理性的工具,搜索引擎如果發現你的網站上一個地址時有時無,就會覺得你不可信有點飄渺。所以一旦網頁因為改造或遷移導致頁面鏈接丟失,可以在站長工具中填寫這些死鏈。
不要貪婪的讓搜索引擎不停的爬取你的網站,如果它多次過來發現內容是一樣的,它也會很傷心的離開。而如果它發現每次過來爬你的內容都能找到很有意思的、從來沒發現過的東西,它會對你越來越感興趣,甚至日久天長它會給你定型、定位,然后權重會越來越高。在站長工具上都是可以設置的。
網頁的分析
google 的數據化標記做的實在是太贊了!輸入網址,它會打開你的網頁,設置你要標記的類型,比如文章。選中頁面上的元素然后標記。比如選中文章的標題,選中之后有一個菜單,在菜單上選擇 title,選中作者名字,然后菜單上選擇 author,一個頁面標記完了之后,他會分析整站的所有頁面,如果結構相似,也會自動標記其他頁面。
整個標記完成之后,google 就知道你整個網站的信息架構了,下次要做的就是對這些信息內容做匹配和分類。所以我們可以看到,個人博客在 google 中的搜索是極其靠前的,因為頁面的信息結構簡單,即便你不去標記,它爬取多次之后也能自己理解。
對比百度和 google ,兩者如同屌絲和高富帥。不過高富帥總是要越墻才能看到,所以我平時使用的依然是百度分析。百度分析和百度站長工具還是不一樣的。百度對網頁流量的分析和搜索詞匯的分析還是挺精準,也很有參考價值。