日志样式

网站地图相关知识

谷歌与2005年最先发布,然后雅虎和微软于2006年也同意支持这个协议。可以用网站地图协议给搜索引擎提供一个你希望它们爬行和索引的所有URL列表。

在网站地图文件中加入一个URL并不保证这个URL一定会被抓取和索引,但是它可以使原来无法被搜索引擎发现和索引的页面被爬行和索引。另外,网站地图似乎也能帮助被降级到谷歌补充材料索引库的页面重返主索引库。这个协议是搜索引擎正常基于链接的爬行的补充,而不是替代品。

网站地图的好处包括:
1、对搜索引擎通过正常爬行已经知道的页面来说,它们可以使用你提供的元数据来改善对网站的爬行,比如内容最后被修改的日期及网页变化频率。
2、对那些搜索引擎不知道的页面,它们使用你提供的额外URL提高爬行覆盖面。
3、对含有重复内容的URL,搜索引擎可以使用XML网站地图数据帮助选择一个规范化版本。
4、注册和验证XML网站地图可能代表着正面信任/权威信号。
5、网站地图的爬行/收录好处可能带来第二层正面影响,例如排名改进或者更高的内部链接流行度。

一位谷歌的工程师这样解释网站地图:
设想一下你有页面A、B和C,我们通过沿着链接的正常爬行找到了页面A和B。然后你建了一个网站地图,列出页面B和C,现在页面C也有个机会(但不是承诺)被抓取。我们不会因为你没在网站地图中列出页面A就把这个页面删除。我们也不保证因为你列出一个我们以前不知道的页面就一定会抓取它。但是如果由于某种原因我们没看到任何联向页面C的链接,或者虽然我们知道页面C但是因为URL有太多参数或其他原因而被拒绝,现在至少有个机会让我们会抓取页面C。

网站地图文件中包含什么
创建网站地图文件时需要注意,只能包含每个URL的规范化版本。换句话说,同一页内容有多个URL时,搜索引擎可能假设网站地图文件中指定的URL是这页内容的首选URL形式。你可以把网站地图文件当做给搜索引擎建议页面首选版本的方法。
另外,也要注意什么东西不能放入网站地图文件。例如,不要包含指定相同内容的多个URL,不要放入翻页页面,或者同样内容的不同排序方式的页面,以及网站上的低价值页面。另外,要确保网站地图文件中列出的URL处于比网站地图本身位置更高的目录,搜索引擎将不能包含这些URL。

管理和更新XML网站地图
一旦XML网站地图被接受,网站被爬行,就要监控结果,有问题时更新网站地图。网站上增加URL时就要向各大搜索引擎更新XML网站地图。增加大量页面或有策略价值的一组页面时也需要保持网站地图文件更新。
在现有URL上更新内容时不需要更新XML网站地图。删除页面时也不是非常有必要更新网站地图文件,因为搜索引擎会自己发现无法爬行的页面,但是如果有太多不存在的页面还是要更新网站地图文件。增加新页面后最好也删除不存在的页面,使网站地图文件越准确越好。