全站广播:
快来一起嘀咕下该主题吧
Sitemap 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码。
Sitemap 必须:
以 <urlset> 开始标记作为开始,以 </urlset> 结束标记作为结束。
在 <urlset> 标记中指定命名空间(协议标准)。
每个网址包含一个<url> 条目作为 XML 父标记。
在每个 <url> 父标记中包含一个 <loc> 子标记条目。
其他所有标记均为可选,搜索引擎不同,对可选标记的支持也各不相同。有关详情,请参阅各个搜索引擎的文档。
而且,Sitemap 中的所有网址都必须来自于同一个主机,如 www.example.com 或 store.example.com。有关详细信息,请参阅 Sitemap 文件位置。
XML Sitemap 示例
下例显示只包含一个网址并使用所有可选标记的 Sitemap。可选标记为斜体。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
以下对可用 XML 标记进行说明。
属性 说明
<urlset> 必填压缩此文件并提供当前协议标准作为参考。
<url> 必填每个网址条目的父标记。剩余标记为此标记的子标记。
<loc> 必填该页的网址。如果您的网络服务器需要网址的话,此网址应以协议开始(例如:http)并以斜杠结尾。该值必须少于 2,048 个字符。
<lastmod> 可选该文件上次修改的日期。此日期应采用W3C Datetime 格式。如果需要,此格式允许省略时间部分,并使用 YYYY-MM-DD。
请注意,此标记不同于服务器可返回的 If-Modified-Since (304) 标头,搜索引擎可能会以不同的方式使用这两个来源的信息。
<changefreq> 可选页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:
always
hourly
daily
weekly
mothly
yearly
never
“always”值应当用于描述随每次访问而改变的文档。而“never”值则应当用于描述存档的网址。
请注意,抓取工具会将此标记的值视为提示而不是命令。尽管搜索引擎抓取工具在做决定时会考虑此信息,但对于标记为“hourly”页面的抓取频率可能低于每小时一次,而对于标记为“yearly”页面的抓取频率可能高于每年一次。抓取工具也可能会定期抓取标记为“never”的网页,以便能够处理对这些网页的未预期更改。
<priority> 可选此网址的优先级是相对于您网站上其他网址的优先级而言的。有效值范围从 0.0 到 1.0。该值不会影响您的网页与其他网站上网页的比较结果,而只是告知搜索引擎您认为哪些网页对抓取工具来说最为重要。
一个网页的默认优先级为 0.5。
请注意,为网页指定的优先级并不会影响网址在搜索引擎结果页上的排名。搜索引擎在同一网站上选择不同网址时会使用此信息,因此,您可以使用此标记增加最重要的网页在搜索索引中显示的可能性。
另请注意,为网站中的所有网址都指定高优先级并不会带来什么好处。因为优先级是相对的,只用于在您网站的网址之间进行选择。
Sitemap 文件必须以 UTF-8 编码(通常在保存文件时可以这么做)。对于所有的 XML 文件,任何数据数值(包括网址)都应对下表中列出的字符使用实体转义码。
字符 转义码
& 符号 & &
单引号 ' '
双引号 " "
大于 > >
小于 < <
此外,所有网址(包括 Sitemap 的网址)都必须经过网址转义并编码,以便它们所在网络服务器可以进行读取。不过,如果您使用任何类型的脚本、工具或日志文件来生成网址(除手动输入之外的任何方法),通常系统已经替您完成了这部分工作。请仔细检查,确保网址符合 RFC-3986 URI 标准、RFC-3987 IRI 标准,以及 XML 标准。
Tags: Google Sitemap XML标记解释