2007年7月24日星期二

Google News(资讯)的隐藏政策

Google News(资讯)

Google News(资讯)的新版帮助中心的内容,比起旧版的帮助文件更加详细了。比如,你现在可以知道,和网页搜索的PageRank排名算法类似,Google News中的新闻的排名也和链接到该新闻网页的链接数量和质量有关。至此一切都还算正常,不过关于Google News(资讯)的隐藏政策的就比较有趣了(via Philipp):

为了将您的新闻报道加入Google News(资讯),我们的抓取工具需要访问您网站的内容。目前,抓取工具不能填写注册表单,也不支持cookie。因此,我们需要绕过注册页面才能成功抓取您的网站。

实现这一目标的最简单方法是对您的网络服务器进行配置,使其不对我们的抓取工具加载注册页(当User-Agent为"Googlebot"时)。您可以通过确认 IP 地址是否介于66.249.64.0/20这一范围内来验证此请求是否确实来自我们的漫游器。还有一点同样重要,即您的robots.txt 文件须允许Googlebot访问您的网站。

通过进行这样的配置,Googlebot就不会看到发布者的注册页面--但这并不意味着用户一定要看到它。对通过Google News(资讯)链接访问的网页使用注册页会带来不良的用户体验,Google提供了两种解决方案:

"首次点击免费":发布者会检查推介网站的来源。如果推介网站是Google News(资讯),且根据引用者判断这是该用户通过Google News(资讯)浏览的该网站的第一篇文章,将免除注册要求并显示全文。但对相关文章页面的所有点击都会被跟踪监控。也就是说,如果该用户点击该页面的其他位置,他将被要求注册。

"订阅标记":Google News(资讯)为需要注册浏览的资讯来源的出版物名称添加一个"需订阅"标记。这样就可以向用户表明,如果他们要访问相关文章,可能需要在该网站上进行注册或订阅。

你还没有意识到为何我认为有趣?Google的网站管理员指南中的"质量指南-基本原则"中是这么写的:

设计网页时该考虑的是用户,而不是搜索引擎。不要欺骗用户,或提交给搜索引擎一种内容,而显示给用户另一种。这种做法通常称为"隐藏"。

被Google News(资讯)抓取的网页同样应该遵守这一基本原则,然而Google News(资讯)的配置指南似乎在指导发布者违反这一基本原则。看来Google似乎为Google News(资讯)新增了一个隐藏政策

没有评论: