为你的博客加入“丰富网页摘要”

什么是“丰富网页摘要”?我想可能还有一些站长朋友并不了解,但如果经常使用谷歌搜索引擎(尤其是英文版)的朋友,应该会注意到一些网页在自然搜索结果中会显示非常友好的信息(图1),其中可能会包括作者信息、评论数、评分情况、页面导航等信息。

丰富网页摘要示例
图1

这种显示效果不仅非常友好,而且还可以在自然搜索结果中“脱颖而出”,增加用户的关注度,也可以方便谷歌搜索引擎对网页的内容进行分析。当然,并不是加入丰富网页摘要标记,在搜索结果中就一定会显示,但我认为加入标记有百利而无一害。

谷歌的帮助文档中对“丰富网页摘要”做了很详细的说明,类型包括:

我在这里对“评论(hReview)”中的“单条评论”这个类型的标记进行说明。评论分为“单条评论”和“汇总评论”,如果页面中只有单条评论则使用“单条评论”的格式,如果页面中含有多条评论则使用“汇总评论的格式”。如果网页中包含这2种评论格式的标记,Google 会使用汇总评论标记来显示。

“单条评论”的属性有“item(评论项), rating(评分), reviewer(评论者),dtreviewed(评论日期), description(评论正文), summary(评论摘要)”,其中粗体为必需项,注意dtreviewed属性,应该采用 ISO日期格式

这个示例是采用了“微格式”的标记方法,除了这种方法以外还有“微数据”和“RDFa”,这3种方法都可以被 Google 很好的识别。

音乐、产品、人物等这些摘要标记,站长朋友们可以在 Google 推出的“丰富网页摘要标记”专题获取帮助。

PS,谷歌中文网站站长小组和谷歌中文搜索质量团队在12月14日分别举行“在线互动活动”和“网站诊断活动”,欢迎站长朋友们参加。

删除网页快照的方法

近来有很多网友加我QQ,向我询问如何删除网页快照,大多数是谷歌中的快照。

昨天在CCTV 2看到一篇关于删除网页快照的报道,还有专门这样的网络公关公司,真是惊叹他们的赚钱方式。

因为他们都反映,在百度删除一个快照只需要发封邮件就可以马上删除了,而谷歌却找不到删除的办法。其实谷歌有一套非常完善的网页快照删除方案,而且也非常容易操作,最重要的是这种删除方法非常公平,不会被竞争对手所利用(赞一下谷歌)。

在谷歌中删除网页快照的方法,主要用到的工具叫做“网页删除请求工具”,可以通过这个工具删除3种情况的网页快照和索引:

这里我重点讲一下如何删除“显示在 Google 搜索结果中的信息或图片”,我想这种情况也是大多数网友所关注的。这种情况又分3种详细的解决方案:

  1. 已经修改或删除该页内容,不再包含与我有关的信息或图片。
  2. 网站所有者已经通过修改robots.txt或元标记拦截此网页,以使其不会被编入索引中。
  3. 无法与网站所有者取得联系,但搜索结果中的信息属于下列其中一种:
    * 我的社保号或身份证号
    * 我的银行帐户或信用卡卡号
    * 我的手写签名图
    * 我的全名或我公司的名称出现在了包含成人内容的网站上,该网站在滥用 Google 的搜索结果。

上面提到的1条是最常用到的。很多网友在其他网站发布过自己的QQ号码、邮箱地址、真实姓名等个人信息,但后来不想让搜索引擎抓录和收取,这时就要用到第一种删除网页快照的方法了。这个方法必须要使被删除的网页符合以下要求中的任意一项:

  • 网页已经删除。
  • 网页已经修改并且不包括所搜索的关键字。

要达到以上的要求,网友们自己可以通过会员管理通道可以进行删除或者修改,也可以联系网站管理员协助来删除或者修改,但最后的目的是要达到上面的要求中的任何一项,达到上面的要求后,便可以通过 网页删除请求工具 来提交删除请求了,这个过程一般需要2、3天的时间。

基本网友是遇到第一种情况 ,后面的几点情况我就不说了,其实在这些文档官方都有非常详细的说明,但可能很少网友去查看,所以在这里发表出来,希望可以帮助需要帮助的网友们。更多更加详细的信息,可以通过访问 网页删除请求工具 来了解。

谷歌现在已经对“网页删除请求工具”做了更新,使用度可以更加方便的使用此工具提交删除请求,你只需要访问“网页删除请求工具”页面“提交新的删除请求”即可。另百度的快照删除除了拨打电话外还可以通过“网页投诉中心”进行删除请求。

日记一则 09年10月24日

有些日子没来更新了,刚回家,有很多事情还没有稳定下来,所以也很少关注博客,今天抽部分时间来把自己这几天的事情记录一下。

辞职还算顺利,公司对我的离职也表示支持,在此感谢公司领导的理解。

回来后只接手了一个关于SEO的业务,今天在查看时,发现在谷歌中的排名已经有了很大的提升(从第6页排到第1页),但离要求还有一点距离。这是我第一次做SEO的业务,所以价格很低,但以自己对SEO的了解,还是有一定的把握的,能这么快取得这么好的效果,在这里我小小的高兴一下:)。能接到这个业务,是靠在谷歌网站管理员支持论坛的关系,很庆幸谷歌为我提供了这么好的一个平台。

一个人很容易感觉会力不从心的样子,每天睡觉前都会不停的叮嘱自己要不断努力,但按计划做起来确定有些不易,总之自己坚持努力吧。

接下来要迫不及待要办的事就是去市医院把父亲住院时的农村合作医疗保险报销了,确实要经过很多手续,听村里的人说办这个挺难的,也不知道会不会顺利。

接下来就要为明年盖房子考虑了。

CCTV谴责谷歌 目的何在?

2009年6月18日,央视分别在“新闻联播”和“焦点访谈”两个栏目中谴责谷歌中国大量传播淫秽色情和低俗信息,谷歌中国可谓是“出尽风头”。今天已经21号了,“谷歌涉黄风波”已经过去3天时间了,其实我在第一时间就想说一下我的看法,后因种种原因未能发表这个日志。但现在我不得不说,CCTV为何此次专门针对“谷歌中国”呢?虽然央视在19日回应曝光“谷歌涉黄”是出于正常的舆论监督,但是网上的对央视的各种猜测却不断升温。

2008年11月15日、16日CCTV曾对百度竞价排名进行过两次曝光,此次曝光并没有引起网友们的猜测。在09年央视的春节晚会上,百度赞助央视高达4000万元,百度被央视和谐了。

现在我来具体谈谈我对“谷歌涉黄”的个人看法。据猫扑网友曝光,“焦点访谈”中有位被采访的一位名为高也的大学生其实是中央电视台记者二组的在校实习生,肉友通过人肉搜索发现在其校内网中写了一篇标题为《你好,北京。再见,武汉》的网络日志,其中明确告知自己将去中央电视台进行为期3个月的实习。

这个名为高也的大学生,在采访中他这样说道:

我觉得这个黄色啊什么淫秽信息在网上那个毒害特别大,特别是经过一些像Google这样的链接,那种毒害特别大。就是我一个同学,他以前,就比较好奇这些东西,他就去点击黄色网站,搞得那段时间心神不宁。后来国家打击淫秽黄色网站,他就没上,那段时间好了。

结果后来他又发现,通过Google这些用户比较多的搜索引擎可以打开这些网址。然后又进入了这些黄色网站,链接特别多,导致又反复了。

以下是一位网友的恶搞:

我觉得这个淫秽书刊毒害特别大。就是我一个同学,他以前,就比较好奇这些东西,他就自己买淫秽书刊来看,搞得那段时间心神不宁。后来国家打击淫秽书刊,他就没再看,那段时间好了。

结果后来他又发现,通过新华字典这样比较权威的工具书可以找到这些淫秽的字词。然后就把这些字拼起来阅读,后来导致他又反复了。

呵呵,很牵强的说词。难道百度在中国的用户不多吗?百度中同样可以打开内容低俗的网站,在百度中输入“92”这个关键词,便出来一大堆色情网站,其中内容低俗不堪,以下是搜索截图(链接到的网站中的内容就不截了,太不堪入目了!):

很明显CCTV此次曝光”谷歌涉黄“动机不良,为何不曝光百度和其他搜索引擎或者网站呢?央视究竟出于什么目的,我们不得而知,但此次曝光”谷歌涉黄“确实引起不少网民的不满和对央视的各种猜测。

央视的话已经不能再信了,作为中国最有影响力的电视媒体,他确实应该自我检讨一下,为什么会遭网民频频的不满和猜测?顺便说一下,央视19日在”面对面“栏目中报道关于”神医“李培刚的节目已经删除

Sitemap警告——网址无法追踪

今天打开“谷歌管理员工具”发现Sitemap出现了“警告”,打开后看到详细信息:

当我们从您的 Sitemap 中测试网址实例时,我们发现有些网址重定向至其它位置。我们建议让您的 Sitemap 包含指向最终目的地(重定向目标)的网址,而不是包含重定向的其它网址。
HTTP 错误:  301 (永久重定向)

错误信息写的很清楚了,在我的Sitemap文档中,有的网址不是网站的直接地址,而是一个转向页面,而Sitemap中的网址,必须是访问网页的最终地址。奇怪,错误信息中的网址并没有使用301重定向,怎么会出现这样的错误呢?

原来我在Sitemap中有个网址写成了:http://zhangqian.me/gbook,而实际IIS对这样的地址自动永久重定向到http://zhangqian.me/gbook/上面,只是后面多了个“/”,问题就得已解决了。

SEO优化:规范网站中的URL

SEO的目的无疑是让搜索引擎“喜欢”上你的网站,这样自然就达到了最终的目的——提高网站的访问量。那要想制作一个让搜索引擎“喜欢”的网站,就要去迎合搜索引擎的习惯,尽管搜索引擎的一些不符合正常逻辑的规则,你也要必须遵守。

今天我要谈的就是搜索引擎的一个不符合正常逻辑但又不得不遵守的规则——URL的大小写混写。可能有的朋友就要问了,URL的大小混写是什么意思?

上面的HTML代码中的URL,其中便运用了大小写混写的方式。虽然大小写好像对静态网页或者大多数动态网页没有什么影响,但是对搜索引擎确有着很大的关系,所以网站程序员在开发程序时,最好不要使用URL大小写混写的方式。

URL大小写混写对SEO到底有着怎样的影响?我博客的URL采用的便是大小写混写的方式,虽然无论是大写还是小写,客户端显示的结果都一样,但是对于搜索引擎来说,如果URL有大小写的区别,搜索引擎会将其视为两个不同的URL地址,这将会搜索引擎对网页权值分配的流失。也就是说,如果别人转载了你的一篇文章,并在其文章中加上了你的链接,很有可能URL已经被程序或者人为改为了小写方式。如果搜索引擎在索引的时候,便会索引小写方式的URL,这样便使得搜索引擎认为你的网站中有重复的内容、重复的标题标记、重复的元说明等内容抓取错误,不仅影响页面的PR值,还会影响网站的整体质量。

URL大小写不同也直接影响着PR值的不同,所以在建网站的时候就应该重视这个问题,所有URL都使用小写方式,以免以后产生不必要的麻烦。

我的博客采用的是基于ASBLOG2.1为核心,然后经过自己扩展的程序,当时没出于网站整体质量考虑,没有修改。但上个星期在对网站进行重构时,我决定把大小写混写的URL全部改为了小写方式,之后便发现在“Google 网站管理员工具”的“内容分析”中发现了很多“重复的标题标记”错误。在网站管理员帮助论坛中试图寻求更好的解决办法,可直到现在也无人回复,所以只能等到搜索引擎对网站的重新索引了。

搜索引擎观察之Google与百度的搜索结果排序

    在“百度”和“Google”中输入同样的关键词进行搜索,得到的结果大都不同。产生这种情况的原因是因为百度和Google的排名算法不同,那到底哪个排序结果对用户体验有益呢?我们来看一个例子。

    先在百度中搜索“山西”这个关键词,搜索结果中排在第一位并且配有图片的很醒目的地方的网站是“黄河新闻网”(由山西省政府新闻办主办,省委宣传部主管),这个结果是百度推出的一项名为“品牌链接”的服务中做了推广的网站。在下面在“自然搜索结果页”中,排在第一位的是“山西 百度百科”,而山西省人民政府门户网站(由山西省人民政府主办)却排在了之后,网站描述则也不索引DMOZ的数据。Google的搜索结果中,没有任何标有“赞助商”的链接存在,排在第一位的是“山西省人民政府门户网站”,网站描述也索引了DMOZ的数据,“山西 百度百科”则随其后。这样一个比较就很容易看出哪个更利于用户体验。

    现在我在百度中搜索“site:zhangqian.me”,来看一下站内链接的排序。排在第一位的是网站首页,网站描述是按网页中的内容顺序抓取的,并没有抓取description中的描述,可以认为百度忽略了meta标签。接下来的排序我就找不出规律了,不过可以肯定不是按照网页对用户体验的价值来排序的,也有可能是随机排序,就和买彩票一样,哪个幸运就被排在了前面。

    在Google中搜索“site:zhangqian.me”,Google对站内链接的排序就很不错,按照网页的重要程度来进行排序的,网站描述也索引了DMOZ中的数据,或者抓取了meta标签中的内容。无论是链接排序还是网站描述,对用户体验都很不错。

    Google搜索中还有一个非常不错的功能,可以提醒正在使用Google进行搜索的用户哪些是被挂马的网页,点击链接也不会打开,只有在复制链接地址在地址栏输入才可以访问这个有木马的网页。

    我刚接触互联网的时候是使用百度搜索来查找自己想要的资料的,后来使用了Google后感觉更加人性化,搜索出来的结果无论是排序还是内容都很让我满意。当然百度的其他一些服务也很不错,“百度知道”就是一个很不错的服务,在上面可以找到一些自己想要的答案。

CCAV为什么要这样做?

首先申明,我并不是替谷歌打抱不平。我是对CCAV的报道感到困惑,一个媒体界的老大,怎么能这样报道呢?

CCAV前不久曝光了百度虚假医院广告,后又于12月11日《朝闻天下》栏目播出了“搜索引擎赞助商链接虚假售药信息”的节目,在其中很明显就在指的Google

以面是关于此报道的视频:

其中,记者所说“打开一家搜索引擎的网站”正是指Google,并在谷歌的搜索框中输入“糖尿病”三个字,然后镜头慢慢放大,最后定格在了搜索引擎的右侧。在上面视频的33秒时,大家注意看,IE地址栏显示的网址是却是“搜狗(www.sogou.com)”的。我随后便到“搜狗”的网站中输入“糖尿病”三个字进行搜索。确实,在“搜狗”的搜索结果右侧,与上面视频中的画面完全一样。

糖尿病
图为搜狗的搜索结果

不排除谷歌的赞助商链接中有虚假售药广告的可能(现在在谷歌关于医药的搜索结果中已经没有赞助商链接了),但是央视的这种做法实在让人搞不明白。

百度之前为何不收录我的博客

今天发现百度已经“恢复”了对博客的收录。为什么是“恢复”呢?其实在我的博客建立之初,就出现百度收录不正常的现象:百度只收录了博客的标签页(如:http://zhangqian.me/Search.Asp?Part=Tag&TagName=百度),而博客的其它任何页面都没有收录。最初我本想通过邮件的方式向百度方面寻问,不过由于我不想表现的太过于关注搜索引擎,所以起初打消了查找收录不正常的原因。

不过后来随着CCTV对百度的曝光和“互联网‘违法和不良信息举报中心’”对百度的谴责,我又开始关注百度对博客收录的不正常现象,所以我首次通过邮件的方式向百度相关负责人进行了询问。大概过了2天的时间,百度方面回复了我的询问,在邮件中只是泛泛的说了一大堆,最后以“由于其他技术原因”回答了我所提出的疑问。

我后来就一直在想,如果我的博客存在“违规现象”而受到百度“惩罚”的话,那么为什么百度只收录标签页呢?百度一直秉承“用户体验至上”的理念,可是任何人都不会认为标签页会比内容页更有价值?我坚定自己的博客没有任何“违规现象”,很有可能是百度的搜索技术遇到了一些问题。

我相信百度会秉承“用户体验至上”的理念,所以我第二次通过邮件的方式中对百度相关负责人进行了询问,这一次我在邮件中就把话说的很明白,以下是邮件原文:

    尊敬的贵站相关负责人,我之前曾通过邮件的行式咨询过为什么我的网站仅被收录了一些无关紧要的标签页,而直正对“用户体验”的内容却一个也没有。当时贵处相关负责人回复了一封邮件,其中泛泛的说“其它原因”便把我的提问给回答了。
    我一直想不明白,百度一直说是“以用户体验为中心”。虽然我的网站可能不会给用户到来好的体验,但是仅仅收录我网站中毫无相关的标签页就可以给用户到来良好的体验了吗?
    再说句不好听的,我每次有什么疑问如果咨询Google的相关负责人时,给我的回复往往能让我很满意,希望贵处负责人可以就收录这一问题给我一个比较好的答复。

现在邮件已经发出去6天了,百度方面并没有给我任何回复,而是通过实际行动证明了他们秉承的“用户体验至上”。事实证明,我的博客并没有违规现象而受到百度的“惩罚”,很有可能是百度爬虫在抓取我的博客时遇到了出乎意料的“障碍”。我对博客进行了重构后,肯定符合W3C标准,应该不会是代码书写错误的原因。

希望和我一样受到百度“惩罚”的站长们摆正心态:让搜索引擎来适应你!

谷歌推出搜索服务器虚拟版

谷歌黑板报得知,谷歌将推出了一个名为谷歌搜索服务器(Google Search Appliance,以下简称GSA)的软件。这是一个非常值得搜索引擎爱好者期待的软件,你可以通过GSA在你的计算机上搭建一个属于自己的搜索引擎,用来模拟抓取和索引自己的网站、博客、数据库和网站文件夹,更重要的是这个软件是由全球最大的搜索引擎巨头谷歌发布的。

这对搜索引擎爱好者来说真的是一个福音,可以用GSA来对网站进行各种各样的模拟测试,并且这些测试数据要比其他网站上提供的“模拟抓取”更有效果,更有说服力!

我现在正在下载了,我想GSA将会对我们这些搜索爱好者起到很大的帮助。

更多详情:http://googlechinablog.com/2008/11/blog-post_11.html