删除网页快照的方法

近来有很多网友加我QQ,向我询问如何删除网页快照,大多数是谷歌中的快照。

昨天在CCTV 2看到一篇关于删除网页快照的报道,还有专门这样的网络公关公司,真是惊叹他们的赚钱方式。

因为他们都反映,在百度删除一个快照只需要发封邮件就可以马上删除了,而谷歌却找不到删除的办法。其实谷歌有一套非常完善的网页快照删除方案,而且也非常容易操作,最重要的是这种删除方法非常公平,不会被竞争对手所利用(赞一下谷歌)。

在谷歌中删除网页快照的方法,主要用到的工具叫做“网页删除请求工具”,可以通过这个工具删除3种情况的网页快照和索引:

这里我重点讲一下如何删除“显示在 Google 搜索结果中的信息或图片”,我想这种情况也是大多数网友所关注的。这种情况又分3种详细的解决方案:

  1. 已经修改或删除该页内容,不再包含与我有关的信息或图片。
  2. 网站所有者已经通过修改robots.txt或元标记拦截此网页,以使其不会被编入索引中。
  3. 无法与网站所有者取得联系,但搜索结果中的信息属于下列其中一种:
    * 我的社保号或身份证号
    * 我的银行帐户或信用卡卡号
    * 我的手写签名图
    * 我的全名或我公司的名称出现在了包含成人内容的网站上,该网站在滥用 Google 的搜索结果。

上面提到的1条是最常用到的。很多网友在其他网站发布过自己的QQ号码、邮箱地址、真实姓名等个人信息,但后来不想让搜索引擎抓录和收取,这时就要用到第一种删除网页快照的方法了。这个方法必须要使被删除的网页符合以下要求中的任意一项:

  • 网页已经删除。
  • 网页已经修改并且不包括所搜索的关键字。

要达到以上的要求,网友们自己可以通过会员管理通道可以进行删除或者修改,也可以联系网站管理员协助来删除或者修改,但最后的目的是要达到上面的要求中的任何一项,达到上面的要求后,便可以通过 网页删除请求工具 来提交删除请求了,这个过程一般需要2、3天的时间。

基本网友是遇到第一种情况 ,后面的几点情况我就不说了,其实在这些文档官方都有非常详细的说明,但可能很少网友去查看,所以在这里发表出来,希望可以帮助需要帮助的网友们。更多更加详细的信息,可以通过访问 网页删除请求工具 来了解。

谷歌现在已经对“网页删除请求工具”做了更新,使用度可以更加方便的使用此工具提交删除请求,你只需要访问“网页删除请求工具”页面“提交新的删除请求”即可。另百度的快照删除除了拨打电话外还可以通过“网页投诉中心”进行删除请求。

百泉科技并非“山西百度分公司”

这段时间总是会听到朋友说起“山西百度”,也有人说他们公司的网站是百度做的。让我很费解,百度什么时候在山西有网站建设的业务了,百度在山西有分公司吗?

原来,朋友提到的“山西百度”,是指一家名为“太原市百泉科技有限公司”的公司,而这个公司主要业务是网站制作和网站推广(百度推广)。百泉和百度真正的关系是:百泉科技是百度竞价排名“推广服务”的山西代理商。我在百度的“推广服务”了解到,申请“推广服务代理商”需要交付最低1000元(无上限)的“推广费”以及600元的“专业服务费”。

只要是依照中华人民共和国法律设立的合法经营主体,已取得经营相关业务的合法资质的公司就可以通过百度网站上的“网上申请”功能申请“推广服务”的代理商

现在明白了吧,百泉科技只是百度“推广服务”的山西代理销售商,并非山西百度,也不是太原百度。但其可以大言不惭的在其网站上书写“百度山西分公司,百度太原分公司”等字样,且在朋友嘴里我听到最多的也是“山西百度”,提起“山西百泉”却显的很陌生,看来这里存在误导消费者。

CCTV谴责谷歌 目的何在?

2009年6月18日,央视分别在“新闻联播”和“焦点访谈”两个栏目中谴责谷歌中国大量传播淫秽色情和低俗信息,谷歌中国可谓是“出尽风头”。今天已经21号了,“谷歌涉黄风波”已经过去3天时间了,其实我在第一时间就想说一下我的看法,后因种种原因未能发表这个日志。但现在我不得不说,CCTV为何此次专门针对“谷歌中国”呢?虽然央视在19日回应曝光“谷歌涉黄”是出于正常的舆论监督,但是网上的对央视的各种猜测却不断升温。

2008年11月15日、16日CCTV曾对百度竞价排名进行过两次曝光,此次曝光并没有引起网友们的猜测。在09年央视的春节晚会上,百度赞助央视高达4000万元,百度被央视和谐了。

现在我来具体谈谈我对“谷歌涉黄”的个人看法。据猫扑网友曝光,“焦点访谈”中有位被采访的一位名为高也的大学生其实是中央电视台记者二组的在校实习生,肉友通过人肉搜索发现在其校内网中写了一篇标题为《你好,北京。再见,武汉》的网络日志,其中明确告知自己将去中央电视台进行为期3个月的实习。

这个名为高也的大学生,在采访中他这样说道:

我觉得这个黄色啊什么淫秽信息在网上那个毒害特别大,特别是经过一些像Google这样的链接,那种毒害特别大。就是我一个同学,他以前,就比较好奇这些东西,他就去点击黄色网站,搞得那段时间心神不宁。后来国家打击淫秽黄色网站,他就没上,那段时间好了。

结果后来他又发现,通过Google这些用户比较多的搜索引擎可以打开这些网址。然后又进入了这些黄色网站,链接特别多,导致又反复了。

以下是一位网友的恶搞:

我觉得这个淫秽书刊毒害特别大。就是我一个同学,他以前,就比较好奇这些东西,他就自己买淫秽书刊来看,搞得那段时间心神不宁。后来国家打击淫秽书刊,他就没再看,那段时间好了。

结果后来他又发现,通过新华字典这样比较权威的工具书可以找到这些淫秽的字词。然后就把这些字拼起来阅读,后来导致他又反复了。

呵呵,很牵强的说词。难道百度在中国的用户不多吗?百度中同样可以打开内容低俗的网站,在百度中输入“92”这个关键词,便出来一大堆色情网站,其中内容低俗不堪,以下是搜索截图(链接到的网站中的内容就不截了,太不堪入目了!):

很明显CCTV此次曝光”谷歌涉黄“动机不良,为何不曝光百度和其他搜索引擎或者网站呢?央视究竟出于什么目的,我们不得而知,但此次曝光”谷歌涉黄“确实引起不少网民的不满和对央视的各种猜测。

央视的话已经不能再信了,作为中国最有影响力的电视媒体,他确实应该自我检讨一下,为什么会遭网民频频的不满和猜测?顺便说一下,央视19日在”面对面“栏目中报道关于”神医“李培刚的节目已经删除

搜索引擎观察之Google与百度的搜索结果排序

    在“百度”和“Google”中输入同样的关键词进行搜索,得到的结果大都不同。产生这种情况的原因是因为百度和Google的排名算法不同,那到底哪个排序结果对用户体验有益呢?我们来看一个例子。

    先在百度中搜索“山西”这个关键词,搜索结果中排在第一位并且配有图片的很醒目的地方的网站是“黄河新闻网”(由山西省政府新闻办主办,省委宣传部主管),这个结果是百度推出的一项名为“品牌链接”的服务中做了推广的网站。在下面在“自然搜索结果页”中,排在第一位的是“山西 百度百科”,而山西省人民政府门户网站(由山西省人民政府主办)却排在了之后,网站描述则也不索引DMOZ的数据。Google的搜索结果中,没有任何标有“赞助商”的链接存在,排在第一位的是“山西省人民政府门户网站”,网站描述也索引了DMOZ的数据,“山西 百度百科”则随其后。这样一个比较就很容易看出哪个更利于用户体验。

    现在我在百度中搜索“site:zhangqian.me”,来看一下站内链接的排序。排在第一位的是网站首页,网站描述是按网页中的内容顺序抓取的,并没有抓取description中的描述,可以认为百度忽略了meta标签。接下来的排序我就找不出规律了,不过可以肯定不是按照网页对用户体验的价值来排序的,也有可能是随机排序,就和买彩票一样,哪个幸运就被排在了前面。

    在Google中搜索“site:zhangqian.me”,Google对站内链接的排序就很不错,按照网页的重要程度来进行排序的,网站描述也索引了DMOZ中的数据,或者抓取了meta标签中的内容。无论是链接排序还是网站描述,对用户体验都很不错。

    Google搜索中还有一个非常不错的功能,可以提醒正在使用Google进行搜索的用户哪些是被挂马的网页,点击链接也不会打开,只有在复制链接地址在地址栏输入才可以访问这个有木马的网页。

    我刚接触互联网的时候是使用百度搜索来查找自己想要的资料的,后来使用了Google后感觉更加人性化,搜索出来的结果无论是排序还是内容都很让我满意。当然百度的其他一些服务也很不错,“百度知道”就是一个很不错的服务,在上面可以找到一些自己想要的答案。

CCAV为什么要这样做?

首先申明,我并不是替谷歌打抱不平。我是对CCAV的报道感到困惑,一个媒体界的老大,怎么能这样报道呢?

CCAV前不久曝光了百度虚假医院广告,后又于12月11日《朝闻天下》栏目播出了“搜索引擎赞助商链接虚假售药信息”的节目,在其中很明显就在指的Google

以面是关于此报道的视频:

其中,记者所说“打开一家搜索引擎的网站”正是指Google,并在谷歌的搜索框中输入“糖尿病”三个字,然后镜头慢慢放大,最后定格在了搜索引擎的右侧。在上面视频的33秒时,大家注意看,IE地址栏显示的网址是却是“搜狗(www.sogou.com)”的。我随后便到“搜狗”的网站中输入“糖尿病”三个字进行搜索。确实,在“搜狗”的搜索结果右侧,与上面视频中的画面完全一样。

糖尿病
图为搜狗的搜索结果

不排除谷歌的赞助商链接中有虚假售药广告的可能(现在在谷歌关于医药的搜索结果中已经没有赞助商链接了),但是央视的这种做法实在让人搞不明白。

百度之前为何不收录我的博客

今天发现百度已经“恢复”了对博客的收录。为什么是“恢复”呢?其实在我的博客建立之初,就出现百度收录不正常的现象:百度只收录了博客的标签页(如:http://zhangqian.me/Search.Asp?Part=Tag&TagName=百度),而博客的其它任何页面都没有收录。最初我本想通过邮件的方式向百度方面寻问,不过由于我不想表现的太过于关注搜索引擎,所以起初打消了查找收录不正常的原因。

不过后来随着CCTV对百度的曝光和“互联网‘违法和不良信息举报中心’”对百度的谴责,我又开始关注百度对博客收录的不正常现象,所以我首次通过邮件的方式向百度相关负责人进行了询问。大概过了2天的时间,百度方面回复了我的询问,在邮件中只是泛泛的说了一大堆,最后以“由于其他技术原因”回答了我所提出的疑问。

我后来就一直在想,如果我的博客存在“违规现象”而受到百度“惩罚”的话,那么为什么百度只收录标签页呢?百度一直秉承“用户体验至上”的理念,可是任何人都不会认为标签页会比内容页更有价值?我坚定自己的博客没有任何“违规现象”,很有可能是百度的搜索技术遇到了一些问题。

我相信百度会秉承“用户体验至上”的理念,所以我第二次通过邮件的方式中对百度相关负责人进行了询问,这一次我在邮件中就把话说的很明白,以下是邮件原文:

    尊敬的贵站相关负责人,我之前曾通过邮件的行式咨询过为什么我的网站仅被收录了一些无关紧要的标签页,而直正对“用户体验”的内容却一个也没有。当时贵处相关负责人回复了一封邮件,其中泛泛的说“其它原因”便把我的提问给回答了。
    我一直想不明白,百度一直说是“以用户体验为中心”。虽然我的网站可能不会给用户到来好的体验,但是仅仅收录我网站中毫无相关的标签页就可以给用户到来良好的体验了吗?
    再说句不好听的,我每次有什么疑问如果咨询Google的相关负责人时,给我的回复往往能让我很满意,希望贵处负责人可以就收录这一问题给我一个比较好的答复。

现在邮件已经发出去6天了,百度方面并没有给我任何回复,而是通过实际行动证明了他们秉承的“用户体验至上”。事实证明,我的博客并没有违规现象而受到百度的“惩罚”,很有可能是百度爬虫在抓取我的博客时遇到了出乎意料的“障碍”。我对博客进行了重构后,肯定符合W3C标准,应该不会是代码书写错误的原因。

希望和我一样受到百度“惩罚”的站长们摆正心态:让搜索引擎来适应你!

百度,不要太过于追求眼前利益

前几天,CCTV《新闻30分》连续两次曝光了百度搜索的积弊。一个是新闻媒体界的巨头,一个是中国搜索引擎的霸主,不得不承认CCTV的影响力。其实对百度搜索引擎竞价排名的模式在很早以前就有人质疑过,只不过这次是CCTV,而且还是连续两次进行曝光。这对百度的打击是相当大的。

在2年前,是CCTV让更多的人知道了百度“百度一下,你就知道”,然而现在CCTV也可以让更多的人“讨厌”百度。百度还是无法与CCTV抗衡,在随后百度紧接着就发布了“致歉信”,在信中这样写道:“在百度八年的成长过程中,为了与Google这样全球领先的技术公司进行竞争,百度过多的关注了技术和研发,而对销售运营缺乏严格的管理和系统的投入。”这更引来无数人的唾骂,百度有何技术改进?无非是比以前多了一些服务。面对社会带来的压力,百度不得不妥协,将被CCTV曝光的竞价排名关键字紧急下架,这是百度唯一的选择,没有其他路可走。

随后谷歌黑板报便发布了一篇名为《中文搜索:公正性是实现准确性的根本—中国搜索行业应当立即行动起来、正视搜索公正性》的文章,其矛头便直指百度。在百度,99.9%的利润来源于竞价排名,如果要改变竞价排名服务的模式(不允许在自然搜索结果页上显示任何广告),百度的营利状况便会出现问题。如果继续这样,对以后长远发展必然后造成很大的影响。

“失站长心,何以搜天下”

搜索引擎观察之百度中的网站描述

从08年11月开始,这种现象在百度中已经不存在了——抓取到的“description”信息如果不超过一定的字数,后面不会有省略号。

对同一个关键字进行搜索,百度和谷哥的结果是不同的,但是搜索结果的显示形式却是大同小异。在搜索结果中显示与要查找的关键词相匹配的网站链条,包括网站标题、网站描述、网站地址和一些相关的辅助信息(如抓取时间)。

做网站的朋友大部分都知道,你可以为你的网页添加一段代码,来让搜索引擎更符合的对你网站进行描述。

这样搜索引擎就会根据你自己的这段描述显示在搜索结果中了(有时候不显示),这种做法也是SEO中最基本的知识。

但你要是在网页中加入了针对的描述,搜索引擎也未必买帐,但大多数情况下是会按照设好的描述显示。

如果你的网站在百度和谷歌搜索结果的描述中都显示了,你仍会发现百度和谷歌的显示略有不同:百度搜索出来的结会在原本的描述中加入“…”,而在谷歌则没有,但并非所有百度搜索中都有“…”,而且根据我的观察,像新浪、搜狐、部分政府网站和一些影响力的网站在百度的搜索结果的描述中都没有“…”。这不同点让我困惑了很长时间,我曾经在百度知道中悬赏200积分向广大网民请教过这个问题,但没有人能答上来,最后我便以为这个描述是在你的网站有一定的影响力之后百度人为干预的,证明百度已经认可了你的网站。其实并不是这样。

今天对这个困惑有了一个非常肯定的答案:原来百度中没有“…”的描述是索引Dmoz的描述数据,Alexa中也是这样,可见Dmoz(dmoz.org)的重要。

就这么一个问题,让我曾经百思不得其解,曾在多个站长群内提到过这个细节,各大站长都没有说出个所以然来。可能大家没有去想或者没有去注意(我就爱钻牛角间)。最终,我曾经想不通的谜团今天终于有了一个答案,拿出来与像我曾经一样迷惑的朋友分享一下!