航通社首发原创文章,未经授权禁止转载
微博:@航通社 | 微信搜一搜:航通社
2020年 第23期
文 / 书航 2020.7.15
百度官方微博 @百度 最近有点忙。
6 月 10 日,针对哈佛大学医学院一篇预印本论文,百度官微辟谣:“这是非常牵强和不严谨的……我们呼吁相关研究需要更加科学严谨的引用百度数据。”
7 月 1 日,百度再就“鹅厂 vs 老干妈”事件辟谣:“有一说一,这事与我无关。请大家不传谣不信谣,理性吃瓜。”
虽然没人明说“某搜索引擎”是哪家,但大家都心照不宣“对号入座”。这说明百度依然是国内通用搜索引擎的“同义词”。
2019 年 1 月底,针对百家号在百度搜索排名靠前的问题,方可成老师写了那篇《搜索引擎百度已死》。同时,也有不少人觉得通用搜索引擎日益让位于淘宝、微博、微信、知乎、头条等各自的站内搜索。
时至今日,通用搜索业务在国内又重新得到了多家巨头的重视,但此时的搜索行业已经回不到从前。同时,作为搜索引擎的百度并没有衰落,而是体现出触底回升的迹象。
除已经在市场上的必应、搜狗、360、神马等之外,近期头条搜索、微信搜一搜和内嵌于夸克浏览器内的夸克搜索,也加入了通用搜索引擎的市场争夺。
2020 年腾讯产品经理培训生校招面试题有一道是:
关于微信搜一搜,航通社曾经写过《搜一搜毕业了》详细解读。至于夸克则是在近期异军突起,声量很高,收获了不少自媒体的宣传,B 站财经类“头牌”半佛仙人也发了关于夸克的推广视频。
而百度 App 的摄像头搜索同样提供动物识别、植物识别、名人识别、商品找同款、测颜值、拍照搜题、情侣头像配对、文字提取、垃圾分类等能力。
但是,现在吸引大家入场的通用搜索引擎行业,本身也已经发生了变化,跟以往的“古典”搜索引擎有很大区别。
百度被称为自家产品的“站内搜索引擎”,而谷歌遇到同类抱怨比百度还要早。早在 2011 年,谷歌在餐厅、商户搜索功能中将自家的商户名录功能置于 Yelp、Tripadvisor(猫途鹰) 等竞争对手之前,就引发了媒体关注。
欧盟在 2017 年发现谷歌通过搜索服务的主导地位,引导用户使用自己的购物搜索服务,并作出 27 亿美元罚款的处罚。
调查报告指出,在谷歌滥用搜索主导地位推荐谷歌购物搜索后,谷歌比价服务的流量在英国、德国、荷兰、法国、西班牙、意大利等国分别增加了 45 倍、35 倍、29 倍、19 倍、17 倍、14 倍。
另一方面,竞争对手比较购物服务的流量大幅下降,一家同类网站的流量在德国、英国、法国分别下降了 85%、92%、80%。这些突然下降也无法用其他因素来解释。
搜索分析师费什金(Rand Fishkin)2019 年的研究显示,现在超过一半的谷歌搜索行为,最终在谷歌本地就能解决,无需再点击其他网站链接。
“用完即走”这个词,现在连张小龙也都不怎么提起了。
各方都越来越重视对内容平台的控制,这通过交叉入股优质内容平台,和自建内容库来实现。百度对知乎等内容源做的投资,头条发力悟空问答,各家对视频内容的投入,都已经是老黄历了。
来看两个新的:
(1)字节宣布启动头条搜索之后,完成了对互动百科的收购与整合,将其更名为“头条百科”。5 月起,头条百科持续招聘编辑、运营等职位,要求“了解内容结构化、有一定数据导向的运营思维”等。
(2)7 月初,百度发布“百度知道问答掘金招募令”,有优质问答写作能力,在百家号有认证的作者,可以通过答题获得现金奖励。
虽然对知乎的投资,让百度可以在搜索结果中引用更多知乎问答及智能小程序,但百度知道和知乎的产品定位其实有一定差异,有必要同时提升知道的内容品质。
通过搜索引擎或者做搜索,各家还进一步加大了对手机 App 的推广力度,用尽方法把人留在自己的生态内部。
现在的百度 App 实际上是一个顶着搜索名义的全功能网页浏览器,也提供广告屏蔽等实用功能。对普通用户而言,用 App 的另一理由则是百度搜索结果页和百家号文章都不会被折叠。
2019 年春晚期间,作为合作伙伴的百度,在手机浏览器网页版推送大幅提示“这里不是百度 App”,引导用户从手机网页版迁移到百度 App。近来,这一提示措施变成了“常态化”。
效果立竿见影:财报数据显示,3 月份百度 App 日活跃用户数达到 2.22 亿,同比增长 28%;App 端内搜索量同比增长 45%,信息流用户时长同比增长 51%。
在了解了上面这些基础之后,让我们来谈谈百家号。提示一下,这一部分将会非常的“反直觉”,直接挑战你的刻板印象。
对百家号形式与内容的声讨,与对 Facebook 的批评类似。Facebook 通过让内容提供商,如传统媒体在自家发布摘要或全文内容,而减少了用户跳出前往官网。
Facebook 以广告收入分成作为回报,但当媒体发现回报并不如意时,就会撤回向特定平台的分发,极端的就像欧盟,会要求平台给媒体支付保本的版权费用。
回顾《搜索引擎百度已死》一文发布之后不久,百度回应称在搜索结果中,百家号内容全站占比小于 10%。不过方老师对此不以为然,他认为重点是这些百家号结果排序特别靠前,在搜索结果首页占比很高。如果避谈这一点只说“全站占比小于10%”,缺少说服力。
OK,我们就以首屏全是百家号作为前提。
现在,至少在国内,没有任何一家大型的搜索引擎,愿意将结果页首屏的黄金位置拱手让人,全都牢牢把控在自家生态链之内。
2019 年 12 月,百家号加 V 认证向所有自媒体作者开放,原本拥有微信公众号、头条号、知乎等账号的作者可以申请认证。此前各大中央、地方媒体,中央部委、重点政府机构等都已经悉数入驻。
人们认为官方微博和微信的结果是“正常”结果,但实际上都是“一处水源供全球”统一分发的,有时候官网更新速度还慢过社交网络。现在很多媒体事实上已经半放弃了自家官网的更新。
百度真的要搜原文,难道要引导到隔壁腾讯或新浪的地盘?
微信搜一搜会搜到加 V 认证的官微文章,微博搜索会搜到蓝 V 认证的微博,头条搜索会搜到加 V 的头条号或微头条,大家都是在站内圈地自萌,凭什么百度就一定要放弃定位到自己的百家号?
所以,假如真的要对百家号在“百度站内搜索”中的表现做批评,可能也应该从它为用户带来的实际搜索体验好坏入手,才更为实际——而不是仅仅硬性要求将站外内容放前面,这只会引发更多像百度投资知乎一样,对站外内容的投入和控制。
那么,说到百家号是提升了,还是降低了搜索体验,接下来的实验将会比上面更“反直觉”。
我们采用百度的“资讯”搜索(原新闻搜索),搜一个最近火热的关键字:“洪水”。
百度现在采用将“媒体网站”与“百家号”分开的方式,假如选择“媒体网站”会在百度通过收录的白名单媒体网站列表内提供结果,绝对不会出现百家号链接;反之亦然。
采用“媒体网站”过滤器搜索“洪水”的结果如下:
可以看到,结果令人惊讶:第一屏只有一个来自湖北电视台的文章,属于该网站原创。
其余的,虽然搜索引擎都尽职尽责地根据网址判断来源,以当前的技术水平,却难以分辨那些地方具体是原创的,还是转载的。
比如说“腾讯新闻”这个稿源,实际上是包含大量非专业作者的企鹅号,文章质量也是令人摇头。自从腾讯网改版后,全网内容不分频道及来源,一律以 new.qq.com/omn 开头,使得原先的抓取逻辑失效。
那么,用谷歌会好一点吗?
以下是用谷歌新闻搜索查询“洪水”的简体中文结果:
更气人的是甚至有所谓“二传手”:例如有一条是先由人民日报下属“人民视频”发布,被微博“大江网”(江西官方媒体)抹去来源转载,而这条微博被新浪网抓取下来作为一条新闻,又被谷歌收录。
另一条是搜狐转载了澎湃新闻转载湖北官媒《长江日报》的稿子,最后被谷歌抓取到。
所以,寻找国内相关新闻最靠谱的方式……就变成了只搜索“百家号”:
——怎么会这样呢?!
在作者入驻提升的情况下,百家号结果反而比非百家号结果更为精准。因为媒体官网也是来回转载的,澎湃新闻的“澎湃号”和界面的“JMedia”都是自由让媒体网站、自媒体作者签约入驻的,而新京报也悄悄展开了新京号的内部申请。
正是这些外部账号的入住,导致非原创文章仅凭网址判断稿源,会发生误判。这是一个世界性难题。
方可成老师制作的 西方媒体查一查 小程序和 NewsGuard 等服务,都是最基本的用网址判断媒体属性,但对于在媒体网站转载别处文章无能为力。好在国外很多新闻网站是全原创或大多数原创,但在国内……
我们只能说,就像头条、企鹅、百家等已经做过的一样,如果邀请媒体、个人入驻平台是跟现金、流量等创作激励相结合的话,这应该有助于优质内容的生成,而不是相反。
出现低质百家号内容靠前的问题,本质上和古早的内容农场 SEO、微信平台屡次封杀的“恶意对抗平台规则”一样,需要检讨的是平台的治理能力和技术水平,而不是一关了之。
今年高考首日,北大微信推送了一条励志的诗句“须知少时凌云志,曾许人间第一流”,引发争议。
不少人通过搜索发现,疑似后两句是“哪晓岁月蹉跎过,依然名利两无收”,让整个句子的意境完全相反。北大后来也删除了该条推送。
不过知乎用户“渡河”发动好友,在“中华经典古籍库”里钱仲联主编的《清诗纪事》找到了真正的原文全诗,并无网传的后两句。换句话说,那两句补上去的应属后人伪作。
社长看到相关新闻之后,也第一时间,用自己知道的手段做了事实核查,遗憾的是并没有得出结果。不管用百度、谷歌、DuckDuckGo 还是其他任何搜索引擎,永远是传来传去的“伪作”充斥整个结果页面。
社长已经能想到查询该作者名下的所有诗作,为此通过公开资料,发现作者吴庆坻有《悔余生诗集》,被收录在上海古籍出版社《清代诗文集汇编》第 770 册里,更可以在百度网盘找到原书的副本。
《悔余生诗五卷》一共六十四页,而每一页大概是长这样的,看得人眼花缭乱,特别是对本专业并非汉语言文学的社长更是如读天书。
社长后来想到一个窍门,就是数每一页是否有出现“一”字,这样就可以迅速定位到“第一流”去。结果,花了大半个小时翻完了,社长都没发现“曾许人间第一流”的诗句。
最后,当社长看到正确答案还是在花了钱的数据库找到的,觉得也算是尽力了。社长的检索过程已经是一个普通网民借助手头工具,可以做到的事实核查的极限。
你可以想象,普通网民搜索内容时候,看到最上面的结果直接就采信了,这才是最可能发生的情况。
其实,北大引用的是网络流传的“须知少时凌云志”,而原诗是“须知少日拏(ná)云志”,由此也可以推论出他们也是随意搜索一下了事,没注意到搜索结果包含“后两句”。果真如此,那它收获这一波嘲讽也就没什么冤枉的了。
“渡河”提到,“曾许人间第一流”的考据结果,最后使用了不对外开放的付费数据库才得以实现。而原始版本的诗比较冷门,从来没在互联网上流行过,“以至于现在的人哪怕想知道原文全诗是什么,找遍互联网也只能找到一堆错误答案互相印证,真相却在背后埋没。”
优质的搜索结果,应该以优质的内容供给作为基础。谷歌因为引用了一些国内不容易访问到的资源,所以有机会改进整体结果质量,其中贡献最大的当属引用维基百科的词条。
人人都知道谷歌爱维基百科,但没人知道爱得有多深。2012 年一项研究显示,在当时的谷歌搜索 1000 个随机关键字,99% 的情况下,维基百科条目都会出现在结果第一页。
谷歌因历史原因,仍保留首页搜索框的“手气不错”按钮,等同于搜索结果第一页的第一条。而毫不意外,绝大多数情况下,第一条结果也都来自维基百科。2016 年开始,谷歌与维基媒体基金会合作,改善了在搜索结果页展示维基百科词条的视图效果。
2018 年,谷歌曾在“加州共和党”搜索结果页,展示其“意识形态”一栏为“纳粹”,但这是一个源自维基百科的错误,当时那个词条被恶意修改了。
这个例子表明,我们从谷歌得到的结果好坏,不完全由谷歌的算法、广告逻辑等决定,最根本的,还是它引用了质量稍微高一些的内容。
很多用户实际使用中体会到的“谷歌比百度更好用”,可能是一系列因素共同作用下的实际感受。一般而言,同一关键字以英文搜索,相比用中文更能找到切题的解答,比如关于编程的问题,老司机们都会推荐 Stack Overflow 而不是博客园或 CSDN。
在搜索的时候,如果能顺畅阅读境外或者外语内容,用户会觉得是理所当然的,而不会特别多加关注。有些批评百度搜索及其用户的知乎回答,甚至从自己会英文搜索当中品出了一种优越感,十分脱离群众。
我们应该也都能体会到,中文(特别是中国境内)互联网信息来源的质量本来就很差,充斥着大量低质、重复、垃圾的内容,而再好的算法,再“良心”的搜索引擎,也只能在这些结果当中挑选,所谓“巧妇难为无米之炊”。
被放在聚光灯下的 Bad Case
2018 年 6 月,有媒体报道通过搜索引擎,可以找到一些“相约自杀”的 QQ 群、微信群等,成为有些年轻人自杀的诱因。其中提到,用百度搜索“自杀群”关键字,不仅能找到群号码,还能通过联想词功能引导到更多相关内容。
航通社当时写了一篇《如何用搜索引擎“相约自杀”》,探讨这些用户需求没有被满足、体验不好的情况是如何发生,又怎么被放大成为热点话题的。这种情况被称为“坏例”(Bad Case)。
社长提到,搜索联想词和相关搜索一旦出现 Bad Case,有百度员工看到就会向内网报告,从而及时修复和清理不当结果。
而发现这些 Bad Case 的过程,则是亿万网民在使用过程中充当“义务测试员”,毕竟这些真人的无穷尽的使用场景排列组合,其细致程度是怎样的企业内部测试都难以企及的。
所以,一直被盯着的搜索引擎,出现不恰当的搜索结果,就会被媒体愤怒地质问:为什么像我们记者这样的普通用户,都能一眼就发现的东西,你们有那么高明的技术手段,却迟迟不能发现?
在国外,谷歌搜索中出现不当结果的情况也一样频繁见诸报端。就像 @百度 官方微博一样,谷歌在 Twitter 上也有一个账号 @searchliaison,专门用来汇总用户反馈的 Bad Case 以及道歉。
《如何用搜索引擎“相约自杀”》时提到,在知乎有关于百度的“经典问题”,如“百度作了哪些恶?”、“为什么有人说百度以一己之力全面降低了中国互联网体验?”等。此后同类问题逐步越来越多。
这些问题下反应的 Bad Case 出现于不同时期,有些现在再看无法重现,另一些则很快得到了纠正。即便如此,成千上万个回答依然积累下来,也包含下面的点赞、评论等数据。在人们了解百度搜索的风评时,很少有人会逐一检验这些过去的问题是否现在还有。
甚至可以说,更多 Bad Case 的爆出是与搜索引擎使用的频率成正相关的。使用搜狗、360、神马、必应等其他搜索出现 Bad Case,一般也不会引发网民像对百度一样那么兴致勃勃的讨论。
以前苹果 Mac 在国内普及程度较低,当时 Windows 被舆论塑造成一款不安全的系统,而苹果 macOS 甚至被称为“不会中毒”。当然,这并不符合实际。这是跟两款系统的市场占有率,以及用户的使用习惯等因素密切相关的。
搜索市场也是如此,当其他产品的低体验逐渐增多以后,用户也会慢慢改变印象。
本文中,社长已经多次把谷歌搜索跟百度进行了并排比较。其实如果继续比较下去,还可以发现更多有趣的情况:
(1)百度的搜索广告链接只提供了很淡化的标记,不仔细看根本分不出来。
谷歌搜索将广告结果与常规搜索结果混合的程度,比一般人想象的还要过分。这是过去十多年谷歌“赞助商链接”的展示效果变迁史:
百度 2019 年初取消了搜索结果中域名的显示,改为网站小图标(favicon) + 网站名的组合。同年 10 月,谷歌搜索同样取消了搜索结果的网站 URL 展示,一群用户批评这是“反人类”的改动。
(2)百度搜索历史上经常出现错将虚假的网站放置于官网上方的情况,如“上海美国领事馆”、“早稻田大学”、“特斯拉”等关键词,在不同时间及不同场合,都曾被发现指向错误的结果。在被发现后,这些错误都被修复。
2019 年 6 月,山西省招生考试管理中心提醒考生在网上填报志愿时,“不要使用搜索引擎来搜索网上填报志愿系统网页”。今年高考百度加强了对高考相关关键字,如志愿填报、高校官网等的首条结果保护,避免此类公益性、公共性搜索给出错误答案。
2016 年,BBC 记者发现,出于利润考虑,谷歌会把付费广告排在搜索结果前面,比如出现一个小框显示电话号码和链接。而真正的搜索结果,你还要往网页下面看才会有。
英国一家渔具公司业主基茨诺尔(Kitchener)对 BBC 说,谷歌频繁修改搜索算法令他们公司的搜索排名大起大落,从而极大地影响了收入。
他说这种影响很可怕,“就像你生意中还存在一个陌生人,他们随意提出要求,并且瞬间改变规则。那感觉就像坐过山车一样。”
他还说,他们从谷歌得不到任何帮助。他说谷歌只有在两种情况下搭理你:一是你给他们付费;二是你停止给他们付费。
2018 年美国中期选举期间,有人发现谷歌将共和党赞助的投票地址,放在官方提供的投票信息框的上面。
2020 年 6 月 StatCounter 数据显示,百度当月在国内全平台搜索引擎市场份额为 66.15%;其后是搜狗 22.06%,360 搜索 3.4%,谷歌 3.16%,神马 2.51%。
具体到移动端,百度 84.97%,搜狗 8.16%,神马 4.41%,360 搜索 1.37%,必应 0.54%。
至于桌面端,百度和搜狗的份额在过去一年处于交替领先的局面。6 月份,搜狗以 40.99% 略高于百度的 40.53%,之前在 2020 年 1 月曾经到过历史高位的 53.79%,同月百度是 34.76%。
桌面端数据的波动明显更大,而且桌面浏览器的监测精度比不上移动端,所以也不排除是数据源问题导致。这也体现出百度流量向移动端的转移收效不错。
《搜索引擎百度已死》发出后,部分网民觉得“用户也会去衡量是否继续使用百度,其他搜索行业也会择机而上”,这一情况并没有发生。
根本原因在于,现在的其他商业搜索引擎,最后都做成了跟百度差不太多的样子,谈不上有什么差异化的竞争。
有些特别小众的产品如萌搜、DogeDoge、Magi 等规模太小,本身也不够稳定;而唯一有那么点可能走向规模化的 DuckDuckGo,国内还是访问不了。
说实话 Duck 在国外也不至于到“颠覆谷歌”的地步,因为谷歌交了巨额“保护费”确保它成为苹果 iOS Safari 的默认搜索引擎。单单在英国,去年谷歌就交了十几亿美元。
这几年,百度搜索引擎的公众形象一直在承受很大的压力。这种压力甚至进一步传导到股价上,让百度股票的表现进入了“历史性低谷”,有投资机构认为百度被低估了 49%。
自 5 月百度公布 2020 Q1 财报之后,优于市场预期的财报数据终于引发了百度股价的上涨。近日,标普全球市场情报部数据显示,百度(NASDAQ:BIDU)6 月份股价上涨 12.5%。主要原因在于:
在活跃度与市场份额增加的情况下,一季度百度核心业务搜索广告营收同比下降。财报认为,主要原因是疫情期间企业购买商业线索的需求下降。不过,腾讯同期的网络广告业务营收同比增长了 32%。
对以上数据的解读,业界是存在差异的。
瑞穗 James Lee 就持有此类观点。他的研究表明,百度的内部改善使其在过去一年里获得了市场份额,随之而来的广告收入恢复增长,将在 2020 年下半年逐渐显现。
Motley Fool 总结说,百度股价尚未超越疫情前的历史高位,它不同于几家中国互联网主要对手,是中概股当中价格相对便宜的一只。
然而百度同时拥有健康的资产负债表,在计划中的一轮股票回购,以及对人工智能和云服务等新技术的持续投资。所以对价值投资者来说,百度可以在广告收入回升,及剥离爱奇艺亏损的情况下具备很高的吸引力。
对市场调节机制,一个比较通俗的理解就是“用脚投票”,顾客对品质不好的产品和服务敬而远之。如果这种调节机制在某个市场看上去是“失灵”的,那只有两种可能:
“用脚投票”的市场调节机制看似在国内搜索市场“失灵”了,但其实不然。一方面,百度的搜索品质并没有舆论认为的那么差;另一方面,其他竞争对手其实没有比百度更出色,或者不能做得更好。
具体来看:
互联网已经不是当年的那个讲究开放包容的互联网,中、美、印都在大搞“互联网主权”。搜索引擎也不是当年那个爬遍全网的搜索引擎,它没有那个能力,也没有那个意愿了。
那么,搜索引擎的未来将向何处去呢?
由于“围墙花园”的事实存在,导致全网结果被分割,所以从追求结果的大而全,过渡到直接给出一个确定的答案,乃至辅助人们做出决策,也是搜索引擎必然的进化路线。
“决策引擎”这一概念最先由必应提出,谷歌、夸克等都标榜会提供直接的决策,替代在搜索结果中选择。同样,“决策引擎”有助于将现有的搜索迁移到语音助手等其它交互方式上。
如果我们查找的方法还是引导到不同的 URL,那么最终结果其实只能在浏览器这个屏幕介质上访问,不适合通过语音助手等其他交互方式访问。
至于百度,主要通过结果页首条优化,以及引入小程序,实现从“搜索问题的答案”到“为日常生活提供决策”的转变。
2019 年,百度副总裁,百度 APP 总经理平晓黎说,以前用户在百度找到商品,想购买的时候没有办法在百度完成。今天百度智能小程序已经可以解决好这个问题。她说,
今后,所有意图走向商业化,而不只是做着玩玩的搜索引擎,大概也都会通向这个唯一的终点吧。