昨日,李彦宏在年后发了首封内部公开信,在他看来,内容、服务、金融创新、人工智能都将迎来新时代,有仗打才能有士气,百度各项业务需做好准备、打好每一场仗才能找到突破机会,同时还将在内部主张更加开放的企业文化,摒弃经验主义,优胜劣汰。以下是公开信全文:
内容分发新时代
首先,是内容分发的新时代。
百度从本质上来讲,最核心的东西还是在做内容的分发。
我们该分发什么?早期的时候,互联网内容是以文字为主要形态。随着带宽环境越来越好,人们的创造力越来越丰富,开始有了图片。到今天,其实不仅仅是图,有一个新的图片相关的形式叫做图集也非常受欢迎,很适合在互联网上传播的内容形式。
除了图片,还有视频。今天的视频,我觉得跟过去又有了很大的不一样。首先是短视频的这种兴起,它适用的场景和触达到的人群都非常不一样。我们身处在百度这样的内容分发的中心,必须要能比别人更早的感知到内容分发环境的变化才行。
百科是一个很严谨的东西,但它很早就开始做秒懂视频,而且是放在词条的最前面,所以他们对这个内容分发的环境的敏感度就足够的高。所以这是我们在迎接新的时代到来的时候要保持的一种思维方式。要对新东西会敏感,什么东西会影响你。
整个世界一直是在变化,从PC互联网到移动互联网,移动互联网起来很多超级app,内容越来越多被封装在微信、微博这些里头。怎么利用百度的平台让内容回来、让我们的用户能够方便获取,完成我们让人们最便捷平等地获取信息找到所求的使命?这是在新的时代里我们需要认真思考认真准备并且为之奋斗的东西。
过去这一年我还有一点感受特别深,是社交媒体和自媒体这种环境下,很多时候人们更多的是在讲感情,更多地想传播他们愿意相信的东西,事实是什么已经不重要了。这对我们一个以搜索引擎为核心的公司来说,挑战也是蛮大的。在这种环境下,我们怎么来应对,也是一个很大的挑战。当然,挑战也意味着机遇。我也希望大家更加主动地去思考这个问题,找到新的属于我们的机会。
另外一个内容我觉得是数据,数据是新的内容。在移动互联网时代到来以后,数据怎么能够和应用相结合去呈现一些比较有价值的东西,怎么能够在我们百度的平台上把它变成新的内容,这也是下一步我们应该着力去做的。
这些结构化的数据,未来这些东西弄好了之后,它一方面给我们的用户提供更多有价值的内容,另外一方面也是未来我们AI的一个前提。因为AI的技术需要非常多的数据支持,有价值的有序的数据越多,你的这个最后出来的结果就会越好。以至于我们有一个技术大牛跟我说了一句话:他说数据秒杀一切算法。
这一点在现有的很多产品当中已经体现出来了,比如百度的语音搜索,大家可以看到识别的准确率已经非常非常高了。但是当我们比如说到通用的输入法去识别这些语音的时候,我们可能还不如市场上某些其他的竞争对手。为什么?因为我们在搜索的这个场景上掌握了比任何人都多的数据,而这种数据是非常非常有特点,有价值的,是别人达不到的。
用户在进行搜索的时候,其实他在心目中是有比较清晰的需求的,整个过程是一个寻找答案的过程,从最初的需求表达,到他最后找到答案,尤其是在移动互联网时代,在手百这样一个封闭的app里头,我们能够track到他的每一步。这就给我们提供了足够多的训练的数据,所以我们可以有很高的识别率。我们不仅仅能够有很高的语音识别率,实际上整个过程使得我们能够构建出来最好、最丰富的知识库。我们知道从需求到结果,到底是一个什么样子,这些东西都是我们非常有价值的东西。
但是在别的场景里头,有时候即使你技术特别好的话呢,可能也不能够争得过别人。比如你随便拍一件商品去识别,淘宝识别出来的结果,比我们现在拍照搜索的结果要更加精确。因为大量的商品库在他那里头,商家都把数据都给标注好了。那么这对我们的启示是什么?除了我们自己已经有的这些个大量丰富的query到最后用户行为数据之外,我们也应该积极的到外头去找那些对我们有价值的相关的数据。让他们上到百度的平台上来,我们利用这些数据,打磨我们算法,做出最优秀的用户体验和产品和服务来。
知识图谱(包括需求图谱、用户画像等等),这些东西都是百度整个人工智能当中非常基础的构件,也是我们相对于其他任何一家公司的优势所在。而且我们从一开始就很重视,未来要更加有意识地根据我们的需求、场景跟产品,去不断地丰富,不断地打磨,不断地把这个东西做到极致,做到全世界最好。
某种意义上讲,我们未来的搜索从索引关键词的引擎,可能会逐步过渡到索引知识的引擎,它从表面文字的表达和query的匹配,这是上一个时代的事情。下一个时代的事情是用户真实的需求和我们已经积累的知识之间的一种匹配。
还有一个,就是我们现在非常重视的 feed 流产品。过去传统的搜索是人在找信息,现在要逐渐演进到信息找人。人在没有主动表达他的信息的时候,我们就已经能够猜出来这是他喜欢的,这是他需要的信息。如何能够很方便、高效地分发给这些需要和感兴趣的人,这个也是在内容分发形式上一个新的机会和挑战。我们因为有强大的知识图谱和用户画像,有多年人工智能方面的技术的积累,有大量的用户行为和数据,所以在这方面是非常有优势的。