如果有一天,你获得超能力,能瞬间移动到任何一个地方,你很快就会发现,这个世界上的大多科技对你而言将变得毫无意义。
你不再需要网购,因为你能去任何一家商店,亲手触摸,亲身试穿;你不需要快递、外卖、打车软件,甚至汽车、飞机之类的交通工具,连最新的自动驾驶系统也对你失去魅力;什么在线教育、医疗、视频聊天,远程会议……你都不再需要。
可惜没如果。
所以反过来想就会发现:我们人类的许多科技很大程度上是为了解决同一个问题——打破空间限制,或者说“跨越距离”。
人类天然就厌恶空间限制,从不掩饰对“跨越距离”的渴望。
这种渴望常常暴露在艺术作品里——孙悟空战斗力再爆棚,也得配个筋斗云;哈利波特厉害,还得有个飞行扫帚;哆啦A梦一集掏出一个新道具,任意门的魅力却经久不衰。
和艺术作品相比,现实世界人类和“空间限制”的对抗更加剧烈。
五千多年前,我们的祖先一次又一次狠狠摔到地上,才驯化野马;两千多年前,秦始皇一声令下,无数人前仆后继,烽火台延绵万里,仅仅为了跨越距离传递一个战争信号;两百多年前,第一辆火车被马车追着嘲笑;一百多年前,莱特兄弟经历无数次失败终于试飞成功;第一声电报按响、第一通电话……以及几十年前,互联网诞生。
人类科技发展迅猛的背后,始终有一股跨越距离的渴望在推动着。
今天我要聊的声网的故事就发生在互联网,也跟“跨越距离”有关。
一
那几年,中国掀起一股韩流,十台电视有七八台在放韩剧,街边小店循环播放着一首歌:“乌那拉,乌那拉,阿祖乌拉……”(没错我说的就是《大长今》的主题曲,脑子里有声音了吗?)
一些人开始对韩语感兴趣,可大城市还好说,小城市哪有什么像样的韩语学校?身边也逮不着韩国人(不像马云小时候可以在西湖边找老外练口语)。于是,人们把目光投向互联网——一个没有地域限制的世界。
学语言还得靠唠嗑,一来二去,人们在网上发现一个好东西——YY。
一群又一群韩语爱好者们的乱入,让时任YY技术负责人的赵斌十分惊讶,在他的设想中,YY并不是用来学语言的,而是给游戏玩家们设计的。
最早的一批YY用户是《魔兽世界》玩家,他们需要在游戏中实时交流配合,打字会耽误打怪,于是多玩网的创始人李学凌就带着一伙人为他们做了个语音交流工具,也就是YY。
之后,《传奇》、《穿越火线》等各类游戏玩家都闻讯涌入YY,这是在预料之中的。可是,学韩语频道之后,越来越多和游戏无关的语音频道相继出现,学英语的、学PS的、学乐器的、唱歌的、闲聊吹牛的……这挺出乎意料。
游戏之余不少人喜欢在YY吹吹牛、吼两嗓子
当年每个网吧大神背后都站着一群人
2012年YY的母公司欢聚时代上市,招股说明书的概述一栏有一句非常显眼且靠前的话:“人类是社会性动物,具有与他人联系、互动和交流的基本愿望。”
我想在它后面补一句话以便于理解:“但这种基本愿望在现实世界常常被地域限制,被距离阻隔,谁能帮助人们满足这些愿望,谁就能获得回报。”,当年YY敏锐地捕捉并很好地满足人们的愿望,因而获得巨大回报。
二
YY上市的第三年,赵斌离职,财富自由的他,本已有退休之意,却又出来创办声网。他自己的解释是:“被身边朋友们怂恿出来的”,可根本上还是因为他相信人类对于“跨越距离”的渴望远远没有被满足。
当年,李学凌给YY提出“不卡、不掉、不延迟”的产品需求,可是当YY的用户规模越来越大,接近百万日活时,这个需求就变得很难维持,后来赵斌加入,带着一众干将重写了YY语音的技术底层,才让YY突破百万日活并在一年内冲到千万级别,在一众语音工具里脱颖而出。
“不卡不掉不延迟”,这个目标乍一听并不困难,就好比一家饭店把目标定为“不脏没毒不难吃”,怎么就那么难实现呢?
要怪就怪当年网络基础设施,以及底层技术有限。
零几年时,我家还用的是电话线ADSL拨号上网,再早一些,南北互通都是个问题,玩个游戏都要分电信区和网通区,技术人员再怎么优化也就那样,就好比车多路窄,交警尽力疏导,不堵死已经算好,你还嫌什么车速慢?做到一定的用户规模,“不卡不掉不延迟”已经是当时能做到的最好程度,还要啥自行车?
赵斌知道,只要底层技术还在发展,网络环境还在改善,“帮助人们跨越距离”这件事就还有进步空间。
同样是为了“跨越距离实时互动”,声网和YY当年的具体做法不太一样:
YY是做一款软件,让需要的玩家们自己打开来用。声网没有选择做应用,而是做了一套应用背后的“实时互动基础设施”,把实时互动的能力直接用API接口的形式嵌入到各种应用里。
用一个不太严谨的人比喻:当年的YY是小区里的一个公共水龙头,需要的人自己打水,等越来越多的人聚拢过来,它再在旁边支个摊子卖瓜子饮料矿泉水,用别的生意来挣钱。声网则是直接向房地产开发商收钱,帮他们把“自来水系统”接进楼里,业主入住就直接有水用。
开发者出身的赵斌相信科技总是会朝着“普惠”的方向发展,因此他希望能将原本只有巨头才能拥有的实时互动能力普惠给所有开发者和创业者。
如果把时间拉回到2006年前后,你就会发现,《魔兽世界》游戏里其实内置了语音聊天功能。这就奇了个怪,楼里明明有自来水系统,看着还挺好,为啥大家还有去楼下YY那儿打水呢?
魔兽世界自带语音系统设置界面
原因很简单,因为《魔兽世界》当年自带的语音服务做得太垃圾,简直是又卡又掉又延迟,直接把人们劝退(不晓得后来好了一些没有)。
还接着用刚才的比喻,《魔兽世界》这栋楼里虽然自带水龙头,可是水质不行,一会儿流黄的一会儿流白的,还老是停水漏水。
对于一个自来水系统而言,人们能看得到的水龙头是最容易做的,却也是不重要的,背后人们看不到的水质保障才是关键。同样,一个语音聊天功能,界面和按钮是最容易做的,也是最不重要的,背后的音视频采集,数据传输、时间同步,网络抗抖动、抗丢包、抗延迟才是最重要,也是最难做的。
假如当年每个游戏都自己把语音功能做好,压根就不会有YY什么事儿,但这不可能发生,因为这事儿太难了。当年专业的语音聊天工具那么多,敢自称不卡不掉不延迟的都寥寥可数,难度可想而知。
“实时互动不是一个功能,而是一项服务。”声网的创业路上,赵斌不断告诉队友们。后来直到声网成功上市,赵斌都说:声网唯一作对了的一件事就是率先意识到实时互联网是一项服务,而不是功能。
创业第二年,声网迎来第一个客户,随后第二个、第三个……就像下雨一样,先是零零散散的一滴、两滴,随后才是密密麻麻。
声网的狂风骤雨发生在2020年。这一年,新型肺炎病毒把人们围困在家中,人类的活动空间被限制到前所未有的状况,限制激发出强烈的渴望,人们再次把目光投向互联网,一如当年那些学韩语的人把目光投向互联网——这个没有空间、地域限制的世界。
于是整个互联网世界一下子忙得不可开交,所有涉及音视频技术的厂商都数据大涨,美国政府甚至下通告让Netflix、Youtube等网站降低画质以节省网络带宽。视频会议、在线教育、在线医疗……各种在线厂商们迎来前所未有的春天,声网的通话分钟数也成倍成倍地增长。
乘着这阵风,声网在美股上市。招股说明书里,声网把自己定义为一个“实时互动云服务商”,英文是RTE——Real-Time Engagement,一些人感到诧异,因为在此之前,人们对这个领域的描述更多的“实时音视频”或者“实时通讯”,英文是RTC——Real-Time Communication
RTC 这个词算是谷歌给发扬光大的。2011年,谷歌收购了一家从事音视频实时互动引擎开发的公司GIPS,将其技术重新组织并开源出来,起名Web RTC,利用它可以很方便地在网页或应用中嵌入实时音视频功能。
在随后的十年里,RTC逐渐成了代表这个领域的词。可是到了2020年,声网觉得RTC已经不足以定义这个行业和它自己。
如果说2010年之前,互联网主要解决的是“跨越距离实时互动”的可用问题,2010年至2020年的10年时间,主要解决的则是普及问题。2020年疫情过后,几乎没有人再对线上实时互动感到陌生,它已经渗透到我们生活中的各种场景,所以是时候梳理一个新的目标。
赵斌告诉我:“听见声音,看见画面只是实时互动的一个起点,一个基础。”
言下之意,RTC代表的音视频技术只是实现手段,而不是最终目的,人与人之间跨越距离,RTE实时互动才是。
实践当中,RTE和RTC是个什么关系?举个简单的实际例子你就明白。
一位老师给孩子们远程授课,除了传输声音、画面之外,老师还得写板书,在PPT上写写画画,这时就需要一个互动白板,实时同步板子上的笔迹给所有人,白板上实时划动的笔迹就超出了音视频的范畴,它是通过信令来传输的。
声网最近收购的互动白板公司Netless
一位医生给千里之外的病人远程手术,他看着那边实时拍摄的画面,听着扬声器里那边手术室的声音,这都属于实时音视频,也就是RTC的范畴,但当他操控着千里之外的手术刀轻轻划动,这就是靠信令在传输,属于RTE的范畴。
现今的许多远程手术有一个很大问题:没有触觉反馈,医生不知道用了几分力,为了让医生保持手术“手感”,未来远程手术的医生也需要获得触觉反馈,这些触觉反馈当然也需要实时传输,这也超出了音视频的范畴。
图片来自网络
一言以蔽之,RTC是RTE的子集,RTE是RTC的Plus版本。
三
2021年春节那个特殊的除夕夜,无数游子响应国家号召留在异地,我也是其中之一,某一刻,我挺庆幸自己生在这样一个科技时代,随手拿起手机就能见到千里之外的亲人见面,不必学李白举杯邀明月,对着手机摄像头就能一起喝两杯。
那时我就不禁猜想,未来实时互动会朝着怎样的方向发展?VR、AR和5G网络普及之后,会不会出现电影《头号玩家》里的场景,我们每个人戴一个VR眼睛,穿梭到一个虚拟世界里,在里头拜年,聊天,发红包,打麻将……甚至在里面工作,完全不必在意现实世界的种种空间约束?
我带着这个问题去找声网的朋友聊天,声网的CFO王静波告诉我:“在虚拟世界里工作?不用等未来,现在就已经有了呀~还是声网的客户呢……”
我顺着他说的找到这个叫 Virbela 的产品,发现它的设定是这样的:
在一个虚拟的真实场景,你控制着一个角色在里面行走,就像一个3D游戏。既可以用电脑来操控,也可以用VR设备进入。
你为自己的角色捏脸,换衣服,可以选择做成近似你真实的样子,也可以为它“美颜”。
它是如何用来远程办公的呢?
当控制着角色走到公司门口,前台小姐姐会跟你打招呼,你能透过耳机听到她的声音,她的背后也有一个真人——你公司的前台,她正坐在现实世界的家里远程办公。
你走进公司,前往自己的工位,路上可以看到同事正在干活,你们可以相互打招呼。
随后,你也找到自己的工位,桌上摆着一台电脑,你坐下,然后开始工作——当然是用你现实世界的电脑,真实地工作。
期间,如果你有一个好点子,可以扭头或起身告诉同事,他们就在你身边,系统会根据你们角色的距离和位置来调整音量和环绕效果,模拟真实环境,仿佛你们真的坐在一起。
会议室里,大家开着早会,墙上的投屏是你们真实讨论的内容。
工作累了,你可以到茶水间喝杯茶,可以跟同事下楼聊会儿天,抽根烟。
如果你愿意,还可以跳一支欢快的巴扎嘿。
这个软件除了能用来远程办公,还能用来当远程VR教室,做一场大型演讲。
甚至开一个商业展览。
尽管画面看起来并不那么精细,有些场景甚至有些滑稽,可是在这里,你拥有最豪华的海景办公楼,大到能开火车的办公室,蓝天白云,绿草如茵,不用通勤,你还要啥自行车?
不得不说,歪果仁的脑洞真是大。不过可惜Virbela是一家国外产品,否则我也想在里头买一幢写字楼。
“《头号玩家》会不会是实时互动的终点?”我问王静波。
“不会。”他说,《头号玩家》的场景很可能会出现,但绝不会是实时互动的全部。声网对未来的判断是:实时互动在未来一定会呈现多元化的特点,各种形式并存,而不会只存在一种形式。
他说,就拿线上斗地主这个典型的实时互动场景,有的人就喜欢对着电脑和手机玩,因为里面有丰富的道具和特效,如果在一个虚拟世界里做一个仿真牌桌,未必大家会喜欢。
就目前来看,未来更可能出现的情况是,实时互动像水和电一样渗透到我们现实生活中的每个角落,也许在人们不经意之间,就以某种方式出现,解决某个需要跨越距离的问题。
也许是视频办医保,不要跑腿就能办各种业务。
也许是“在线自习室”,三两网友开着摄像头直播学习,相互监督。或者几个程序员结对编程。
又或是“虚拟电影院”,几个朋友一起看一场电影,一边看一边聊天吐槽?
也可以是一边看一场球赛直播,一边和三五个好友边聊天边撸串边喝啤酒,就像世界杯期间的酒吧一样。
实时互动+智慧家居?实时互动+智能汽车?实时互动+金融?谁也无法准确预料实时互动下一次会在哪一片土壤里开出怎样的花。
这也是为什么声网为每个客户提供免费的每月10000分钟实时音视频使用时长,“10000分钟是一个不小的数字,足够开发者们尝试绝大多数想法。”他们希望人们去实践每一种对实时互动未来的想象。
四
实时互联网的未来让人憧憬,却也让声网这样底层技术服务商感到紧张。
未来是多元的,而多元意味着碎片化,各种情况都可能出现,这要求他们在技术上达到极强的敏捷性,才能应对每一种复杂情况。
声网的首席科学家钟声讲过一个最简单的例子。四个人在线上开会,网络质量各不一样,会出现一种情况:
如果实时网络迁就网络最差的那个,用低画质传输视频流,那么其他三个人明明网络很好,却也只能看最差的画质。
可是如果视频流按照高画质来传输,网络不好的那个就会卡顿。
对于这种情况,声网必须去实现网络的自适应和可伸缩性,实时探知每个参会者的网络情况,做到自适应的视频流下发,并且能动态变化。
当网络状况好,画质就清晰些,网络不好,画面自动变得差一些,但不能卡顿,等网络变好再让画质自动调回来。
乍一听好像也不是特别复杂,可是每个人的网络状况就像马路上的汽车,每时每刻速度都在变,要实时探知每一个参会者的网络情况,并在毫秒之间做出反馈,并不简单。
声网用了一种机器学习算法来探知宽带的变化,实时估算网络的拥堵,识别数据丢包。
机器学习算法的原理咱们就不展开说了,简单来说,这像你每一次出远门时,要先掏出导航软件搜索目的地,让软件帮你预估一下路况和预计耗费的时间。所谓“探知带宽”就是给互联网世界的网络流量们导航,以毫秒为单位,每时每刻进行,帮助它们按时到达目的地。
十年前,“不卡不掉不延迟”是一个很难达到的标准,今天网络条件不断变好,可人们的需求也在变高,从普清到高清再到超高清,从PC到手机再到AR、VR和各种智能设备。路在变宽变好,可是车也在变多,想要完全不堵车依然不容易,“不卡不掉不延迟”依然是一个近在咫尺却又难以企及的目标(100%的不卡不掉不延迟显然并不存在)。
为了节省带宽成本,声网依然不得不“省吃俭用,想尽办法把每一个Bit的网络流量用在刀刃上”。
比如:他们研究的“低码高清”,可以趁你不注意,把你不太关注的地方的分辨率降低,在不影响观看的情况下节省码率。(这个跟我们之前写过优酷的“窄带高清”有异曲同工之妙,区别是声网这个是在实时互动中进行的)
再比如:当我们观看180°或360°全景视频,或VR时,可以让视野中心显示得更清晰,边缘可以稍稍模糊,这样一来既可以节省带宽,确保画面流畅,也符合人类的真实视野感受(视野边缘比中心模糊)。
图片截取自RTE2020 钟声的演讲
极端情况也依然存在。尽管我们未来有5G网络,可偶尔也会遇到信号差、受干扰的情况。同样会导致卡顿、延迟和掉线。
尽管通过自适应的网络传输方案,声网可以做到在70%的丢包率下视频依然流畅播放,但这往往需要牺牲画质和流畅度。
声网的人告诉我,最近几年开始在使用一种方法:可以利用人工智能算法来“插帧”,将低帧率的视频变成高帧率,利用AI超分辨率算法来增加低分辨率视频的分辨率和细节。
所谓“插帧”就好比是你在看一个手翻书,AI算法趁你不注意,在毫秒之间在每一页的后面添了上一页,让画面看起来更流畅;“超分辨率”就是AI趁你不注意,在画面上添一些细节。
由于是实时互动,所以插帧和超分辨率必须在几毫秒之间完成。
除了网络质量问题,未来他们还可能碰见各种情况:使用者跨运营商、跨国,用的设备屏幕不同,电脑,手机、手表,VR眼镜……以及可能出现的各种各样的实时互动场景,大到成千上万人的大会,小到一对一的在线辅导,他们都得应对自如,技术挑战不可谓不大。
五
年前我去找声网的人聊天时,声网的股价兴许是受伊龙·马斯克作客知名播客互动平台ClubHouse事件的影响,一路蹦到一百多美元一股,翻了一倍多。我问他们感受如何,王静波说,对于声网和Clubhouse的关系不发表评论,但是可以谈谈股价波动对他们的影响,答案是没什么影响。
他说,在他加入声网的一年,发现这家公司的人有个特点,平时几乎不聊“数据涨了没”、“股价涨了没”之类的短期数据,大家聊的更多的是客户的问题怎么解决,如何应对未来。
我听了还挺羡慕他们,心中能有一件自己笃定的未来,一个清晰的目标,就像《海贼王》里的宝藏OnePiece等待他们去寻找,心无旁骛地向前,真好。
人类终究不会拥有瞬间移动的超能力。
可是作家亚瑟·克拉克说过,任何足够先进的科技,都与魔法无异。
我想,我们今天能拿起手机和千里之外的人视频见面,也许在古人看来,就和在空中开了一个魔法传送门没什么区别。
这些“魔法”,不也是一代代人用普通能力累计起来的?所谓超能力,不过就是能力的积累。
因此,兴许有一天人类真的能拥有“瞬间移动”的超能力,但那一定是人类始终带着打破空间限制的渴望,像愚公移山那样一榔头一榔头,一代一代人创造出来的。
最后再介绍一下我自己吧,我是谢幺,科技科普作者一枚,日常是把各路技术讲得通俗有趣。想跟我做朋友,可以加我的个人微信:xieyaopro。不想走丢的话,请关注【浅黑科技】!(别忘了加星标哦)
↓↓↓