2008年9月-2009年7月,我曾利用业余时间,将自己对云计算的现实与未来的思考总结写成了《云计算三部曲》。那时,云计算对许多人来说还是新鲜和深奥的概念;而今,云已是触手可及。个人用户将文档、照片、视频、游戏存档记录上传至云中永久保存,企业客户根据自身需求,可以搭建自己的私有云,或托管、或租用公有云上的IT资源与服务,这些都已不是新鲜事。去年11月,我们宣布将Windows Azure平台带入中国,也意味着公有云已成为主流服务。作为云计算的杀手级应用,“大数据”近来又引发了不少行业人士的关注和研讨,此文将重点谈谈大数据与云的关系,以及二者的结合,将对科技和商业生态产生怎样的影响。
三大平台之争与大数据
三年前,我首次提出了“三大平台之争“,这是一场注定要旷日持久的争夺战。如今,三大平台之争也进入了新的阶段。
第一个平台是云。由于云计算基础设施建设需要巨大的资金投入、长时间、大范围的部署和持续的更新维护,有足够的资源、实力去构建大规模云计算平台的企业并不多。所以当时我说,纵观全球,也不会有太多的公司有资格成为云平台的掌控者,如今看来,亚马逊、微软、谷歌、Rackspace等少数公司位于第一军团。
我们正式发布Windows Azure平台是在2010年初。它整合了微软在云计算领域的经验积淀、创新能量和生态系统的传统优势,三年来发展迅猛。随着2012年9月,微软云操作系统(包括Windows Server,Windows Azure和System Center)的正式发布,以及11月微软与上海市政府、世纪互联达成合作,宣布将Windows Azure平台和Office 365服务引入中国,标志着微软在中国的云计算实践进入了全新的阶段。
第二个平台是智能终端,其本质是iOS、Android和Windows之争。2010年,“移动三国”的竞争才刚开始。转眼间三年过去了,战况是越来越激烈,而且这场战役还会持续很久。苹果、Google、微软都在设法强化自身的生态系统,微软最近几个月,陆续宣布了Windows 8、Windows Phone 8等一系列新终端平台,目前的市场反响表明,微软的转型是基本成功的。
更为重要的是,除了PC、平板电脑、智能手机、游戏主机等常见的计算终端之外,微软早已着眼于在更广阔的、泛在互连的智能设备布局,比如智能汽车、智能电视、工业设备和手持设备等。11月宣布的Windows Embedded 8标准版预览,支持触摸及手势交互,让数以百亿计的新机器与传统的IT设备和网络连接到一起。而从2012和2013年的CES展看,智能汽车会越来越热,直至普及。
第三个平台是凌驾于云和端之上的,反映真实关系的社会化商务和社交平台。永不中断的云服务和彼此连接的人群与海量设备,带来的最大机会在于如何以人和数据为中心,发展出反映真实世界中人与人、人与机器、机器与机器关系的社会化网络,并在其上诞生消弭真实与虚拟界限、更加人性化、交互更自然的商务和社交平台,以及应用。我们看到,将现实社会关系数字化、网络化、商业化的尝试早已开始。但迄今为止,现实世界数字化的程度还不够,真正超越国别、种族和文化壁垒的社会化网络的平台仍未建成,这也正是中国IT产业的重大机遇。
显然,三大平台里,云是前提,是基础。过去我讲过很多次,云计算其实在计算量越来越大、数据越来越多、越来越动态、越来越实时、越来越需要结构化的产业背景下被催生出来的一种基础架构和商业模式。无论是云计算本身、或是智能终端,还是凌驾于云和端之上的,基于社会化网络的平台和应用,都会让数以百亿计的机器、企业、个人随时随地都在获取和产生新的数据,即使是在摩尔定律的支撑下,计算设备硬件性能进化的速度也早已赶不上数据增长的速度,并且这一问题会日渐严峻——这样的背景下,只有云才能解决“赋予数据以更大价值”的问题。这也就引出了新的话题,也是最近这段时间产业和社会都非常关注的“大数据”的话题。
“大数据“的崛起
如今,大数据的重要性越来越明显,但就和云计算一样,它也不是一个从天而降的新概念,而是在三个主要因素的驱动下,逐步成长成熟的。
第一个驱动力,就是业界常说的大数据的三个V(Volume, Variety, Velocity),而这三个V可以有多种解读。
首先来看看第一个V,巨大的数据量与数据完整性。IT业界所指的数据,诞生不过60多年。而一直到PC普及到千家万户之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据——几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。那些拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。
值得注意的是,业界对达到怎样的数量级才算是大数据并无定论,其实在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。
第二个V,在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过TCP/IP网络连成了一个整体。进入Web 2.0时代,PC用户不单单可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多——从技术角度看,可以称之为结构化数据、半结构化数据、非结构化数据和流式数据。我记得2005年,微软亚洲研究院一年一度的“21世纪的计算”大会将主题设定为“Data Centric Computing”,也就是“以数据为中心的计算”,那时我们就已建立了这样的认知:价值来自于数据,或者说,数据一直都是有价值的商业资产——此前,人们往往过于重视“计算和存储性能的提升”;而从那时起,我们就已更关注“数据分析和处理的效率”——对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的“关联性”,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。
第三个V,可以理解为更快地满足实时性需求。如今,通过各种有线和无线电网络,人和人、人和各种机器、机器和机器之间无处不在的连接,这些连接不可避免地带来数据交换,而数据交换的关键是降低延迟——要解决数据产生、传输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。
如今,数据的实时化需求越来越清晰。用户想驾车去吃饭,先用地图应用查询餐厅的位置、预计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的评论。吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,发布到微博上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
第二个驱动力,是云计算的普及和成为主流。经常有一些朋友会问我说,云计算和大数据到底有什么区别?前两年大家都在讲云计算,现在怎么又变成大数据了?其实,云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。由于云计算的普及和成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。
第三个驱动力,是人工智能、机器学习和数据挖掘等技术的迅速发展。在这样的背景下,微软已经可以为用户提供三个层次的端到端大数据解决方案——其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。
通俗的说,就是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。归根到底,大数据的最终意义在于获得洞察力和价值,这也正是大数据的第四个V(Value),这个V比前面的三个V都更重要。
云和大数据重塑科技和商业生态
不太为人所知的是,云计算和大数据的结合,最先影响到的是科学研究界。
2007年1月,我在微软的同事、也是我非常尊敬的一位科学家吉姆·格雷(Jim Gray)在计算机科学与电信委员会上的一次演讲中描绘了“科学研究的第四范式”的图景。所谓“第四范式”是指基于数据密集型计算的科学研究——吉姆·格雷呼吁资助开发用户数据采集、管理和分析的工具,呼吁资助一个交流与发布的基础设施。在他的设想中,数据密集型科学由三个基本活动组成:采集、管理和分析。数据的源头是各种不同规模和属性的国际科学联盟、实验室甚至于个人生活,需要创建一系列通用工具来支持从数据采集、验证、管理到分析、存储的整个流程,而数据分析则覆盖整个工作流程的所有环节,包括建立数据库、建模和分析、数据可视化等等。吉姆·格雷的最后一次演讲体现了这位图灵奖大师的远见和雄心。
在商业领域,大数据具备极大的想象空间。
上个世纪七十年代,纽约的治安状况很糟糕。一位名叫杰克•迈普(Jack Maple)的年轻警察根据个人警务经验,发明了一种名为“未来图表”(Charts of the future)的犯罪预测方法论,可以根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点。这种方法真的有效,1994年,新上任的纽约市警察局局长开发了“未来图表”的电子版,将之更名为“CompStat”,推广至全市的警务系统。CompStat的技术核心是犯罪测绘系统(Crime Mapping System)和数据库采集系统(Database Collection System),而微软的Microsoft MapPoint、Access、Excel等产品为两个系统提供了坚实的支撑——基于大量的数据采撷、挖掘和分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳和总结,并有效地改善了城市的治安。数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%,车辆盗窃案发生率降低了约24%,而且这些数字还随着IT软硬件技术的持续更新和CompStat系统的不断完善而逐年下降。
未来,透过技术手段完全遏制犯罪行为,让每一个城市和地区的居民时时刻刻都安全无虞——这或许不是梦想。2012年8月,纽约市长迈克尔•布隆伯格(Michael Bloomberg)亲手揭开了纽约警察局与微软携手开发的城域感知系统(DAS,Domain Awareness System)的面纱。该系统将覆盖整个纽约市的3000多个监控摄像头、2600多枚辐射探测器、几百个车牌信息读取装置所收集的信息汇总到警方数据库中,可结合探测数据、实时影像、911报警电话和警方积累的罪案历史档案,帮助警方更准确地侦测并锁定即将发生的犯罪活动及嫌疑人。
对商业竞争的参与者们来说,大数据意味着激动人心的业务与服务创新机会。零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报。
而对于那些拥有行业经验,并熟练掌握云计算开发和应用技能的小型企业,尤其是初创企业来说,则更是意义非凡。最近几年,我们看到的一些明星初创公司,比如Cloudera, Splunk, Klout, TellApart等,人员规模只在数十人,但对某个行业拥有深厚知识,并能通过云和大数据的技术手段,快速解决该行业的共性需求和痛点——在未来数年,这样的“小而精”、“快而准”企业会越来越多,并做出有可能改变世界的颠覆性产品。很高兴看到,在北京中关村,在微软的云加速器二期,也有类似的初创企业加入,和硅谷、海法的创业者们一起,把握住了时代的脉搏。
总而言之,云计算和大数据的结合,将对今后的政治、经济、科技、民生产生难于估量的影响。无论是做硬件、做平台,还是做应用、做服务,归根结底都是以数据为核心、以数据为动力,来提升产品对用户的引力、强化企业竞争力、创造新的商业机遇。数据已经被认为是宝贵资源,任何一家有雄心、渴望获取洞察力的企业,都应及早制定大数据战略和方案。否则,所有的机会将被“数据鸿沟”所延宕。