网站访问人数: 141903246

大数据思维

www.gcdr.gov.cn (2014-06-27) 来源:新华文摘

大数据思维

  一、大数据的内涵
  近年来伴随着不少国家的宽带化战略的实施、云计算服务的起步、物联网应用的铺开和移动互联网的崛起,数据量与时俱增,数据处理能力也发展迅速,数据量积累到一定程度其资源属性越加明晰,显示出开发的价值。同时,社会的节奏越来越快,要求快速的反应和精细的管理,急需借助对数据的分析来科学决策,催生了对大数据开发的需求,大数据被称为将引发生活、工作和思维变革的一次革命。
  全球新产生的数据年增40%,全球信息总量每两年就可以翻番。2011年全球新产生和复制的数据量达到l.8ZB(ZB即一千EB或百万PB),如果用内存为32GB的iPOd来存的话,数量需要575亿个,足以砌起两座长城,由此可见大数据时代已经到来。全球的数据总量是由无数的数据集构成的,从数据来源分类,可分为社会的数据、通过传感器收集的来自物理空间的数据和网络空间的数据。社会数据包括政府数据,例如国家税务总局每月收集全国数据4TB,已集中的结构化数据为260TB。传感器收集的数据包括空客飞机等。空客飞机装有大量传感器,每个引擎每飞行小时产生20TB,一架飞机四个引擎,从伦敦到纽约每次飞行产生640TB级数据。网络数据可细分为三类,自媒体数据,包括在社交网络、博客、微博等应用中的用户生成数据;日志数据,包括搜索引擎、运营商、网购服务、金融服务等网络服务所产生的用户行为、交易等日志数据;富媒体数据,包括文本、音视频、图片、文字等。淘宝单日产生的日志数据量超过50TB,存储量40PB。服务行业也会累计大量的日志数据,例如国家电网公司年均产生数据5l0TB(不含视频),目前累计数据5PB。医疗业也是数据密集行业,广州中山大学第一附属医院2008年所存的数据就超过100TB,预计2015年将超过PB级。
  大数据是相对于一般数据而言的,目前对大数据尚缺权威的严格定义,但较普遍的解释是指“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合”。规模大是大数据的标志之—,但大数据之所以难处理不仅在于规模大,更大的挑战是其随时间的变化快和类型的多样性,根据可否用表格或关系数据库的表和视图来表示而区分为结构型和非结构型数据,照片和视频等就是典型的非结构数据。随时间和类型的变化增加了大数据的复杂性但也同时丰富了大数据的内涵。通常用4V(Volume、Velocity、Variety。Value)来反映大数据的特征,即量大、增长快、多样性和高价值。从这一点来看,对大数据仅仅冠以“大”这一形容词是不全面的,只不过在大数据的4V中,规模相对于变化和类型这两个特征容易定量,而且即便是单一类型的数据集(例如文本文件),只要有足够的规模也能称得上大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性,因此对大数据这一词汇突出其规模大这一特征也是可理解的。
  需要指出的是,虽然数据规模与数据挖掘得到的价值之间有相关性,但两者难以用线性关系表达。这取决于数据的价值密度,同一事件的不同的数据集即便有相同的规模(例如对同一观察对象收集的长时间稀疏数据和短时间密集数据)其价值也可能相差很多,因为数据集“含金量”不同。总的来说,大数据的价值密度低,大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的结果,只有足够规模的有意义的数据其价值才能聚沙成塔,数据挖掘的过程是大海捞针或沙里淘金,历经去粗存精、去伪存真、拨云见日、由表及里到最后水落石出,正因为大数据所蕴含的规律或本质不容易得到,物以稀为贵,才显示出大数据的价值。从这一意义上看,仅仅用难处理的数据集来定义大数据是不够的,应该强调的是处理所能获得的结论的可信度而不是处理的难度,即大数据是指其规模大到(或变量复杂到)从中可以挖掘出符合事物发展规律性的数据集。
  大数据不仅是一种资源,也是一种方法,伴随大数据产生数据密集型科学,有人将它称为是继实验科学、理论科学和计算科学之后的第四种科学研究模式,这一研究模式的特点表象为不在意数据的杂乱,但强调数据的量;不要求数据精准,但看重其代表性;不刻意追求因果关系,但重视规律总结。这一模式不仅用于科学研究,更多的会用到各行各业,成为从复杂现象中透视本质的有用工具。有人担心从大数据中发现事物发展规律并预测未来的做法强调了有章可循,可能会妨碍创新。事实上检验技术创新、商业模式创新还是管理创新,不是看是否使用新的模式或颠覆性技术,而是看应用领域的开拓和市场上的引领,成功的重要因素正是符合客观规律。苹果公司注意到黑萄手机作为第一款智能终端的潜力,苹果公司的iPhone用触摸屏代替键盘并开发了App Store应用商店,完善了移动互联网的产业链,开创了移动智能终端时代,方便了用户的使用,顺应并引导移动互联网的发展,这是大数据思维与创新文化结合的范例。
  大数据还是一个新学科,大数据技术是指设计用于高速收集、发现和分析从多种类型的大规模数据中提取经济价值的新一代技术和体系。涉及数据存储、合并压缩、清洗过滤、格式转换、统计分析、知识发现、可视呈现、关联规则、分类聚类。序列路径和决策支持等技术。
  大数据将带动起大数据产业和市场,包括服务器、存储器、联网设备、软件(数据组织与管理软件。分析与发现及可视化软件、决策支持软件等)与服务(按照云计算的观点可将大数据服务业分为数据存储服务、数据软件的开发工具平台服务、数据分析软件平台服务和提供数据分析解决方案的服务)。国外咨询公司Wikihon认为全球2013年的大数据产值为186亿美元,年增58%,其中硬件、软件和服务分别占产值的38%、22%和40%。但硬件、软件和服务三者之和也仅仅是狭义的大数据产业,通过大数据挖掘的服务,大数据应用到各行各业,提升生产效率支撑节能降耗,促进经济发展,因此广义的大数据产业的产值或者说对GDP的贡献更多地体现在工业、农业、交通运输、建筑等行业,麦肯锡公司就预测大数据能使制造业装配成本降低50%,零售业增加60%的利润。事实上大数据的分析在社会治理和民生服务上的效益也很显著,这不是简单地用GDP可以衡量的,麦肯锡估计对医疗和公共管理分别可获得年度收益数千亿美元,可见广义的大数据产业百倍于狭义的大数据产业。麦肯锡公司还预见开放数据将在全球教育、运输、消费产品、电力。油气、保健和消费者财务这7个领域释放3.2—5.4万亿美元的经济价值。总之,大数据服务业属性大于制造业,对其他产业的影响大于对直接产业的影响,社会效益大于直接经济效益。大数据影响之大和受到广泛重视也正是因其溢出效应明显。

   二、大数据思维在各领域的应用

  以下列举一些大数据的应用例子,从中可以看出大数据是资源,利用大数据所积累的信息找出网民的情绪与宏观经济的关联,利用顾客的购物行为分析顾客类型,利用企业交易行为建立诚信记录,利用历史统计的规律来预测未来。大数据是方法论,基于数据密集型科学可用类比来简化求解。总之,大数据思维可以应用到各行各业。
  大数据在宏观经济管理领域的应用。采购经理人指数(PMI)通常是由统计部门发布的,但IBM的日本公司建立了—个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,这个根据网上的新闻分析出的PMI,准确度相当高。印第安纳大学学者利用谷歌提供的心情分析工具,从用户近千万条短信、微博留言中预测道琼斯工业指数。用户的短信、微博是不会直接讨论道琼斯工业指数的,但字里行间会流露出当前的心清,整个社会用户的心情与经济增长状况是相关的,用这种方法预测道琼斯工业指数的准确率高达87%。淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上成交额比重达到57.4%的390个类目的热门商品价格来反映网络购物市场整体状况,以及城市主流人群的消费态势,它比国家统计局公布的CPI还提前半个月预测经济的走势。
  大数据在制造业的应用。丰田公司利用数据分析在试制样车之前避免了80%的缺陷。美国通用电气公司通过对所生产的2万台喷气引擎的数据分析,开发的算法能够提前一个月预测其维护需求,准确率达到70%。企业通过对网上数据分析了解市场动向,管理采购和合理库存。华尔街对冲基金依据购物网站顾客评论分析企业销售状况。华尔街银行根据求职网站岗位数量推断就业率。百度将网民对汽车的各类搜索请求进行大数据挖掘,帮助一个汽车企业深人了解消费者需求,设计新品及资源调配。
  大数据在农业领域的应用。谷歌前雇员在硅谷创办Climate公司,从美国政府获得30年的气候60年的农作物收成和14TB的土壤的历史数据,同时还利用来自250万个地点的气候测量数据和1500亿例土壤观察数据,生成10万亿个模拟气候数据点。该公司预测任一农场的下一年的产量,向农户提供天气变化、作物、病虫害和灾害、肥料、收获、市场价格等咨询,并出售个性化保险,承诺每英亩的玉米利润增加100美元,如果出现未能预测的恶劣天气损坏庄稼,公司将及时赔付。最近该公司被孟山都公司以11亿美元的价格收购。
  大数据在商业领域的应用。沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便在线购物者测览,在线购物人数增加10%-15%。沃尔玛还通过对消费者的购物行为进行分析,了解顾客购物习惯,分析适合搭配售卖的商品,优化商场的布局和货架排列。在美国排行第二的折扣超市Target选出孕妇常购的典型商品,建立怀孕预测指数,针对性派送孕妇用品的优惠广告,还将分析用到各种细分客户群。在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。比如说,某人在淘宝网上买了化妆品,销售化妆品的商家买到这个消费记录对应的顾客IP地址后,就会留意其后续的消费行为。一旦商家发现该用户测览与自己有广告关系的网站时,马上就会弹出一个卖化妆品的广告,这样就很容易达成交易,最终结果是顾客、商家、网站、阿里集团都各有所得。
  大数据在金融业的应用。华尔街“德温特资本市场”公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买人或卖出,它常在人们买股票之前买入股票,也常在人们抛股票之前抛售股票,从而获得较好的收益。最近由于经济下行压力仍然较大,很多中小企业贷款难,阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,无需担保向这些中小企业提供贷款,目前阿里公司已放贷上千亿元,坏账率仅为0.3%,远低于我国四大商业银行的坏账率。2012年京东商城收购网银在线,联手中国银行为商家提供贷款,2013年12月“京保贝”正式上线,通过京东平台上的大数据分析,自动完成审批和风险控制,实现放款的时间缩短到3分钟。互联网公司在将电商平台变化为融资平台的同时,还通过与基金公司合作打造吸储投资平台。2013年6月下旬,阿里集团推出余额宝,对接天弘基金,以1元起购和高于银行的年化收益率,2013年底余额宝开户数4303万,累计申购资金超1853亿元。2013年底,百度理财和网易理财先后仿效,甚至不惜拿钱来圈住客户聚拢人气,因为互联网的用户群是大数据的源泉。
  大数据在交通运输业的应用。美国UPS每天平均运输163万件包裹,用传感器跟踪4.6万辆车,优化运输路线,2011年少跑了8500万英里路程,节约了840万加仑燃料。中远物流公司有100多个配送中心,3000个网点,装GPS的上万辆车每月产生2亿条信息,据此优化运输路线,减排10%。美国Airsage公司每天通过处理来自公路汽车的上百万手机用户的150亿条位置信息,为超过100个城市提供实时交通信息。
  大数据在外贸中的应用。美国Panjiva公司(磐聚网)利用政府开放的海关货运数据建立全球外贸搜索引擎,每年采集上亿条货运记录,包括发货人、收货人、集装箱内货物内容和价值等,同时提供信用报告、合格证、网站和供应商等信息,成为面向采购商和供应商的智能B2B平台,为买卖双方搭建供应链。
  大数据在影视行业的应用。我国新影数讯公司掌握了2万部电影、6万名艺人、4000位导演的数据资料,并能对微博关注影视娱乐的1.2亿人进行偏好分析。其开发的iFilm十系统通过对影名、剧本、角色、演员阵容、宣传情况、主题曲等70多个维度和变量进行数据分析来综合测评,预测一部电影的市场表现等情况,准确率可以高达80%。美国Netflix视频网站每天记录用户3000多万个观看的动作(暂停、回放、快进、停止)和400万个评分,300万次搜索,利用积累的大数据预判观众喜好,据此选择剧本、导演和演员及调整剧情,针对性向用户宣传,吸引用户从试用转向付费订阅。
  大数据在医疗卫生领域的应用。谷歌把5000万条美国人搜索词和美国疾控中心在2003—2008年间流感传播期的数据进行了比较,建立数学模型,结合45条检索词条,在2009年甲型H1N1流感爆发的几周前,谷歌就给出了预测,与随后疾控中心公布的数据相关性高达97%。中国科学院与百度公司合作,精选了160多条关键词,对5年来的数据进行建模分析,得出中国艾滋感染人群的分布情况,其估值与后期卫生部门公布的结果基本一致。
  大数据提供机器翻译服务。过去机器翻译是尽可能让计算机学会语法和查字典,但语言太复杂了,很多机器翻译难以实用。谷歌将语言视为能够判别可能性的数据,将语义挑战变成数学问题,利用已经索引过的海量资料库,从互联网上找各种文章及对应的译本,找出多语言数据之间的语法和文字对应规律,尽管这些语料库来自互联网上内容,会有语法错误和拼写错误等,只要无碍理解即可,因为常人说话和写文章也不见得每句都严格符合语法,基于类比的翻译方法比基于语法构词的翻译方法更快,可见大数据基础上的简单算法比小数据基础上的复杂算法更有效。最近微软公司也开发了26种语言的实时翻译系统,声称使用了上百万网页上的素材和大数据及深度神经网络技术。
  大数据在体育训练中的应用。美国NBA从80年代开始将球员在赛场上的表现数据化,经过30多年的积累已达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部中聘请了数据分析师的15家的平均胜率达到59.3%,而另一半球队仅有平均40、7%的胜率。
  大数据在热点检测中的应用。利用短信、微博、微信和搜索引擎可以收集热点事件与挖掘舆情。通过对微博用户建立档案,提前关注可能引起社会不稳定的因素。在长假之前,很多人会在网络上搜索旅游点、旅店、火车与飞机航班信息或自驾游的路线等,由此可预知哪些旅游点和交通线路会拥塞,利用百度地图等所获得的百度春运迁徙图就是一例。2013年5月昆明市民上街反对“PX化工项目”上马,早在市民集会前一周该项目的百度搜索关注度剧增。
  大数据在治安管理中的应用。2012年美国加州大学分析洛杉机市过去1300多万起案件,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,当地的警员每天按该系统发出的指令前往指定的小区巡逻,该系统已使该地区财产犯罪率和盗窃案件分别下降12%和26%。2013年8月美国《大西洋月刊》报道,纽约的一对夫妇因在谷歌上曾经搜索“高压锅”和“背包”被一个由6人组成的联合反恐部队以“查水表”名义上门盘问是否拿高压锅来做炸弹。
  大数据在政治领域的应用。2012年美国大选,奥巴马竞选团队,有数千名志愿者,建立选民档案并通过社交网络和微博等收集选民的爱好和关注,运行66000个计算机分析每次演说的效果,针对性做选民的工作,例如某个选民在脸谱网(facebook)或者推特网上的大部分帖子都是关于环保和医疗成本,他们就会以奥巴马名义发一封专门谈论环境和医保问题的电子邮件,让该选民认为奥巴马想其所想。这—策略对奥巴马获胜起到重要作用,而且与2008年的竞选相比,巴马竞选的捐助者增加了50万人.数字筹款增加了20%,广告投放效率提升15%。
  大数据在军事领域的应用。美国国防部目标是利用大数据将分析人员从任意语言文字资料中提取信息的能力提高10O倍。美国中情局要求利用大数据将分析搜集数据的时间由63天缩短为27分钟。

  三、大数据的误区

  误区之一:中小数据没有挖掘的价值。按照维基百科的解释,“大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十TB和数PB之间”,主要依据可能是从目前的数据处理技术水平来界定的,未来随着技术进步,标准将水涨船高。IDC在2011年的报告中表示,在被创建的信息数据总量中,有75%来自于个人,这包括文字、图片。视频和音乐,一般情况下个人产生的数据集还达不到几十TB量级。微软的研究发现,脸谱网上90%的Hadoop任务数据集在100GB以下,雅虎的数据集规模平均为12.8GB,显然若按照上述标准,日常的数据集绝大多数都不可能入围大数据,可以说能称得上大数据的数据集的比例是很低的,但其规模则占了全球数据集的数据总量的90%以上。社会上对大数据的关注,更多的应引导到对数据资源获得与利用的重视,事实上,对未到TB级规模的数据挖掘也有价值,目前报道的一些大数据挖掘应用的例子,不少也只是TB级的规模。
  误区之二:要有解。决非结构数据挖掘的技术才能开展大数据分析。根据Cisco。公司VNI报告(2012——2017),在2012年末视频占全球消费者互联网流量57%,预计2017年此值为69%,如果计入P2P,2017年此值为80%一90%。除了消费者流量外,还有企事业单位的流量,其规模与消费者流量相当,2016年全部互联网流量中55%将为视频。视频是非结构性数据,视频数据集的规模都很大、日积月累自然就成为大数据,有理由相信大数据中90%都是非结构数据。对非结构数据的分析需要有先进的语义技术和基于元数据的标签算法等,尽管语音的机器翻译有了可喜进展,但视频图像的智能识别仍然比较遥远,2012年斯坦福大学与谷歌合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率只达到15.8%,可见非结构性数据的挖掘技术到实用还有相当距离。目前国内外都有很多大数据应用成功的例子,但基本上还是针对结构性数据,所以不必等待非结构数据挖掘技术的成熟,对结构性数据的挖掘是大数据应用的切人点。
  误区之三:数据样本的规模比普遍性更重要。这里涉及对被观察对象取样数据的密集度和时间或空间跨度问题,例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每秒的身体数据都记录下来,数据量将较前者高60倍,与按分钟记录的数据相比,其价值并不能增加。在相同规模下,例如收集身体约86400次数据样值,以秒为间隔的话,大概就一天,以分钟间隔的话就两个月,从保健的角度,后者的数据更有价值。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。我们讲数据挖掘需要有足够规模的数据,但前提是这些数据要有一定的时间或空间跨度,即具有普遍性。数据样本密度与被观察事件或对象有关,例如风力发电机装有多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度。
  误区之四:所有数据都等同重要。我们可以用多种类型的传感器检测环境污染,虽然各类传感器都是有用的,但不是等同重要的,需要依据检测不同的指标来对不同类型的传感器结果加权处理。例如根据蓝藻爆发强度与水质相关程度,在分析蓝藻可能出现时,将溶解氧、水温和电导率的数据加权值取得高一些,对氨氮、硝酸盐和PH值的数据则加权值可以低一些。此外,每一类数据的重要性会随关注点不同而变,一个人的身体状况可以用多种指标来衡量,显然所关心的疾病不同,与不同指标对应的数据其重要性也不同。同一类型的传感器在不同位置和不同时间收集到的数据其重要性也不同。以城市交通监控摄像头为例,在路口的摄像头,其作用就比非路口的重要,在没有车辆和行人的深夜,没有感兴趣信息的摄像数据没有保留价值,无需存储,但需要加上时间标签注明舍弃了哪一时段的图像帧,有些情况下需要对每一帧感兴趣的区域增加分辨率,而其他区域降低比特率。另外,同一类型的数据其价值也因收藏时间的长短而异,一般而言,时间间隔越久,其价值下降,因此存储的数据需要压缩以节省成本。
  误区之五:数据都是可信的。传感器收集的数据并非都是可信的,特别是历史上该传感器的数据与同类的其他传感器报出的数据差异很大时,该数据就应弃用。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已屡见不鲜。一些网站规定所有帖子不论是否真实一律对转发次数设置一个上限,从舆情收集效果看,人为的截尾导致失去真实性。基于搜索词频的判断不一定是独立随机的,谷歌的流感指数较为准确预报了2008年在美国HINI流感的爆发,但美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索行为,导致其流感指数估值出现了假阳性,远高于美国疾控中心的统计数值。基于微博的判断也不能代表所有年龄段的人群,例如利用微博也能分析流感的发生,但微博的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于微博的判断代表性不足。为了避免数据不可信,需要收集多源异构的数据,例如通过城市交通监控系统可以实时掌握交通流量,但如果加上政府数据和网民数据,就可能知道发生交通拥堵的原因。利用与历史数据的对比也容易发现数据的异常,通过用数学模型来检验,也有助于推断数据的可信性。
  误区之六:大数据挖掘侵犯隐私。大数据确实存在安全与隐私保护的隐患,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。大数据的挖掘与利用需要有法可依,我国需要尽快制定“信息保护法”与“信息公开法”、既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。美国政府公开数据是以城市的邮政编码街区为单元,给出统计的数据而屏蔽了具体住户的隐私。
  误区之七:大数据挖掘全靠技术。大数据挖掘涉及数据获取、存储、计算、传送、分配、挖掘、呈现和安全等环节,每一个环节都需要技术支持,大数据当然是技术问题,还是高技术问题,大数据技术已经成为国家间的竟争热点,也成为一门新兴的学科。但大数据又不仅是技术问题,前述大数据的挖掘需要法律支撑,大数据分析需要创新人才,大数据挖掘呼唤体制改革。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供与有关部门共享,导致信息不完整或重复投资,要打破数据割据的局面。政府信息公开将起到很好的带头作用。
  2013年6月英国北爱尔兰召开G8会议,签署了“开放我推宪章到提出数据开放五原则,即开放数据是基本要求、注重开放数据的数量与质量、开放的数据让所有人都可用、为改善治理而发布数据、开放数据激励创新。从这些原则看出,开放大数据是政府的责任,使用政府开放的数据是公民的权利,开放数据不仅有利于对政府的监督和完善社会的治理,而且能营造创新的文化并进而促进经济发展。因此大数据不仅是新一轮信息技术变革的特征之一,还将深刻影响到社会经济生活的方方面面。