大数据运营找哪个公司比较好知道了谢谢的说下谢谢?

2014年8月22-24日,由中科院深圳先进技术研究院、中国量化投资研究院、复旦大学管理学院、《上海证券报》社、Datawatch Corporation共同主办的&2014中国大数据国际高峰论坛&在上海银星皇冠假日酒店成功举办。500余位来自国内外大数据产业界、学术界顶尖级专家学者,国内IT、金融、教育、医疗等多个领域的精英代表汇聚一堂,展开深入的交流与碰撞,共同探讨大数据产业发展,分享大数据应用创新成果,剖析各行业数据分析难题,寻求解决之道。&&  蒋奇表示,在纯移动互联网这个圈子,大家都交的很响,也很热门。但实际上移动互联网本身能够产生价值的领域是非常少的,大部分的公司没有商业产品。但其实很多公司真的是很艰难的,他们靠融资找到很好的,除了一个领域,除了手游,手机游戏现在是手机互联网最挣钱的。但对于海量的一些CP的应用,他们如何生存是一个大问题。但其实他们这个价值过程的利用,拿到了很多用户的信息。这些数据其实是有很多潜在的传统行业消费的需求。&&  Karl Mouantri称,利用大数据可对市场进行实时监测,并且针对异常信息进行动态处理,从而将风险降到非常低的层级。对于监管机构来说,可以用来实时监测各大银行的核心指标,如资本充足率等,这是非常重要的。&举几个例子,在航空业,利用大数据可以实时监测飞机的运维量、仪表核心指标是否出现异常等信息;在电力行业,也可以通过实时监测发电站的核心指标对风险进行有效控制。&
主办单位:中国科学院深圳先进技术研究院&&中国量化投资研究院&复旦大学管理学院《上海证券报》社Datawatch Corporation承办单位:国泰安金融大数据研究中心(筹)复旦大学统计学系深圳市国泰安信息技术有限公司&深圳市中宽信息咨询有限公司支持单位:TalkingData协办单位:深圳市智慧城市研究院
开幕式及主题报告全程实录
主题:2014中国大数据国际高峰论坛时间:日地点:上海&肖志国:&&& 尊敬的须成忠所长、王春雷总、殷占武总编,各位领导、各位来宾、女士们、先生们,大家下午好!&&& 很高兴主持今天的2014中国大数据国际高峰论坛&开幕仪式,首先,请允许我代表本次论坛组委会,向各位的莅临表示热烈的欢迎!&&& 今天的开幕式氛围三各环节:主承办单位领导致辞、主旨演讲、主题报告环节。&&& 国内大数据技术,进入2014年以来,已经渗透到每一个行业和业务职能领域,被越来越多的机构、企业采用并获益。2014年是中国大数据创新、突破和腾飞的一年!权威机构分析:未来5年全球大数据市场拥有广阔的发展前景,复合年增长率将达到58%。其市场盈利将由2012年的50亿美元增长至2017年的500亿美元。然而,大数据在呈现出良好的发展势头的同时,也存在着许多急需探讨和解决的问题,国际上大数据产业发展的新趋势是什么?国内大数据产业发展存在的问题与解决办法是什么?如何运用海量数据和先进数据挖掘技术?等等。&&& 为了共同探讨中国大数据产业现状及未来发展,分享最新大数据的宏观视点及微观技术,促进中国大数据产业的发展壮大,由中科院深圳先进技术研究院、中国量化投资研究员、复旦大学管理学员、《上海证券报》社、Datawatch&Corporation共同主办,中科院深圳先进技术研究院国泰安金融大数据研究中心、复旦大学统计学系、深圳市国泰安信息技术有限公司、深圳市中宽信息咨询有限公司联合惩办的&2014中国大数据国际高峰论坛&今天在这里隆重开幕,出席本次论坛的有来自IT、金融、教育、医疗等单位的经营代表、政府代表以及高效、研究机构的专家学者共500多位嘉宾。&&& 本次论坛我们非常容幸地邀请到了中科院深圳先进技术研究院数字所所长、云计算中心主任须成忠先生;国泰安金融教育集团执行总裁王春雷先生;上海证券报副总编辑殷占武先生;AAAS/ACM/IEEE&Fellow香港中文大学常务副校长华云生先生;IEEE&Fellow国际模式识别院士,香港浸会大学、澳门大学教授唐远炎先生等重要嘉宾出席我们今天的开幕式。下面,我们进入论坛致辞环节。&&& 担任论坛致辞嘉宾的是国泰安金融教育集团执行总裁王春雷先生。王春雷先生具有复合专业背景、丰富的管理岗位工作经验和出色的工作业绩。让我们以热烈的掌声有请王春雷总。&王春雷:&&& 尊敬的须成忠所长、尊敬的肖志国主任、华云生校长及唐远炎教授,尊敬的各位来宾、先生们、女士们,下午好!&&& 首先,我谨代表中国量化投资研究院、深圳国泰安技术有限公司对2014中国大数据国际高峰论坛的召开表示衷心的祝贺,对大家的到来表示最热烈的欢迎。&&& 如果说互联网重塑了人们对交流一种新的模式的诞生。我们知道大数据标志着社会信息处理的方式,以及我们对社会认知上方式的改变,本届大数据国际峰会,虽是一个新的论坛,但却为我们大数据国内外业界、学界搭建了广阔的平台,今天我们聚集在此,我们的目的就是为了一个共同的话题,就是大数据。&&& 伴随着大数据的来临,世界各国对于大数据这个话题,以及重视程度,大家应该说是前所未有的。纷纷开发大数据作为新一轮制高点的重要抓手,实施大数据战略。2012年美国政府宣布投入2亿启动大数据研究和发展计划。视大数据为未来得新石油和矿产,将大数据上升到国家的战略层面。&&& 法国政府在其发布的数字化路线图中表示,将大力支持大数据在内的战略性高新技术。2013年日本政府在其公布的创建最尖端IT国家宣言中,明确年,日本政府将开发公共数据和大数据为核心的日本新的IT国家战略。欧盟各国,包括韩国等国纷纷紧随其后,透亮大量的巨资,在数据革命中占得先机。我国政府也出台了国家十二五信息技术工程规划等政策,这标志着我国对数据的开放共享和智慧的大数据时代已经来临。&&& 据权威机构统计,大数据已成为世界IT产业中成长最快的领域。作为大数据产业的重要组成,中国大数据潜在的市场规模,预计将达到两万多亿。然而伴随着巨大机遇的同时,我国大数据产业也面临着巨大的挑战。进入2014年以来,大数据受到各界社会的广泛关注。已经渗透到我们的金融、医疗、消费、电力、制造以及几乎各个行业。&&& 大数据的新产品、新技术、新服务也正在不断的涌现。但同时,我们都知道,随着大数据的应用,我们个人得隐私也面临着前所未有的挑战。所以说由此而来越来越多的关于大数据的课题,需要我们深入的进行研究、探讨和交流。本次峰会大家看到的主题,我们是以创新、突破、腾飞为主题。将围绕着大数据在国际上的应用,以及展望大数据在中国的机遇和挑战,大数据在金融行业、IT行业以及消费领域当中的各种应用。深入探讨和交流,这对于推动我国大数据未来得发展,应该说具有现实意义和深远的历史意义。&&& 参加本次会议的主讲嘉宾,都是来自于我们业界的领袖、精英、专家、学者,我们大家齐聚一堂一定会带来智慧的碰撞。让参加本次峰会的各位受到大的洗礼。我们两千年成立以来我们研究了数据库、各种虚拟实验室、以及我们在我们大学做的大数据研究中心等等,到目前为止国泰安公司已经发展成为拥有240多项专利和著作权,服务于三千多所高校和金融机构的一个专业的教育和金融服务公司。&&& 特别是2013年我们与中国中科院,先进科学技术研究院成立了,中科院深圳技术研究院国泰安金融大数据研究中心。一个集金融大数据政策和产业研究、杂志丛书出版、论坛峰会惩办,大数据高端人才培养等服务于一体的非盈利系的一个研究机构。其目的就在于研究和解决金融大数据发展过程当中的法律问题、政策问题、行业的发展以及技术专业职业操作和人才培养方面问题。以次更好的推动中国金融大数据在金融业的应用,以及相应的产品创新和发展。国泰安积极致力于人才培养、产业应用、政策研究和交流推广。本次峰会能够顺利的举行,我们要感谢主办单位的领导、诸位嘉宾百忙之中莅临本次会议发表他们的真知灼见,还要感谢我们在座的各位。我们有理由相信,今天我们在此开的这次会议,一定能够成为中国大数据发展历程当中的一个重要的里程碑。应该说我们在座的各位都可能成为历史的重要见证人。&&& 最后我预祝各位与会的嘉宾身体健康,并预祝本次峰会能够取得圆满成功。谢谢各位!&肖志国:&&& 谢谢王总的精采简化,下面,我们将正式进入本次论坛的主旨演讲环节。&&& 我们非常容幸地邀请到了AAAS/ACM/IEEE&Fellow、香港中文大学常务副校长华云生教授为我们做精采演讲。&&& 华云生教授,国际电子电气工程师学会(IEEE)、美国计算机学会(ACM)、美国科学促进会(AAAS)院士,现任香港中文大学常务副校长及伟伦计算器科学与工程学讲座教授。曾担任由伊利诺伊大学与新加坡政府科技研究局合作成立的先进数码科学中心总监。其学术研究领域涉及大数据应用及多媒体讯号处理,并获多项国际奖誉。掌声有请华云生教授!&华云生:&&& 感谢主办单位跟各位来宾邀请我来这里做演讲,今天我讲的演讲是关于大数据方面的挑战。&&& 这个项目我们是从2011年就开始在设想,跟中科院计算所设想这个研究。2011年底我们就计划举办会议,2012年5月的时候举办了会议,第一次讲关于大数据跟中国计算机学会怎么去帮助大数据能够做的更加成功。今天我们讲的项目是,这是我下面要讲的几项,第一个是大数据,因为大家对大数据都很熟悉我就不多讲了。下面我主要是讲在做大数据研究方面有什么挑战。主要是我们发觉在应用方面的多元化更多样性。这个是引起很多大数据方面很重要问题的挑战。下面我们看看国际上,他们在做什么事情,最后看看总结一下。&&& 第一个我就讲大数据。最有名的定义,就是2012年说大数据是在有限的时间内用现有的硬体、软体应用都很困难。我这里讲了五个&V&数量很大、速度快、模态多样、可信度低、获得价值非常高。这五个V在应用上很有价值。&&& 这有两种方面可以产生,一种是物力方面的,天文、生物的数据产生出来的拉开数据。另外一个可能是人为的产生,可能是社会网络、物联网、健康、金融、经济一些数据产生出来的大数据,大数据很糟已经在别的国家做了,最早的时候在美国做谷歌的时候,我们都不太相信谷歌可以成功,九几年底的时候谷歌刚开始做那个事情,我们觉得没有价值,可能是很困难的事情。但后来经过了十年的努力,2008年的时候,再一个英文的杂志上面讲,因为不同的学科在大数据上面产生新的问题,在里面讲的大数据对将来的研究有什么挑战。在2011年的时候,美国杂志Science。就是说产生很多新的机遇,这个机遇可以引起社会的发展。&&& 2012年讲的Complexity,是我们以前从来没有碰到过的问题,这就是大数据对我们的挑战。最近几年看到的会议,整天听到大数据,从以前两三年前听到不太多,但现在去到每一个会议都讲大数据,不管物理生物都讲大数据。但是不是都是大数据呢?大数据有没有什么新的挑战问题是人家没有发觉,是不是以前把很多database变成大数据呢?这是我们现在要丝毫的问题,大数据是不是一个科学的问题,还是一个工程的问题。大大数据也有很多新的价值,好像美国的health&care一年有三白蚁的价值。这些大数据的问题是不是每个人都可以做呢?每个人都可以做一些大数据研究的问题呢?&&& Gartner,就是2013年讲的一个Hype&Cycle,这个就是遭算什么的都讲。他说大数据是因为技术的产生,大家都做这个大数据。2011年大家就一窝蜂的跑去做大数据,2013年大家觉得这个不太容易做了,因为大数据声音讲的很好,但怎么用大数据呢?你把一个数据库放在手指上是不是一个大数据呢?放在一个计算中心是不是大数据呢?什么是大数据呢?所以在2013年的时候,这个问题是不太容易做的。&&& 但Gartner未来几年可能会增长的比较快,因为大家觉得比较成熟。甚至年可以是增长十倍。下面我讲一下大数据在研究方面的挑战问题,我第一个讲的就是大数据挑战问题有不同的多样性。第一个什么多样性呢?就是应用方面的多样性。应用不是一个方面的应用,不是在生物、不是在物联网、不是计算机,有很多方面的应用。&&& 由于不同的应用,就有更多不同的,像在数据、特性的多样性,数据不同的应用上有不同的多样性。下面有代表性可能也不一样,就是表示方法的多样性。这个也有应用方面的多样性所产生的。目标目的可能也有多样性,有些是这个目标,有些是另外一个目标,所以不同应用上也有多样性。算法也有多样性。一个算法可能会做一个事情,但不一定应用到别的上面。基建的多样性,有的基建可能不一样,有的是互联网,有的可能是物联网,对基建的要求也不一样。最后的是理论基础的多样性。我们发觉一个问题,就是说以前做的理论基础,能不能应用在大数据上面呢?以前做的复杂度,是不是能够应用在现在的大数据上面呢?这也是一个挑战的问题。所以我从这上面的七个多样性,就得到下面一个总结,就是大数据是一个现象。现象可能是不同应用层面上产生的现象,这个现象不一定有共通,每个人都讲大数据,但最后大数据是不是真正能够应用在不同场景上呢。这个是我们需要探讨的问题。&&& 下面我讲一下应用的多样性。应用的多样性,刚才我们讲的几个V,这四个V上面有数量、速度、多样性、多模态可信度比较低。有不同的着重点。看社会网络,可以看到绿色的线,可以看一看数量很大、速度很快,模态多样,可信度也很低。如果看的是红色的线,可以看到数量没有这么大,速度也没有这么快。模态也不是这么多,可信度大概是中等。所以在不同的着重点上,可以看到每个应用的层面是不一样的。所以这就是看到每个应用是不一样的。&&& 下面是社交网络,大家知道有很多,像博客、facebook。现在大家都在应用这个大数据,在互联网都可以用。这是很好的例子,就是大数据能够成功的一个例子。第二个成功的例子就是国家性的,他是开始的时候,NSA他设了一个很大的计算中心,这是一个生命周期,从要求到最后,整个是一个很好的大数据。这也是一个很好的例子。&&& 这个是美国大西洋的地方,就去量度海洋底下海洋的变化、气侯的变化是怎么产生的。最后一个好的例子,就是美国大选在2012年做的,他说美国大选根据网络上的研究,他从2012年实际的结果跟它的运算结果根本是没有什么分别。他为什么能做的这么准确呢?这可以说是一个数据,网络上有太多的数据,他把那些数据可以分析,但是不是有利做这个东西呢?这个是从2001年芝加哥大学毕业,做了四五年研究垒球是怎么打的,垒球的胜负计算,2004年做过08年的预测,但不太成功,06年才成功。怎么找到这个计算的方法,这个虽然讲是大数据,但不是说一天,你说大数据可以找到。&&& 最后我讲一下Factors,就是什么因素能够引起成功呢?我们看这几个方案,他们是工程解决的方案,他们不是追求理论上的优秀,不是追求理论上多漂亮,是一个工程方案,可能有些是有很好的经验,做了很久,有很多以前的经验,能够做出成功的方案出来,这是他们的一个因素。第二个因素,他们是做一个完整生命周期的设计。他们是开始从理念、要求、软体、硬体找到这些方案,然后找到这个方法,设计整个生命周期的方法。一个重要的地方,也从我们的经验发觉了,就是说做这个大数据主要关键的地方就是找到核数据,大数据是非常大的,你不可能把它下载下来,在上面做那个研究。其实要找到那个核数据,那个是最关键的。没有这个核数据就很难处理。&&& 我可以举一个很好的例子,谷歌。谷歌的核数据是什么呢?他上面的数据是非常大的,我们最近做的金融工程也发觉,上面找不到核数据是非常难做的。那个数量实在非常大,怎样分析,怎么做出来。这就是很关键的地方。&&& 第三个就是衡量成功标准。它每周出来的application都是有战略和经济的重要性。这些都是引起他们做这个研究做这方面的成功。&&& 下面我讲一下挑战的问题。这些挑战就是说我们可以看到在做大数据的时候,有杀手级应用。可以数出来什么东西都是大数据,这些都不是容易处理的。我们对这个大数据都是学科,不是一个人或者一个机构一个研究组可以做的。那不是容易地,因为很多是跨学科,需要很多人去合作做的。另外是怎么获取这些数据,有两个问题,一个就是缺乏客户群,你我说可以跟一个公司合作,但跟公司合作有一个问题,他不一定完全愿意把他已经做过的东西拿给你。我们发现跟这个公司做可能因投资了五六年,怎么去处理这些数据、用这些数据有很多研究计算的方法,虽然可以让你用这些数据,不会吧那些方法给你,因为他已经投资了很多年的经验,很多资源投资在上面,他把这个交给你的话,他不就是白做了,浪费了。上面的资源没什么共享。我们也是发觉做大数据的问题。&&& 下面一个问题就是难应付实时数据。第三个问题是缺乏和数据。当你拿到这个大数据,其实很多数据你都能拿到,但你拿到那些数据有没有用呢?能不能处理那些数据呢?这也是一个困难的问题。&&& 第三个,那时候我们说我们开始做大数据,但我们不了解做大数据,人家做了五年十年,但人家没有告诉你做的东西。我们开始跟一个公司做大数据,可能一开始没有这个知识。这个基建要需要很长的时间,算法也需要很长的时间。最后这个障碍,你可以跟很多公司合作,可以跟别的研究组合作,但这个合作不是很容易。因为合作的时候人家已经做的东西不一定拿出来愿意共享。做这些基建和算法他们做出来的东西根本是不能用的,但为什么拿出来呢?基建公司送给你呢,这也是我们碰到的问题,你去跟公司讲需要大数据,你要用他的大数据,他说可以给你大数据,但很多中心拿不到。&&& 刚才也讲了,美国在2012年他说有$200m在上面应用,他们很多基础已经做过。欧洲有很多是基于他以前基础的研究,他总共的投资大概是120m欧元。&&& 中国也是刚开始,最近几年才开始起来,好像你们在大数据白皮书里面看到,中国要做的方向。在香港我们也在做香港的,我们也在想怎么做大数据的研究。香港做大数据的人都说,他是做金融工程、健康档案、环境数据、电子学习、智能城市,这都是我们想做的大数据。但香港有各困难,香港没有太多的工业,很多时候数据都没有办法自己获取,除了健康的档案。&&& 最后我讲一下将来的展望。大数据本身的研究不是一个完整的学科,不是一个可以说大数据是一个学科,不是这样的一回事。他是跨学科的,是很多学科合在一起,可能很多是因为应用的要求,所以才产生,所以他的应用关系、应用知识可能是在生物、化学、生物计算机科学、数学模型,这都是可能应用到的知识。最后就是你怎么样把这些数据综合在一起。&&& 最后我要讲的就是大数据本身不是没有一个,每个人做的大数据的答案可能都不太一样。谢谢各位!&肖志国:&&& 谢谢华教授的演讲,从七个多样性方面讲了大数据可能面临的挑战,同时华教授提出了研究大数据成功的关键的因素。华教授提纲挈领的给我们的演讲,让我们再次感谢华教授。&&& 下面为我们做主旨演讲的是唐远炎先生,唐远炎教授是国际电子电气工程师学会、国际模式识别学会院士,香港浸会大学、澳门大学教授、重庆大学计算机学院客座教授,加拿大康可迪亚大学客座教授,国际电子电气工程师学会SMC模式识别委员会创办人、主席。掌声有请唐远炎教授。&&唐远炎:&&& 刚才华教授对大数据做了一个比较全面的介绍。我这里就做讲一下从模式识别中做一个应用的介绍。在座的我估计各位都不是模式识别的专业,我先做一下一个比较通俗的介绍。&&& 什么是模式识别,模式识别是不一样的,首先要学习,学习这套知识,知道了这个大致的形状。知道了这个知识,看到类似的东西以后,判断这是激光笔,实际就是一个判断,通过学习这套知识。我们举个最简单的例子,假如说两个动物,我们怎么识别?最简单的是找体征,最简单的是以高矮。学习,知道他是狮子,知道他是乌龟,看看他多高多重有这样的点。很多各种的不同大小,各种形状的乌龟都要这样测试,带着这样的数据,这就是学习的过程。再看狮子,狮子比较重,通过这个学习的过程带来的知识,我们会画一个线,怎么判断,这个线以上就是属于乌龟,这个线以上的就是狮子。这个是学习的过程,第二个是识别了,识别动物,不知道什么动物,我只知道这个坐标的位置在哪里,如果位置在下面,我判断他是乌龟或者是狮子。看这一点重的是狮子,这个是乌龟。这只是举个例子,关键还是看特征。&&& 我们看一个例子,以卫星图片,(听不清)。有三个8位的,就是24位在图象当中的一个点。&&& 现在我讲一下就是图象识别当轴的大数据举个例子,现在澳门赌场,赌场的监控是非常厉害的。这个是赌场内的摄象头。一个赌场里面有上万个摄象头,而且花费巨资,要花费几个亿。澳门的来往人口是非常多的,据说一年是三千多万,这都给我们监控识别带来了很大的困难。下面我讲一下模式中的几个例子。&&& 一个例子大家都知道周克华事件,他从重庆、湖南、江苏杀了八个人。破案是怎么破的呢?是人工,用一千个民警用两个月的时间调度监控视频,2009年12月份就发现通过两个月以前的视频发现了他的特征。就是走路的行为特征爱耸肩膀、八字脚,喜欢往后看。这个模式成为了行为特征。我们看看人的脸、指纹、手纹的特征,这些到死变化不大。第二个特征是行为特征,签字的特征,走路步态的特征,打字的特征。首先我们看周克华的走路特征,三个特征是什么?2012年发现这个人了,后来跟踪到网吧,这是拍照以后拍到了这个投降。一下被他身边人知道了,这个就是他本身的特征了。根据这个特征再进行追捕,最后把它抓住了,这是一个例子。但很遗憾,这是一个人工的,花两个月的时间侦破。前后八年,最后看图象是两个月。这个是更失败的例子。这个是3.4长春倒车杀婴案。这是个非常失败的例子。&&& 另外一个很重要的是,高光谱图象。高光谱图象跟普通图象有什么区别呢?左边的是我们的普通图象,红色绿色蓝色组成了这个图象。但卫星的图象是高光谱图象,是有各种不同的波段,大部分波段眼睛是看不见的,超红外、红外、紫外、超自外的,高光谱的一个点包含了上千个数据。&&& 这是一个美国应用非常好的,利用高光谱下非常成功的例子。他在农业上、矿业、军事等等。这个是军事的应用例子。这是一个美国的战机。这个英文是这样讲的,在4.5公里高,能够看到淮海西路,4.5公里就可以识别出来。这个发现了这个目标,他的信号是建立卫星,把信号传到地面站,地面站继续监控。地面进行这样的识别,这是一个弟子,就是阿富汗当中,他在阿富汗这个东西,通过高光谱处理,发现了这是个机场,有一些小的战斗机大的轰炸机,就摧毁了。又发现一个恐怖分子训练营,最后把这个摧毁了。这个是美国用这样的技术处理高光谱图象。&&& 我们再看一个医学上的例子。这是我前几年到美国访问的时候,他们告诉我美国国防部给他30亿人民币看女性乳腺癌的早期诊断,在美国每八位女士就可能有一位有乳腺癌。最主要的是用X光片检查。这是一个数据,30岁,最左边的是年龄。绿色代表是良性的,中间是代表恶性的,最右边的数据是代表死亡数据。我们看到30岁高峰,50岁已经很多了。乳腺癌成活率是85%,血癌是43%,肺癌是14%。一个妇女50岁的时候发现乳腺癌了,有一半的女士活到70岁。就是我们人类局统计现在平均年龄67岁,全世界的。他超过了67岁。所以为什么投5亿美元做这个事情。&&& 但我们看看它的困难在哪里。据说乳腺结构非常复杂,这是看看,大家哪一个突变时乳腺癌?2014年统计美国人口是3.5178亿。大家知道我们现在都是用医生来看,假设用一万个医生来看,每个人一年要看一万张。他也从这个当中来判断你是有癌和没有癌。对这个数据处理现在都是人工处理。看这两个图片。我不说不知道,上面是良性的,下面是恶性的。所以我们到美国去访问的时候,医学院和计算机系联合起来,用这样的手段处理这样大的数据。假如说我能够达到一半的要求。这也是一个非常典型的大数据的挑战。&&& 现在云计算有了就方便了。大数据有两面性,大数据是财富,云计算是挖掘和利用财富的神器。云计算和财富是硬币的两面。云计算是大数据分析的方法。大的计算以前是不可能做的,现在用了云计算的方法可以解决了。大数据是云计算重要的应用。&&& 当然了,云计算与大数据的关系是动与静。云计算强调的是计算,这是动的概念,大数据是计算的对象,是静的概念,所以没有云计算,大数据价值无法被提取,没有大数据,云计算无用武之地。像以前有的数据不能做的,现在可以通过云计算。&&& 以上是我把一些成功的例子非常简单的给大家做一个介绍。谢谢大家!&肖志国:&&& 感谢唐教授的精采演讲,模式识别是大数据运用中的关键技术,刚才唐远炎教授从乌龟和狮子的判决讲到了。还有大数据的一些事件,而且通过这个卫星拍的照片可以发现机场,轰炸掉。这个中国不知道有没有这样的技术,我想这是非常感兴趣的。如果真正通过模式识别发现的话,可以提供巨大的帮助。总结一下唐教授提出来的模式识别和大数据具有巨大的应用前景,让我们再次感谢唐教授。&&& 今天下午的主旨演讲环节到此结束,下面我们进入主题报告环节。首先是本次论坛的主持报告A环节。&&& 这个环节的主题是:&数据之巅:大数据在国际的应用于展望&。我们非常容幸邀请到了:ACM/IEEE&Fellow,美国俄亥俄州立大学Rebert&M.Critchfield讲席教授张晓东先生,Datawatch亚太区执行总裁Karl&Mouantri,Datawatch为产品总监Scott&Southward,TalkingData副总裁兼联合创始人蒋奇为我们带来精彩的演讲。&&& 张晓东教授是国际电子电气工程学会、美国计算机学会会士,美国俄亥俄州立大学的robertM.Critchfield讲席教授。2010年获中国计算机学会海外杰出贡献奖。主要研究方向为计算机和分布式系统中的数据和存储管理。由张教授主持研究的一些核心算法和系统设计已被广泛应用到主流的CPU芯片,以及主要的操作系统、存贮系统、系统和大型的分布式系统中,有效地优化更新了计算机系统中的一些关键技术。&&& 让我们有请张晓东教授。&张晓东:&&& 谢谢主持人的介绍,我想在今天的25分钟,对大数据数据处理系统做一个简单的介绍,目前国际上在做一些什么样的事。在介绍之前我想简单的把整个计算机系统整个70年的发展做一个介绍。&&& 从30年代开始计算的第一代发明,并不是我们教科室看到的,其实是一位德国的工程师和德国的教授做了第一台。这个时间整个计算机的发展,被计算机计算。这个漫长的发展有60年的历史,有什么呢?计算机的结构、还有非常常用计算的软件。到了第二个阶段,就是从90年代开始,这个口号当时叫computers&as&networks&,这时候开始计算机并不只是计算,是为通讯而做。我们看到1986年到1993年,当时增长了68%,在2007年的时候,增长了29倍。我想今天在这个屋子里面,每时每刻有大量的数据从屋子里面流出去,大量的数据流尽这个数据里。我们今天到达了什么样的时代呢?这句话也不是我在这里说,是谷歌根据他们所工作多年的经验,他们认为现在计算机&从这个世纪开始起&。&&& 我们这个年代最大的变化,就是我们所有的事情,可以说都是变成数据。包括我们今天的会议,全部变成了数据华。而且我们所有数据化这些都被留下了。这个原因刚才两位教授也讲了,为什么能产生,为什么出现这样的现象,主要的原因是在我们计算当中有两件事发生了巨大的变化,一个是空间上,一个是时间上。空间上是什么?我们有无限的存储空间,可以把所有的数据存下来。另外也就是说由于计算,由于整个计算技术的发展,我们在存储一个数据的时候,啊它的延迟点非常少。所以到今天我们处于什么样的时代呢?经历过80年代的时候,我们有一个运动也好一个时期也好,叫做实践是检验真理的唯一标准。今天我们一句话是数据是检验真理的重要标准,不能说是唯一标准。&&& 我们说到数据,这张图,我知道今天还有很多做商业和经济的同学和同事,从我们的领域我们知道数据访问的时候有这样长尾的效应。计算机设计的时候,一直在关注前面最频繁的访问,这个我们叫小数据。我们过去几十年的研究都是这样的研究,所以我们可以把计算机系统分成一个层次性的,这样有各层。所以我们的目的是什么呢?他是有层次的,其实我们是抓住了最关键的这个,核心的数据,只要抓住了核心数据就可以了地&&& 我们怎么可以得到locality呢?可以在计算机的各个领域。所谓locality过去几十年一直在做这样的工作。我们看看发生了什么变化。这个图我们还是用刚才说的长尾的效应,这是一张商业图,是在美国一家公司做DVD的是叫一个DETFLIX,这个蓝线下来的时候只有4500张,这个4500张光盘最关注的还是前面的20%。到了2005年的时候,光盘数量变到了18000张。这个可以发现做访问的时候发生了很大的便。最高的地方已经变的很好了。人们并不关注最高的,18000张光盘的时候,我们每张光盘访问的速度是一样的。&&& 所以人的兴趣发生了很大的变化,我们可以看到这个长尾的效应发生了变化。我们再看,如果说到了2010年的时候,已经变成了10万张光盘,这个长尾又发生了变化,整个曲线已经不是长尾的效应了。整个过程就是大数据的变化,大数据的变化,很多做数据访问的时候,人们更加关注长尾。&&& 我再举个简单生活中的例子,大家可能看过一个电影叫做《山楂树之恋》。是张艺谋拍的,我们知道一个电影导演,能够一小说拍电影的时候,一定是这个小说经过了无数次的筛选。《杀渣树之恋》这个小说没有经过任何的筛选。这个小说其实就在长尾,由于大数据的出现,由于我们的数据可以放在长尾,可以使任何人都公平,这个时候我们发现数据在长尾上是非常重要的。&&& 我想回答一个问题,什么是真正的原因我们出现大数据,真正的原因,第一我问一个问题,如果我们生活当中每一个行为都变成了数字化。同时都把它存下来。这个时候我们说,这么多数据我们存得下去吗?我们可以存吗我们能够有足够的空间存下来吗?我们能够去把它很快的访问到吗?第一个问题可以回答,技术发展什么呢?我们可以把所有的数据记下来,同时我们访问的时候它的延迟也非常短。&&& 下面紧接着另外一个例子,如果这些数据都没什么用的话,我存了它也可以把它删掉,其实人类社会当中有一个东西,我不知道叫什么,是叫Waste&Manage,我们各个国家都有这样的一个。我的问题问的就是这个。就是这些数据有没有价值让我们来做,我想这个答案是这两本书给我的。第一本书就叫LONGTail,过去看到长尾上面的那些点,今天价值已经变了。第二本书叫THE&WISDOM OF CROWDS,这本书告诉我们普通人如何CROWDS。建议大家读读这两本书,大数据最核心的就在这里,长尾上面的数据是不是今天可以拿过来有新的价值的。如果今天我做数据处理的时候,长尾对我没有用,过去没有用,今天也没有用,那就不是大数据。&&& 我们看看过去的数据库系统。为什么说过去的数据库系统不能应用今天的大数据。我们看数据库系统最基本的核心是什么?是将数据,把数据挪到计算当中。这时候有它的规则,就是所谓的ACID。这个从70年代开始,这个本身来讲你爱完善这个系统的话必须从硬件的角度加速。如果我们要从这样系统的话,按照这样的规则做这个系统的话,是不可能有的,我们不能做到将很多的连在一起。&&& 整个这个过程当中还有一个商业的角度来讲,这个是从技术上和商业模式。今天我们知道数据这么大,他原有的模型我们今天是用不到的。我想说,我们今天做这样事情的时候,这么大的数据我们怎么处理这样的数据?&&& 我讲一个例子,150年前在美国,美国当时还是非常落后的农业国家,他时候欧洲已经经历过工业革命,当时林肯的政府,在南美正在领导的北方联邦军和南方的军队作战。当时林肯想,胜利以后美国如何成为现代的国家。当时美国教务是非常落后的,只有少数的几所学校。如果能够使教育大众化,这个学校的教学发展,当然说有两种模式,哈佛这些大学都扩招过去,那是不可能的。因为我们知道美国私有财产是神圣不可侵犯的。这时候必须有一个新的高教的模式。这个模式是什么呢?这就是1862年林肯总统签署的法案,就是增益。怎么样做大学呢?就是我把这个地卖给你,你可以建大学。我们可以想象这种大学建起来是非常简单的模式,这个非常简单的模式,它的教室等等的非常简单。这时候他所做的工作,他教育优秀的精神是不变的。我们看今天经过了100年之后,这些大学是什么样的?我们看看麻省理工学院、伊利诺伊大学等等都是这样成长起来的。我金坛讲的是什么意思?今天的大数据是过去远远那种非常商业化的数据库的结果打破的。&&& 我们必须建立新的数据处理的模式,这就是一个数据处理的模式。我们今天用数据处理模式的时候,第一个是跟过去相同的地方,这个模式还是一样的,交界面一样,用户没有感觉不一样。什么是不一样的呢?最主要是计算模式的变化。&&& 做这些工作的时候,access有很多的多样化的时候,这时候不一定是有效的,不一定是重要的。下面我们最大的担心是什么呢?一个就是随着数据的增加,我们的节点也要不断的增加,容错性非常高。这些问题过去都没有。&&& 这时候就出现了一个MapReduce,我今天不是主要介绍这个。Hadoop为本身就是它所做的工作在里面。&&& 我简单再说几句,有一个在上面,就是讲HIVE,这个是搬在hadoop五上面做的。HIVE本身是一个SQL,从数据量来讲非常大,facebook有300PV的数据。整个解读也是一个数据仓库,但整个设计全盘发生了变化。我们看看发生了什么变化?我们看看HIVE最大的用户除了facebook最大的就是淘宝、百度、腾讯。我们可以看到整个新的大数据的系统,我们可以看到这样的结构,今天我们分析大数据的结构,这个是必须用非常廉价的结构支撑这个系统。怎么做呢?从这个角色,这个是一样的,我们变成各种各样的,如何执行这些Stage呢?这个问题在什么地方?就是你如何从这里根据这个做优化。&&& 这样我们可以看到在整个系统当中有新的挑战在里面。我总结一下,我们可以看到整个做工作的时候,我们过去的三年也跟HIVE一起做。第一个是format。&&& 我们今天的大数据是在长尾上大家不关注的,要去关注。还有就是说如果数据量越大,我们就进入了大数据了。&&& (大部分是英文,没法打)&&& 大学本身也是起到非常重要的作用在里面。大学里从公司的角度来讲,从它商业的目的,他一定要进入。所以说我们说今天我们要做两个事情,一个是市场,一个是ecosys,这两个使得我们必须要做。他本身做什么呢?首先一点,software本身是users提供的。&&& 时间到了,我就讲到这里。谢谢大家!&肖志国:&&& 感谢张晓东教授的精采演讲,刚才张晓东教授从计算机的系统发展过程开始讲到计算机从早期作为一个大背景,从DVD的租赁和中国的《山楂树之恋》的电影拍摄,张教授讲到大数据真正的原因,讲了两本书我觉得大家应该真的看一看。对于如何处理大数据建立了一个新的系统。张教授从一个美国大学的故事开始,刚才讲的这段历史,确实也回答了我心中长期以来的疑问。刚才张教授一解释,使我心中的疑惑一下开了。&&& 张教授讲到了当前大数据既然要建立一个新的模式,这个新的模式目前最流行的HIVE系统,开源才是大数据研究最重要的基础。我们通过张教授的演讲对大数据的理解又加深了,让我们以热烈的掌声感谢张晓东教授!&&& 下面这位演讲嘉宾是Karl&Mouantri,Karl&Mouantri先生曾任海波龙公司副总裁及亚太区董事总经理16年,是海波龙业务遍布亚太区域的开拓者和建立者,在商业智能、绩效管理、审计和企业管理咨询领域有着超过25年的从业经验。加入Datawatch担任亚太区执行总裁,实现了公司业务遍布整个亚太区域。让我们掌声有请Karl&Mouantri。&Karl&Mouantri:&&& 非常感谢大家的到来,我很容幸在这里见到大家。他们安排这个时间给我,是因为这个时间大家要打瞌睡了,我希望我的演讲不会让大家觉得太无聊。&&& 首先我们来介绍一下Datawatch实验公司,大家应该知道这两个是什么意思。这里是Datawatch的一点背景资料。Datawatch是一个传统的像大家所了解的美国梦的公司一样,是波士顿地区建立的,有很多来自于哈弗、麻省理工学校非常优秀的人一起建立起来的公司。Datawatch是在纳斯达克上市,原本是一家非常小的公司,现在是在快速的发展。因为Datawatch的公司实在是太酷绚了,一家科技的公司,他们不知道怎么定义Datawatch,所以去年2013年给了他们一个称号叫做CoolVendor。最下面一行大家可以看到的是Datawatch的一些合作伙伴,大家也可以看到有SAP、IBM这些公司。这些大公司要和Datawatch一起合作。&&& 我们跟世界500强以及世界前一百强的大部分公司都有合作,因为我们刚刚进入中国市场,我们是跟国泰安公司一起合作,我们今天非常感谢国泰安公司,也非常容幸在这里见到大家。&&& 大数据领域以及商务分析领域有一些重要的变革。我们经常会强调实时的概念,越来越多的行业发现实时的数据分析变的越来越重要,原因就是我们用实时的数据分析和数据可视化,会在我们的业务层面,以及无论是营收还是成本方面都可以为我们带来更大的提升。我们在这里可以看到数据库演变的进程,最初我们有的是传统的,再后面我们会有分布式,然后有内存数据库,最新的是流式数据。过去这些年我们看到像甲骨文、SAP这些公司赚了非常多的钱,就是靠卖数据库这样的产品,这些数据库一般是静态的数据库,当你拿到这些数据的时候,这些数据可能已经过时了,这时候对我们的业务是有应该的,我们拿不到最实时最新的数据。其实今天在下午之前几位嘉宾都讲过了关于实时数据分析,这里我想说进入大数据时代我们很多时候做数据分析,我们不能再等待,而且我们是需要实时的数据分析,需要更快的决策,这样才能帮助我们的业务增长。&&& 左边我们可以看到一些传统的做数据分析的产品,这些告诉你的是你已经知道的信息,不会告诉你不知道,但应该知道的信息。这些我们定义的就是正在睡觉的数据,这些数据是静态、过去的。几周以前我在香港见了很多CIO,他们会花很多的钱进行数据仓库的搭建,当这些数据仓库建好的时候,对我来说业务已经改变了,这时候数据价值是很有限的,我要不断对新的业务进行调整。所以其实我们更加关注的是一些流式数据,当数据正在发生的时候,就是我们最新鲜最滚热我们需要了解数据背后信息的时候,我们不能等待,需要尽快知道这些数据背后的价值。我们认为静态的数据是有他存在价值的,但不足是在于当我们拿到静态数据的时候已经是过时了,已经是旧的数据。而大部分的时候我们需要的是时时的数据,所以用传统BI的方式无法满足大部分的需求。我们要的不仅仅是企业内部的数据,更加要得是公司外的、行业里的,数据正在发生的数据。&&& 我们现在正在做的事情就是用Datawatch来检测正在发生的埃博拉病毒,我们在检测各个机场或者其他地方一些实时的数据,这些我们不可能从静态的数据流里面找到这样的数据,而是从事实的数据流里面找到信息,并对患者进行实时的检测。对我们来说第一步我们要发现数据之中的价值,就是数据理念信息,第二个是我们获取的信息,需要立刻采取行动。比如说一些零售企业的管理者,以及物流企业或者是电力行业的管理者,很多时候他们进行决策的时候,需要的不是静态的数据而是实时的信息。&&& 我们举个例子,刚才说到实时数据对我们做决策和行动进行指引是多么重要的。这里可以看到电商行业如果能实时分析现在销售的情况,我们就可以看到哪些销售的好、不好以及我们需要做什么样的决策应对这样的趋势。再举另外一个例子,就是我们在上海会看到上海的交通情况有时候比较糟糕,同时我们在曼谷会看到类似的情况。曼谷我们跟世界最大的零售商之一,我们暂时不能说名字,他们需要保证每天早上六点钟左右的时间,所有的物料、库存哪一家店都可以是满足的。这种情况下我们就需要实时的知道现在的交通情况是怎样的,我们哪一辆的货运车到了哪里,这样才能保证库存每家店都是可以最充足的,这时候对实时数据的要求非常高。我们看到现在经常处理这些实时数据分析一般是IT部门,但我们认为最需要实时数据分析的是业务部门的人,是真正业务层面做数据分析,而且是能够帮助他们做决策人,他们是更加需要实时的数据分析。站在我们右边的这位同事,他正在一家大型航空公司做实时分析的项目,帮助这家大型航空公司把他们飞机实时消耗油的情况,以及运转的情况进行实时的分析,这样可以帮助他们减少燃油的消耗,以及在运营商可以做的更好。我们可以想一想我们下一代新时代的分析方式,第一个是数据可视化的概念。我们现在说的大数据非常重要,也是至关重要的一点,我们人不可能去看到海量的数据,我们一定要数量可视化找到数量当中的信息,这个没有别的办法,一定要做数据可视化实现。英文里面有一句谚语,中文可能是&一图胜千言&。&&& 这里我们有很多非常符合人类视觉原理的图表进行数据可视化。为什么要用这些?我们经常看到卫星云以及天气,我们不会找有多少数据在里面,我们只看图就知道发生了什么事情,其实这是一个大数据非常好的概念,我们把海量的数据用图表的形式展现出来。我们有了数据可视化模板之后,我们看到了结果,一些重要的信息,再往后我们才可以在上面做预测性的信息以及未来更多的决策,这些都是数据可视化的基础上。&&& 下一个是数据的实时处理速度。这里我们会说一下关于数据的实时处理速度的重要性。我们也认为其实静态的数据是重要的,但我们更加需要的是这些实时的数据进行图表式的可视化,让我们更快的发现有效的信息。&&& 这里我想让大家听完我的演讲之后带走一些重要的信息,这里我想重点讲的,当然我的演讲比较无聊,希望大家不要解药,一个重要的词就是&CEP&。我们在这里说到CEP就是复杂事件引擎的概念,就是希望大家知道,我们现在再处理一些重要而且是非常复杂事件的时候我们需要这样的引擎,这样的引擎可以帮助我们把一些非常复杂的事件在一些而且是对时间要求非常高的实践可以定义出来,并且最重要是我们定义了一些事件之后可以实时的根据这些事件发生的情况做决策。&&& 现在我们看到每一个行业都在越来越重视CEP,现在我们看到更多的就是疙瘩银行、投资银行、资本市场公司都在使用。谁说我们不可以在其他里面使用,比如说零售、医疗、物流等等。这些里面其实我们可以大量的使用,或者开始尝试使用CEP引擎,有了这些之后帮助我们业务进行一个飞跃式的提升,这也是我们Datawatch一直做的事情。现在很多公司有很多数据库,我经常见到很多公司高管说,现在有了数据,可能在昨天是对的,但在今天业务可能会有新的变化,这时候你可能需要实时的数据。这个就是历史数据苦一个根本性的问题。所以我们需要新的方式,让我们变的更加敏捷,让我们业务变的更加敏捷。这些是我们需要注意的一些正在发生的。比如说物联网、网站的点击率等等。刚才已经听了几位嘉宾都提到了多样的数据,现在的数据有结构化数据、半结构化以及非结构化数据。这都是非常重要的数据源。现在我们看到我们有很多非结构化或者是半结构化的数据,比如说银行里有很多报告,或者是PDF频道,有各种各样的。这些都是在银行里面或者是其他的地方都在广泛应用的,但重要的数据源。在Datawatch我们不是特别认可数据仓库这样的概念,我们会希望去数据源直接抓取数据,而不是把数据存储到一个新的地方,这样的概念。我们会倾向于直接去数据源连接数据。如果在传统意义上,我们把数据之前处理过,摆在数据仓库进行分析的话,会有很多数据之间的价值就消失了,而且是不可逆的。所以我们认为直接去数据源抓取数据,对我们找出数据最有价值的信息是非常有帮助的。&&& 这里我们会看到SAP、甲骨文等等会有非常多的半结构化的数据报表,这些我们要进行快速的处理非常麻烦。我写需要其他的像税单以及其他各种各样板结构化的数据。对于这种数据来说,我们就不会说把它的数据放在一个新的数据库,而是我们直接和数据源把这些数据抓取出来,这样确保我们不会丢失任何重要的信息。有些时候我们会看到一些,比如说系统日至,这些都是半结构化的。我们愿意分享一个成功的案例,就是我们为香港两个最大的运营商做的案例支持,我们帮他们实时处理半结构化数据源,并且实时抓取出来,帮他们分析实时的网络成本以及其他重要网络检测指标,这样我们帮助他们进行业务的提升。这个确保这些电信运营商可以在任何时间、任何地点都能看到他们网络中最实时正在发生的事情。我们在西辽行业的应用,在美国、英国很多医疗数据是通过835、EDI这种协议进行传输,我们会抓取很多信息进行分析,因为我们不能去医疗数据库里面抓取,因为这是不合法的。所以我们直接在医疗数据源这里对他进行分析和处理。我们可以实时的检测正在检测客户的心跳或者是血压指标,同时再联系其他的数据源找出类似的指标进行对比这些都是可以实现的。&&& 我今天跟大家案例在我们应用案例的第55到58页可以看到,我们对提升医疗行业的数据分析能力。58页可以看到我们如何定制实时监控,上面每个点就是用不同的颜色代表病人实际的情况。这里我们就不会再更多的强调,大家可以在书里面找到很多我们其他行业各种各样的应用。&&& 下面我们就会进行Datawatch产品的实际演示,但这是在金融行业真实的案例,我们外面有一个展台,大家会在那里看到更多展示的信息。&&& 非常感谢大家的时间,希望有更多的时间跟大家交流。&&&Scott&Southward:&&& 非常感谢大家,我们在这里会给大家展示一个市场风险检测的展示,这也是我们向大型金融机构做的真实的案例。我们会以非常简单的例子讲一下怎样检测他实时交易风险的情况。&&& 我们现在这里看到的是最原始的数据源,这些大家看到的就是在电子表格里面看到的数据,这些数据非常难懂,第一看不清楚,第二个他们的实时变动很难快速找出有效的信息。在这里我们可以分层级的分析这些数据,比如刚才拉到最左边的全球,以及到地区国家以及到办事处。这个我们加了一个非常简单的因素之后,我们把颜色加上去了,这个就可快速的找出哪些是值得我们关注的信息,因为人看颜色是更加敏感。如果我们再稍微深一点,大家可以看到,这个还是类似电子表格,但再近一点,也是相对比较简单的。这里如果我们深入一层的话可以看到更多更加详细的信息,比如看这个散点,这个都是风险交易的情况,都是实时的。我们看到不是这些数据,要看这些异常值,这些是我们重点关注的地方,可以非常快速的发现。&&& 这里是可以告诉我们一个例子,我们怎么样在事实的数据流里面快速的抓取我们之前不知道,但是应该知道的信息,并且采取行动。这里如果我们觉得这一笔交易是值得我们关注的话,可以直接右键点击看更加相近的信息,看这个交易台力争在发生实时的情况。在这里我们点击了就可以看到正在实时发生的那个地点、那个交易员正在做的交易以及过去的交易,正在发生事情。3刚才我们提到我们可以由多种层级的进行数据分析,最初是每个州每个国家,最初的情况还都是比较好的,大家都是蓝色的,比较健康的。如果再往下就可以看到有些地方出现了红色,可能就值得我们关注的地方。如果我们再下面就可以看到每个地点、哪个交易所、哪个交易员做的事情,这个对我们更加有用。&&& 在这里我们可以看到正在实时发生的交易情况。如果我们想再深一部看那个交易员那天做了什么事情的话,可以看这个,特别的回访功能可以看到交易员当时做的哪些事情。Karl&Mouantri:&&& 我补充一点,大家知道在金融市场交易的时候,尤其在金融海啸的时候,可能就是一两个异常的交易就可以把整个市场搅的天翻地覆。这里我们可以看到大型的货币组织会投入大量的资源,检测防止这些系统的风险发生。这里可以看到我们怎么样实时检测这些风险。Scott&Southward:&&& 我们在这个回放功能可以实时的看到这个交易员过去做的交易哪些是有问题、有风险的地方,我们可以看到按时间序列很快的找出异常值。因为时间有限我们在这里就不会再次深入,我们外面大家可以看到其他的电商零售行业实时做的解决方案,大家有兴趣可以在金融市场继续深入的讨论。非常感谢大家!&国泰安:&&& 这里我也想补充一点刚才我为Karl&Mouantri和Scott&Southward翻译的这么多,我是国泰安的蒋&&,我们希望把这个公司带到中国来,我们为什么希望他们过来,因为我们在衡量很多国内外分析数据公司之后,我们认为Datawatch是非常不一般的,能给我们带来非常创新方法的公司。现在我们国泰安跟Datawatch是合作伙伴,我们把Datawatch带过来希望给大家全新的冲击,让大家知道大数据源可以是这样子的,对于我们每天的生活来说可以给我们带来这么多不一样的东西。也让大家知道大数据都可以给大家带来不一样的。如果大家对我们国泰安大数据方面做的事情有更加多的事情,我们外面的展台同事会跟大家做更加深一步的沟通,谢谢大家!&肖志国:&&& 谢谢Karl&Mouantri、Scott&Southward,中国有两句话Datawatch吸收的精髓,一个是时间就是金钱,另外一个就是百闻不如一见。刚才我们也看到了Datawatch它的核心特点,第一个就是及时的可视化。这个可能在我们现在当前的大数据时代,数据如潮涌般涌过来的时候是非常重要的。另外一个是CEP,能够处理非常复杂的事情,这也是对他们将来的应用,起到了非常重要的支撑。刚才我们可以看到Datawatch的产品确实非常酷,非常的漂亮。我相信将来可视化这个行业将来在大数据里应该有非常广阔的应用情景。我们也祝愿获得更大的成功。&&& 下面我们演讲的嘉宾是TalkingData联合创始人蒋奇先生。我们以热烈的掌声欢迎蒋奇先生。&蒋奇:&&& 谢谢大家周末抽时间过来听我的演讲。我要讲的内容可能跟之前的几位讲的不太一样。因为TalkingData本身是一个比较特殊的公司,我们做的事情跟在座各位日常的行为是有相当紧密的关系。一会儿我演讲中也跟大家简单的介绍一下。首先是这样,大家看到这个PPT写的是世界杯期间你看球吗?这个是过去的事情。我用这个讲一下移动大数据化的能力。&&& 这个报告是世界杯首日开幕式结束以后,第二天我们出具了这样的报告,基本深核心的内容是讲世界杯之后的时间段里面,整个移动互联网侧所有的视频类应用各种各样的表现趋势。大家一定要注意,这些数据我们不是抽样的,都是实时的从里面提取的数据。这些数据的贡献是谁?就是在座的各位,目前我们能够覆盖的移动车数据,覆盖得有8亿台,手机加上平板。如果不出意外的话,在座的所有用智能机的同仁们应该都是TalkingData的用户。但大家感觉不到,这个是很有意思的事情。一会儿我会讲它的意思是什么。这个可以简单看一下,基本上内容比较好的可以从它整个用户增长看出来。像CNTV的新浪体育,这个对于真球迷肯定是有价值的。这个是新闻客户端的数据,野鸽主要是对我这样的伪球迷第二天看球准备的,这里面主流的媒体也做了统计和分析。&&& 这里是一个简单的公司介绍。这里我想讲一下TalkingData数据复杂是怎样流转的。可以这样说,在传统的互联网领域,互联网价值是比较低的,因为很多数据模式提到的数据不能唯一的标识一个人。每个设备后面都对应一个人,所以我们去确定一台设备,以及这台设备对应这个人的行为不断做画像,打标签,我们就有可能了解一个人在现实生活中各种各样的属性,人口学属性、社会属性、购买形象诸如此类。这些信息不是敏感信息,但通过相应的算法是能够做一个概率推算的。这个是TalkingData在数据方面的一个基本模式。我们怎么拿到移动互联网的数据呢?这个也非常简单,大家用的智能机里面有各种各样的APP。这些是由各种各样的开发团得开发的,这些开发团队共同的问题是产品不管好与坏,扔到市场以后不知道用户的使用情况,比如说用户的登陆、下载、激活,在APP里面的操作行为,很多的东西都是不知道的。怎么办呢?我们提供给他一个通用的云端平台,让所有的应用开发团队上这个平台了解他所有发布的APP。在使用中用户的行为。以及对这些行为做相应的统计和分析。这个是靠SDK实现的,这些SDK会随着应用一起到用户。这个过程当中TalkingData,TalkingData提供的是服务,得到的是这些数据的使用权。用这样的模式覆盖了整个移动互联网几乎所终端数据。&&& TalkingData现在合作的应用大家有四万款,像大家比较熟悉的植物大战僵尸、嘀嘀打车、360、唯品会等等,基本上大家能想到名字的。这个是广告页,我不多讲了。&&& 刚才提到的是什么呢?实际是TalkingData在移动测数据的积累情况,实际上TalkingData我们真正希望这些数据产生价值是什么领域呢?其实是领域。大家可以这样理解。其实在纯移动互联网这个圈子,大家都交的很响,也很热门。但实际上我们在移动互联网,我们市场了解移动互联网的现状,移动互联网本身能够产生价值的领域是非常少的,大部分的公司没有商业产品。但其实很多公司真的是很艰难的,他们靠融资找到很好的,除了一个领域,除了手游,手机游戏现在是手机互联网最挣钱的。但对于海量的一些CP的应用,他们如何生存是一个大问题。但其实他们这个价值过程的利用,拿到了很多用户的信息。这些数据其实是有很多潜在的传统行业消费的需求。我举个例子,说起来不是特别好听的一个话,比如说大家可能多少听说过使用过像阿里一系列的报告,其实我们知道我们在银行应用传统的手机银行等等的产品,其实我们知道这些产品的体验极烂,各种不爽,但我们还要忍受。我们希望打通移动互联网与传统行业之间的鸿沟,我们试图若传统行业在移动互联网做的更好。对两个来讲都是双赢的,对移动互联网是正向的事情,对传统行业也是正向的事情。&&& 我们是怎么做到的?我可以简单说一下。首先我们为传统行业提供一个基础的产品。因为TalkingData本身我们能够覆盖8亿的设备,我们每天需要处理的数据量,这个体量我们覆盖传统行业,不管你是银行或者说是航空公司或者诸如此类的运营商,你们在移动侧业务流量目前就我们看没有比TalkingData更大的,共我们的客户,但公行实际上手机银行的用户也是千万量级,活跃量很少。所以我们的系统经过了8亿受众的测试,压力测试也好、性能测试也好,我们服务的传统行业本身有非常强的技术潜力。这是第一。&&& 第二个,对于传统行业企业来讲,他们最关心的是两个问题,第一他们如何更好的了解他们存量客户。他们通过他们的一些特有的方法,包括传统的仓库了解他们的一个标准客户的简单化。比如说它的收入量级,或者说消费简单的形象。比如说这个人喜欢玩游戏,比如说这个人的属性是怎样的,这些人是无法了解的。但如果能了解这些信息,他就能更好的向这里推荐一些相关产品。不至于给大家发一些完全不沾边的信息。比如说命名我是刚刚毕业的,推荐给我一个200万的理财产品,这个我不是富二代肯定买不起,诸如此类的例子。&&& 所以我们希望做的,因为TalkingData本身是非常丰富的数据库,帮助这些传统的行业做更好的,比较精准的,体验比较好的营销。最后我们能够帮传统很也做一些什么事情呢?这个事情我们一直是比较骄傲。比如说我举个例子,如果在座的有招商银行的客户,招商银行本身也就是我们的客户,招行他的信用卡部门有一个应用叫做掌上生活,我们帮助招行做了一个什么活动呢?我们和现在比较热门的游戏,像刀塔传奇、我叫MT、大战僵尸,我们做了一个积分兑换的活动,比如说我是一个手机游戏的行家,需要花三百多块钱买一个刀塔喘气的装备包,才可以在游戏里有比较好的体现。但我们可以通过合作允许这个用户只需要花9个积分就能够得到这个礼包,这个事情的价值在哪?价值是非常大的。第一个,他帮助银行解决了积分的集邮的问题。大家知道,我们的积分看上去很多,但一点价值都没有。如果我们能用积分换取一些高价值属性的虚拟产品,这是非常有意思的,至少我是愿意的。比如我玩的时候,有一关大不过去,需要买一个道具,让我冲6块钱,钱不多,但我不愿意冲,而且也不值。诸如此类的问题,但如果告诉我,用积分就可以换一个,我肯定很迅速就换了。这只是举一个场景。&&& 当然我们做这个事情,靠的是什么?靠的就是因为我们能够找到招商银行他的用户和刀塔传奇和手机用户之间的关联性,靠的就是用户的积累。通过这些做资源整合。&&& 因为我不想讲的太虚,我可以多举一些例子。这个是整个中国移动手机银行的规模描述。这个请不要拍照,这个是我们自己的数据,这不是银行的数据,银行是很害怕看到这个数据,但都是很真实的。大家看一眼就好,知道整个中国银行移动互联网真实的情况。这是大概数据的情况。然后这是我们对某个特定的银行,对移动手机用户大概分布情况的统计。比如说这个手机银行在各省市分布的情况,这个是这个银行手机客户端覆盖设备的情况。我可以很负责任的讲,目前我们统计到的小米设备的整个占有率的确已经超过三星了,因为之前都在争。这是一个手机银行的应用,跟社交类移动端应用的关联性。这是我们一个简单的分析。其实可以分的种类很多,举个例子,比如我们单纯在一个手机游戏细分的游戏里面,我们可以为游戏打220个不同的标签,比如这个游戏玩重度的游戏还是休闲的游戏,还是轻付费的游戏,还是付费额度在5到10元之间的。其实这些标签都非常有价值,可以倒退这些人生活当中的消费属性、消费亿元。&&& 这也是一个简单的应用关联的排行。这里面基本上排行头两位的不用看。因为这个关联度有什么价值?基本上都是在手机里面占比比较高的。我们重点要看第三到第四个的关联关系,这个关联关系做数据挖掘才是有价值的。这个是我们自己方案的一个推荐。&&& 我给大家分享一些案例。其实在传统行业里面,其实有那么一批人,他们也是一帮年轻人,跟我年纪差不多。他们是特别鼓励的,他们在银行里面要求,要尽量做出一个跟移动互联网比较好的产品去竞争的产品,但他们比较受制于银行的体制或者是传统行业的体制流程、规范之类的。他们现在很痛苦,所以我们这里面是希望空间的数据以及技术帮助这些银行的产品研发人员,去更或的改进改良他们的产品。但到目前为止我们觉得做的非常好,可以很好的做产品迭代。大家可以下载一下招商银行最新的产品,你们可以很刺激,几乎看不到银行,几乎变成了电商运营。这是最初面临的困境和挑战。这是我们系统的一些截图。这是一个简单的案例,这个案例很有意思。&&& 比如他们怎么优化受业的价值,他们做了一个APP,一个是左滑页办理现金业务,还有一个符合额度的业务。这个是他页面现实方面的优化。很简单的他可以发现一个用户从业务申请到信息等级这块用户就跑了,没有到下一步。如果他把这个放在主页也可以高很多,就把这个改为这样子。其实各位可能感觉不到,当你们用一个感觉优秀的产品,其实我很负责任的高速大家,这个产品真正来自亿灵感的部分非常少。他需要大量的测试,大量的调优,才能够在很多细节上面给大家不一样的感觉,传统行业缺的就是这样的一种心态、态度。&&& 这个也是一个类似的例子。这个是对于整个投放效果的优化。基本是这样的,招行投放他们的产品有很多的渠道。比如说发短信或者诸如此类的。大家点开看一看,不光不会点链接还会骂你。但他也有很多优化的策略。但这些噪音是无法辨别的,用了这样的平台之后,他能够非常好的评估他的渠道,对用户来讲是没有打扰的,是感觉很好的。&&& 这是有关运营方面的检测案例,这是几个产品优化的一些具体案例。这是他自己的成长曲线。旁边的招行掌上生活还是非常方便的,现在已经覆盖了整个招商信用卡用户70%的用户。有招商信用卡的用户有70%下载了掌上生活。&&& 这里我是想表达一下自己的创新合作模式探索,为什么把这一页单独放在那里,其实我参加过很多大数据的论坛,我不太参加会,我是比较木那的人,我学光电子,我开过饭店,之前做移动互联网,现在做大数据,听起来很跨界,其实我的体会是什么。我觉得任何一个技术,任何一种概念,他只有真正的和大众日常生活发生交集的时候,真正改变了生活中不便的时候,提升了生活当中的体验时,这个技术才有价值。这是我体会特别深的。我觉得现在这个领域和场景也非常多。但真正能够非常扎实的落到地面的大数据方案、数据是凤毛麟角的。&&& TalkingData我们是非常低调的公司,可能跟我们本身拥有这么多数据有关系,我们不愿意张扬,但我们更想做的事情是,我们如何让这些数据,真的能够改变影响他的生活,这里面其实光高TalkingData是解决不了的,TalkingData是数据加技术的公司,我们要解决任何一个应用场景,需要真正懂场景的人才可以做好这些事情。其实这个过程中,我觉得传统行业还是让我很敬佩的,因为我们在传统行业,不管是银行、证券还是保险,你是餐饮。我昨天还跟&&吃饭,他们其实是想了很多的点子,如何人一些手段让我的顾客得到体验,他们想了很多是真的能够落地的。我可以举几个例子,背后都是大数据,都是这些人在想办法,在找解决方案。&&& 我举个例子,就还是招行的例子,招行信用卡,他之前的信用卡很强,但就是在最近一两年里面,招行信用卡是落后了。因为他的发卡率是极低的。一百人申请了信用卡,70%以上的人没有。为什么?我提交一个信用卡,他各个审核,没有这个人的资信信息,无法给你一个风险判断,只能靠人线下的了解,打听你的信息是否真诚,诸如此类的,很多人很烦,不被信任的感觉,就不要了。我们尝试把首次发卡缩短到3到5分钟,这个也很简单,我们只需要用户在线上提交你信用卡申请的时候,填写你的工作地址和家庭地址就可以了。我们怎么做后面的识别呢?我们在手机客户端填写内容的时候,招商银行掌上生活是可以提取用户的设备号,不是手机号。提取手机号是违法的,设备号作为设备的唯一表示是可以提取的。把这个设备信息,用户填写的家庭地址和工作地址的信息同步传给TalkingData,TalkingData会在自己的数据库里面匹配这个设备,匹配好以后,因为这个设备日常的生活当中会有一些位置上传到TalkingData,这些位置信息是有动态分布的,比如说工作时间,我们发现你的经纬度基本上固定在一个地方,在休息时间,我们发现你的经纬度也是一个相对固定的时间。我们会反算这个经纬度对应的接到信息。这个街道信息跟你填写的住址和工作地质会有一个银行认可误差率。银行认为基本上填写信息的有两个极端,可能是瞎填,要么是填的相对准确,所以我们做一个粗略的匹配,我们就知道这个人的信息填的是不是准确。可以反馈结果给他,交行就可以第一时间高速用户。这个只是一个非常简单的例子,大家可能不会有感觉,我现在申请信用卡,为什么没有被批,其实后面有大量的数据,像我们这样默默无闻的人帮你们做事情。所以我特别希望大家理解,TalkingData我们做的事情,是真正想给大家带来便利。&&& 这里面就涉及到各种探索和创新,这里面是需要有一个产业链,很多外围的企业帮助做这样的事情。再举个例子,跟金融相关,关于授信,现在的小微贷款盛行,像美国的一些传统的机构,都是用的传统的模型。现在有专门的公司,他们专门用移动互联网数据做一个人的信用分析。比如说你微博的名称长短,你登陆微博的时间,你的好友的名称情况。你应用里面登陆的时间,使用时长,你应用列表的关联性,这些都会成为评价你信用结果的风险因子。因为我们很难理解,这样的数据跟你信用的关系有什么关联。其实我们现在也不清楚,我们就需要这样的,他不断做这样的验证,我们才能最终找到它的逻辑关系,这里靠的是什么?第一要有很高的数据,第二个要跟实践结合。TalkingData提供数据的支持,如果这个可以,后面我想大家做一些线上的小额贷款申请的时候,可能对于很多没有信用记录的年轻人来讲,比较有优势。还有一个例子是车险,大家知道今年所有保险的定价会全部放开,大家再往后买车险是这样的局面,你的驾驶技术好,行驶习惯好,可能你是半价或者是三折。如果你一年出多少次事故,可能几倍都不愿意给你。我们很多的导航会提一个用户日常很多价值前面的数据。比如是否经常在高危路段行驶,是否经常加油或者刹车。这些都会成为未来定价的因子,这是我们正在合作的项目。&&& 这是我们跟招行跟游戏的跨界合作。这个基础上我们帮他推荐了两个游戏,就是刀塔传奇和我叫MT。通过这种合作,我们在当日给招行信用卡带来了5万个绑定用户,转化率是非常可怕的,这是什么两极呢?银行类的应用要实现转化的平均成本在两百到三百块钱,我们通过这样的合作,他基本上没花一分钱,达到了5万转化率,理论上省掉了上千万的费用,对游戏来讲也是一样的。&&& 这是我们跟光大银行合作的案例,这个案例就更加悬乎一点,光大银行在银行里面不是太好的,很多银行有杀手锏,比如说招行的生活应用、公行的支付应用。我们光大做一个跟NFC相关的应用,他想把一千万撒在整个大陆地区,一个地区可能就几百万就没了。TalkingData我们帮他勾勒出哪些用户是NFC手机用户,这流面几个纬度,第一机型和运营商,运营商好像只有移动和联通支持,这个第一遍过滤,第二个是地域。地理信息我们有。第三个是特定应用安装,因为NFC基本上小额支付,这个会在应用端装一个小额支付的应用。第四个典型行为特征,这些小额支付最常见的是坐公交、地铁。光大想了一个点,在一个时间段他是常开车的,我们也可以排出掉他是坐着不动的,我们也可以确定他不是作公交就是坐地铁。我们可以做频繁称作公交和地铁的筛选。我们把南京400万的用户最后只筛了5万个用户,他只需要送达这5万个用户。所以他最后完成指标预算。这是最简单的案例。以上就是我的分享。谢谢大家!肖志国:&&& 非常感谢蒋奇先生对TalkingData成功经验的分享。大家听了这个会不会有跟我一样的想法,就是说TalkingData什么时候上市,上市了一定要买他的股票。&&& 今天主题报告A环节到此结束,让我们再次用热烈的掌声感谢所有嘉宾。下面我们将直接进入主题报告B环节,这个主题是大数据时代中国的挑战与机遇。有四位业界专家将为我们带来精采演讲,他们是须成忠先生、潘正祥先生、何利文先生、刘政先生。首先为我们演讲的是须成忠先生。&&& 须成忠教授是美国华裔教授学社理事,中国自然科学基金会2010海外学者合作研究基金获得者,2011年入选广东省领军人才计划和国家千人计划。现任并行与分布计算领域五家顶级期刊的国际著名学术期刊编委,层积极参与了60多个领域的国际学术会议阻滞剂评审委员会工作,多次担任国际大会主席、程序委员会主席。有请须成忠教授!&须成忠:&&& 大家下午好,下面我分享一下我们做的一个成功案例,城市交通大数据。我们用以数据采集、管理。&&& 此前在分享我们成功案例之前,我谈一些我们对城市大数据这一个重要的研究领域之间的思考。以及城市大数据的机遇与挑战。介绍我们深圳交通大数据的应用包括了基本分析还有大数据的增值服务,以及我们最新做的研究,在这里是多元数据,人群移动特征分析方面。&&& 我们知道城市大数据实质上就是说在城市管理方方面面,产生了人类各种密切相关的大规模多元数据结合,包括社会治安的信息安全、网络引擎、食品安全、交通管理、环境检测等等方面。然后从城市大数据有这样的载体,就是人类社会、信息空间、物理世界。人类社会是对事物的看法、经验、认知,这都是人类社会定语的知识。信息空间是互联网应用产生的数据,物理世界是有感知设施产生的数据。这些数据,这些交织互相的形成了我们的社交网、物联网。人类社会与信息空间形成了社交网络,信息空间与物理世界的结合形成了物联网。我们说城市大数据就是依赖于分散在物理世界、信息空间和人类社会组成的三大数据。&& &最近我们跟上海交通大学、浙江大学和西北工大,联合承包了一个项目,这个项目中间被城市大数据特性做了一些归纳总结,第一个是决策导向的三元空间数据紧密关联,形成了交织性。海量多样的三元空间数据多源交织形成了超维性。以及超维交织的三元计算需要人机结合形成的协同性。&&& 首先是交织性。人类活动在不同空间中留下了碎片华,不完整的数据足迹。这些足迹使得物理世界、信息空间和人类社会之间形成了有机互动。有这样的超维关联特征引发了三元空间的计算灾难,我们需要人的认知,人的群体智能加入,形成了人机融合的可计算,以及协同计算保证了包括城市规划在内的人性化、科学化。&&& 所以针对这样子交织性三员空间需要形势化的数据关联模型形成的挑战就是如何关联三元空间的隔离数据。针对这样的人机协同性三元数据空间需要群智认知理论与计算方法。举个例子如何关联三元空间的隔离数据。比如食品溯源中间,我们举个例子,三聚氰氨的奶粉实践,我们有物理世界的信息,包括奶制品的生产、流通、销售信息等等。我们有信息空间,包括微博、微信上的讨论信息,我们也有人类社会的诊断信息,包括婴儿就诊发现肾结石,但所有的这些现象。我们难以发现三聚氰氨奶粉导致婴儿的肾结石。为什么?我们说空间的隔离、数据的碎片以及信息的片面,这个导致了这样的结果。第二个就是说我们如何来消除空间隔离以及现实对感知对象的全景刻画。超维关联表达模型形成了超维大数据。&&& 第二个如何融合人类智慧和机器能力。刚才也介绍了我们在抓捕罪犯的场景。我们往往形成了人工来做,准而不快的现象。但用机器就是快而不准,我们希望引入群智认知。如何设计群智认知和迭代方法实现问题的溯源与预测。第一个是群智认知的模型。这个在973城市大数据的研究方面,我们针对这样的两个挑战,形成了两个科技问题,包括三元数据的关联萃取和人机协作的认知推理。包括三元空间的协同感知方法以及智能服务平台验证。具体的不多讲了。&&& 下面在这个基础上我们作为前期的工作,交通大数据的应用。我们说做交通,很多人都做,我们深圳市智慧交通,我们非常自豪的说,我们现在有深圳市所有出行交通的数据,而且我们包括了出租车的数据,包括了公交车的数据,包括了地理数据。而且这些数据不是说离线、备份做研究用的,而是真正做到了实时。我们一分钟两次的所有的出租车数据在我们这里。所有的公交车数据。还包括了出租车的交易数据,还包括了一卡通。如何在这些数据深,我们花了很多的功夫凝聚这些数据,然后在上面做什么样服务。这个因果关系是倒过来的,实际上我们是说,我们能够做什么样的服务,是否能够说服政府可以把他的数据放到我们这里。我们可以做一些示范应用,有的看似简单但也有很大的技术挑战性。包括GPS手机,采集实时交通路网信息,还有深圳一卡通动态出行调查信息,以及公众出行服务等等。我们包括了地图匹配、数据清洗、数据存储等等这样实时交通状态的分析,这是我们的技术架构。&&& 最顶上就是做了一个实时的模型检测,还有实时的调度,以及商业智能,包括报表,包括推荐等等。我们交通大数据是做了一些分析服务,包括基本的工具,包括数据清洗过滤,包括交通流量的感知,包括了地图匹配、路径类聚,还有流量预测、失控数据存储等等。再次基础上我们做了增值服务,包括实现了在线实时报表,动态的OD五分析,这是面向政府的。面向公众出行的,包括出租车服务、公交车服务。面向企业我们还做了一些流量分析。&&& 简单的介绍一下其中的核心关键技术。在此技术上介绍一些增值的服务。首先这是一个出租车轨迹的快找。从这个路矿我们打点,可以看出跟我们的地图非常温和,而且是精度非常高。同时我们还是除此之外我们还要做很多清洗,物力工作。其中有40%的GPS点都是人堆,还有很多GPS的点会偏离地图,这样你要进行纠错。这是一些数据的清晰以及物力工作。我们还做的是流量的感知。就是说这样的图,在这上面我们现在用的是出租车的数据流量感知,但我们说这个感知是片面的,不一定是很准确的反应全市的交通路矿,这样子的话我们就需要做一些技术处理,使得我们能够用有限的样本,14000辆出租车的样本,能够全方位的感知这样深圳市的路矿情况。这样也有一些技术问题,这个是交通的感知。&&& 还有地图匹配,很多的点怎么能够同时反应到地图上来,因为我们知道一个点反应到地图上大概需要一两秒钟,就像我们GPS开机需要花时间,但我要百万个点同时怎么能够快思的把它反应到地图上的点,因为我们说GPS有经纬度,但地图的信息是比较复杂的。这个也是有很多的工作要做的。这是做的一些结果。&&& 还有路径的聚类,这个我们可以看出从这个点到另外一个点修改很多的路径要走,这样的话怎么能够聚类,据类就可以做定制的公交,或者说做一些其他的市政服务。还有交通路矿的预知,我们也做了一些工作。我们还有一些支持服务,因为做离线服务比较简单,不直接实时处理,但要做在线处理这个时间要求比较耗,这时候怎么做处理?我们提出了一系列办法,把整个城市路矿风格,这样就进行处理。在这个基础上,还有一些其他的技术也就不一一介绍了。在此技术上我们做了一系列的增值服务。比如像OD分析,就是深圳通的,像从起点到重点有多少人,有多少车,还有察看各个时段的客流情况,统计、查询每天每周每月的地铁、出租车的辆数等等。这个是其中的一个例子,其中一个例子就是说画像底下的一个图,我们是深圳市交通管理委员会,每天要做的事,我需要动态的输入,20几个参数,来查询他出租车的运营情况。这样的话用传统的办法,还有耗时的数据存储比较大,好事比较长,需要两个多小时,但我们现在有办法,用我们现象现在的办法可以存储降到80%,查询的时间降到2分钟,这个就是非常典型的,华教授介绍的工程时限。&&& 这是实时报表的情况,还有像大众的出行服务。包括了出租车的,包括了公交车。这是像这样一个出租车、公交车我们可以实时,这样我们用现有的公交车、出租车的运行情况来反应这样的路况,反应这样的出行速度。还有打车服务,快的打车、嘀嘀打车的推广力度比我们大,但我们也做了,方法不一样。我们可以看到,在我周围有多少的空车在跑,我们有空车、有实车,空车当前的位置、车牌号、运行状态、登记时间等等都有。&&& 还做了公交服务,覆盖深圳市的现在80%,这是以前的数据,现在是百分之百。举个例子,我们公交车现在有多少的时间,能够到站的服务。下面有一点点时间,我介绍我们最新的工作。&&& 基于多元数据人的行为分析。这是说我们在做客流分析的时候,我们会用到不是单一的人,而是多元。首先人的移动聚类后接近行政区域的划分。地铁从这个图上反应,更多是长距离的客流环城的情况明显,出租车本身是客流,客流特征可以指导区间车的开车,招车点等等。单一的数据源刻画的人群移动特征都是比较片面的。这是我们这个文章主要的观察点。&&& 就是说我用的是出租车的数据,或者用的公交车的数据,或者是用的手机通讯数据这些都是片面的反应了人群移动的特征。怎么做数据整合这才是核心的关键。这个是有数据偏差的,这个具体就不讲了。我们在此基础上,在这样的一个用出租车、公交车、地铁还有手机信息作为一个我们人的出行行为的抽象模型,在此基础上,我们就做了一些服务,考虑了如何多种数据源的数据来源以及研究人群的特征,分析不同出席方式人群的相关性、差异性,预测了估算未来区域间人群的测算等等。&&& 这个是我们做的数据,其中包括了我跟单一元数据的比较,以及用手机数据的比较。人群的预测可以提高40%左右。&&& 这个是我们也做了对接,我们上个星期,也拍过了连续剧,数字交通,用数据记录交通情况。也包括了人群分析。举个例子,在我们高科技产业园区的人住在什么地方,工作的行为模式,人群的出行形式等等。这些都是普通人比较关注的点。除此之外我们还做了出租车公交车,但我们还有微博的数据,特别是交通微博的数据怎么能够整合,这也是实时路况增加交通路况的分析。&&& 下面就是说小结一下,今天我给大家介绍的一个真实的案例,就是交通大数据,首先我们说刚才老师也介绍了大数据是一个一体两面的应用。我们感觉数据是生命之源,大数据为云计算的创新应用注入新获利。数据处理从数据清洗过滤开始,我们不是给了你单一的数据,这个就好比我们做计算机系统的来说,但现实生活中间的人,0到1是有一个过程的,同样的我们数据处理也应该从数据清晰开始。有用的数据是系数的,单一源数据有偏向性,需要多源数据融合。数据深度分析挖掘实现由信息化到智能化的飞跃。数据服务的可信性、可靠性、可占粘性也是不可忽视的技术挑战。八这个就是我要向大家介绍的案例。肖志国:&&& 感谢须教授基于深圳交通大数据所涉及到的方法以及多元数据分析所做的分享。下面是潘正祥先生。潘正祥先生是英国工程技术学会会士、美国电子电气工程师学会信号处理协会台南分会主席。早年获英国爱丁堡大学电机工程博士学位。2010年获得了在日本东京举办的国际微机器人大赛金奖、美国匹兹堡新产品博览会发明展金奖。同年入选中组部千人计划专家。有请潘教授。&潘正祥:&&& 大家下午好,我是从台湾过来的,现在从哪边退休了,台湾是25年工作就可以退休,现在是全职在哈尔滨工业大学服务,但我是在深圳的校区。这个是我以前的一个学生帮我做的。&&& 我先谈一下大数据的概念,大数据的计算方案,大数据的产业未来。因为时间比较急,我们剩下40分钟还有三位讲者,我会在10分钟内结束掉。另一方面我准备的PPT没有像须老师那么充分。&&& 首先我们也知道大数据的概念,大数据为什么会有?最主要是移动互联网,还有社交网络以及电子商务每天产生数据。我以前是做通讯的,SBN我们以前做过,强调的是数据语音,现在大数据不仅是语音、数据和图象,整个东西就很多了。这里有一张图片,就是2006年的时候,全球的数据大概有180EB,到2011年到了1.8ZB。2020年是35.2ZB,这个数据越来越多。&&& 这么多数据怎么处理,这就很重要了。大数据也好,今天特别强调了5V,我这边强调的是4V。不管怎么样这个就是非常重要的,一个就是它的数据量很大,一个是他的结构多。它的价值密度比较低。然后它的需求的话,将大数据填写,将有用的信息抽取出来就很重要了。所以这边大数据相当于一个海量的数据跟复杂类型的数据,还有一个整合。目前的话技术领域的挑战,包括数据库的技术,因为目前的数据库技术的话,还没有办法运营。所以这个数据库的技术是一个非常大的挑战。目前数据库的技术这么多的数据库技术的话,也很难挑战。这个数据库的技术很重要。还有分析的技术。&&& 刚才有讲到云计算跟大数据之间的关联,事实上大数据很多事情可以用云计算处理掉,但有几样还是没有办法处理,包括你这个数据的话,本身可能已经是线上的,怎么把这个数据变成活的数据跑出来,过来把这个数据做预测,把有价值的东西拿出来。在这边这个是没有办法完全处理的。然后数据出局,存储技术。所以相关的技术的话很重要,包括数据的采集,数据的存储还有数据的管理、数据的挖掘,这个大数据里面是非常重要的东西,数据的计算方案他目前主要的技术问题第一个一定要有一个存储设备,如果能滋生一万台或者十万台以上的规模,还有很多用户同时在这边进行研发的话,部分研发是一百万的用户还是一千万的用户,包括他们能够支撑的用户到底是一千万还是一亿还是多少,这里面也是大数据非常重要的问题。还有包括业务的运行状态的话,不同的比如说金融还是什么的,不同业务的话还是不一样的,这个要看怎么处理。&&& 这个大数据的一些特性就讲到了云计算,刚才也讲到了他还是有一些东西在云计算里面不能完全处理掉的。包括数据怎么能够独用,数据挖掘有效的信息,第三点的话就是预测性的分析。这边有一些例子,这个是我们国内阿里巴巴提供的数据资料,他的数据产品可以到30亿的店铺。我们哈工大的老实说这个数据是可以开放的,如果有人需要的话,就找会晤单位去拷贝。&&& 这个是阿里技术相关的架构。这个是百度,我们可以看一下,他在2008年的时候,他只有300台机器两个集群,但目前的话,他的机器已经超过了25000台。大数据要计算的话不是一般人能够做的。这个是百度,相关的东西。还有用大数据相关的需求。所以造成他原来两周才能够处理的东西,2到3天才可以处理完。这个是农夫山泉,相关的数据可以看一下,这个是IBM的数字黄河。&&& 大数据的未来。第一个就是政府一定要重视,政府不重视的话其他的都不用谈了。还有美国奥巴马政府在白宫网站发布了大数据研究和发展倡议。目前的话我们国内也是把它当做是一个非常重要的科研技术。也对将来国家的发展非常重要。所以很多技术充满挑战,但因为充满了挑战,所以也充满了很多的机会。这边强调的是说大数据价值链三大构成,就是数据本身怎么构成数据,这个是多样的数据怎么融合,是不是有一个什么样的标准,可以处理这个数据融合的问题,地个相关的技能。第二个他的一些数据库的处理,目前都不行,不行不是说国内技术不行,基本上都不行。因为大家都不行,所以大家都有机会。这个大概看一下,是应用可能性,我们可以看到,这部分目前成功的机会比较大。相对的我们看作下方这边,因为很多东西大家还没有开发,就还有很多的机会,你只要把相关的技术应用进去,做适当的存储就有很多的机会。我们有一些互联网,我们看一下,这个是信息里面截取出来的,实时数据的分析能力比较长。&&& 这个是医疗行业,医疗行业里面包括医疗数据的透明度、远程的监控等等,这些东西可以提供参考,能源行业数据量太大了就造成了很多困扰。还有数据分散之类的,但有很多的问题。这边的话,大概就是2011年到2016年中国大数据相关的规模,预计到2016年会有100亿的市场价值。&&& 我们看一下这边缺少全方位的分析方法,分析方法这边的话,目前都还不够成熟。今天早上很多专家学者特别强调,事实上很多公司是有分析方法的,这些分析方法牵扯到营业成本,牵扯到公司发展,也不可能提供出来,所以这个相对我们国内学术界相当重要。这个实时营销大家做一个参考。最后我总结一下,目前的话因为大数据的来临,所以数据库的计算以及计算的一个技术,这个就很重要,比如说我这边有1T的数据,要从这个城市到那个城市,怎么传?这个很重要。怎么计算完之后把信号传到B城,云计算还是有很多技术解不了,我们怎么处理?这么多产业哪一种产业适合发展,哪一种产业是海外还没有发展的,这个有可能需要把它理清,等等的东西是这样子。&&& 我们这边大概是正在编,这不是非常好的期刊,但也不是非常差的期刊,我们11月21日截稿。明年的4月会发出去。欢迎大家有相关的稿件往我们这里报,谢谢!肖志国:&&& 感谢潘正祥教授关于大数据计算方案精采的分享,同时也感谢他提供给我们大家一个可以发表论文的好机会。下面我们第三位演讲嘉宾是来自南京邮电大学先进技术研究院副院长何利文先生。何利文教授IEEE高级会员、全国青联IT联谊会常务理事、中国计算机学会大数据专家委员会委员。曾任英国电信实验室任高级研究员、英国电信首席安全研究员、华为公司存储与网络安全产品线安全首席技术官和公司信息安全高端专家委员会专家。有请何利文教授。&何利文:&&& 非常感谢邀请我来给大家做这个汇报。我的汇报是什么呢?因为我做了十来年信息安全,原来我们做过一些,最近几年我再华为做过云计算,跟大数据其实是相关的,包括我们做很多的像在业界做的领先的}

我要回帖

更多关于 广州哪家代运营比较好 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信