周涛:大数据是给北魏迁都洛阳决策者提供支持的 不论北魏迁都洛阳决策者者是不是人

对话周涛:抓住大数据最性感的方向
我的图书馆
对话周涛:抓住大数据最性感的方向
摘要:“大数据行业领军人”、“数据少帅”、“最年轻教授”,80后教授周涛身上有太多让人惊艳的标签,大数据文摘【思享者】有幸专访了这位大数据行业的传奇人物,褪去主角光环,周涛对中国的大数据生态、大数据行业的创业风向、以及如何培养下一代的大数据思维都给出了有趣的建议。关于周涛:博士,教授,电子科技大学互联网科学中心主任。电子科技大学特聘教授,四川省最年轻的教授,主要研究方向为复杂性科学、网络科学、信息物理、人类动力学和群集动力学。参与撰写专著5册,发表论文180余篇,其中130余篇为SCI检索论文。全国第一支大数据产业股权基金“大数据实验室孵化基金”创始合伙人、全国最大的数据挖掘竞赛平台Data Castle创始人。一副黑框眼镜、一件印着“UESTC”的绿色T恤、好脾气的接受所有“粉丝”合照签名的要求,你很难想象,眼前这个清瘦的80后就是在中国大数据生态链中拥有着不可取代位置的周涛。&就在上个月,厦华电子发布重组预案,合计作价18亿元收购成都数联铭品科技有限公司(简称“数联铭品”)100%股权。而周涛作为数联铭品首席科学家,持股价值达到1.92亿元。&520这天,大数据文摘在“湛庐文化”见到了《为数据而生》的作者、被称为“数据少帅”、“中国大数据行业领军人”的周涛。&在接下来的一个小时,这位年轻的数据科学家向大数据文摘娓娓道来了中国的数据生态、创业环境和大数据思维的培养。&大数据文摘截取了专访过程中最精华的部分,做成音频分享给各位读者,为还原真实的现场,录音只经过了简单的处理,仔细听的话您甚至还可以听到周涛聊到激动之时拍桌子的声音和不羁的笑声。&周涛专访 - 来自大数据文摘 - 00:00 / 17:07◆&◆&◆“中国的大数据时代还没有真正到来”&4年前,周涛作为主要译者参与翻译了《大数据时代》这本书,销量百万,成为了当时很多中国人了解大数据这个概念的伊始,也为大数据这个概念的热度加了一把火。而在《大数据时代》出版后第四年,周涛认为,中国的大数据时代依然还没有真正到来。&“五年前,可能大家对大数据更乐观,认为大数据会带来很多产业上的变化,但是这样的变化并没有到来”,周涛认为,有这么几个方面制约了大数据时代的到来。&首先,拥有大数据的一方、拥有核心技术的一方和拥有人才的一方,这三方是分离的。数据的整个流通并没有真正的实现。“有最好数据的包括政府、银行、运营商、医疗机构,他们有很有价值的数据,但是即使是不敏感的数据,他们也缺乏一种安全有效的办法把它们开放出来,敏感的数据更是缺乏一种分权限安全的办法把它们开放出来,使得一些有需求的人享受价值。”&所以从这种意义上讲,好的数据无法发挥价值,或者只是在产生它的地方发挥一定的价值。而周涛定义的真正的大数据时代下,一组有价值的数据可以被扭转了十几二十次,在很多地方都发挥价值,而这离不开数据安全有效的开放。&周涛在新作《为数据而生》中,专门用一个章节讲中国数据开放,他认为,政府和公司在数据开放中都应该遵循以下三点。&首先从顶层来讲,在有容错的前提下,对数据开放做出立法规定。在类似贵州大数据综合试验区或者中关村自贸区这样比较灵活的区域多做一些尝试,允许有一些弯路;&第二个是在做这样的事情的时候要有一些方法论做指导。大企业或者地方政府首先要知道自己有哪些数据资源,了解每一个数据的完备性、一致性、更新频度、噪音等等。在此基础上制定自己的数据标准,这样内部可以共融共通,对外可以使别人理解你的数据。在这个标准下才谈得上如何开放数据。&最后,任何的数据开放都应该遵守“由易向难”、“增量优先”和“示范应用引导”这三个原则。&比如政府部门里的公安、卫纪、人社等部门的数据是较难开放的,交通、城市规划是比较容易开放的,那么先做容易的,由易向难完成开放过程。打破从前的条条框框是比较难的,所以一定是增量优先。而“示范应用引导”是指先通过某些项目,让大家看到了小范围数据开放的效果,可以带动更大范围的数据开放。&&◆&◆&◆“中国目前还有一百万到两百万的数据人才缺口”&周涛是中国最大的数据挖掘竞赛平台Data Castle创始人,他希望通过这个平台汇聚一批对大数据真正感兴趣的人才,而大数据人才的培养将是中国发展大数据生态的关键。&“整个(中国的)大数据产业链,不仅仅是高端人才,还包括很多初级人才,特别是对数据的采集、管理、运维方面的人才,还有很大的缺口。如果把这些算在一起,我们曾经粗略估计过中国大概有100-200万的数据人才缺口。”&周涛提出了两个途径来弥补中国的大数据人才缺口:&首先,进一步在垂直方向进行优质的培训,这种培训不是一个学位教育,通过一两个月的培训就足够把有一定计算机基础的专科生培养成为具备数据采集和运维能力的专门人才。&其次,在学校要有系统性的学位性教育,在二本、三本和专科学校(把数据教育)和当前的市场需求相结合,这样可以很快产生一批这样的人才。&尽管如此,如此大的数据人才缺口,尤其是在数据安全、管理、爬取方面的人才短缺情况,在短期内甚至两年到四年的时间,都很难弥补。&&◆&◆&◆“大数据创业要找到大数据最性感的方向”&除了学者和数据科学家的身份,周涛还是一位资深创客,就在上个月,周涛作为国信优易的创始人,在创客小镇——成都菁蓉镇向中共中央政治局常委、国务院总理李克强进行了专题汇报。&对于中国的创业环境,周涛认为中国有自己不可被替代的优势。首先在政府支持下,创业已经变成一种显文化,其次,中国拥有数量庞大的风险投资资金和庞大的市场,这些都是其他国家无法复制的。然而,如同培养一个贵族需要两代三代人,一个社会创新精神的培养也是如此,创新精神想要渗透到身体里还是需要几代人的努力。&周涛也给大数据行业的创业者们提出了几个建议:&首先,技术上的核心能力比商业模式创新重要,商业模式创新在今天很容易被泡沫冲垮;&其次,找到大数据和行业的深度结合点。这种结合最好不止是请几个行业专家加入,而是你所在的行业你的人有一种行业内本身的壁垒和垄断;&最后,紧跟大数据最性感的方向和国家战略方向。周涛认为大数据有两个最性感的方向,第一个就是数据的交易,它是纯粹大数据,一种新模式,交易就包括数据的版权、数据的价值评估、数据的定价等等;第二是大数据和医疗、金融的结合,因为这两个行业足够大,很性感;而站在国家战略的方向是指从GDP的角度来讲,我们需要看到中部西部的开放特别是航空和陆上,尤其是铁路的发展,比如一带一路战略,是非常重要的。大数据发展也要主动和国家的重大战略靠近。&◆&◆&◆“大数据思维的培养从娃娃抓起”&周涛对于大数据思维的培养和教育也有自己的一套心得。&周涛认为大数据思维首先是数据思维,也就是逻辑思维能力和定量化。有逻辑能力可以知道做完一件事是可行的哪个点是有问题的,而定量化包括人们在描述一个事情的时候是定量的,也包括验证一件事情的时候是定量的。&单讲大数据思维,它强调高度关联,以前数据量很小的时候,往往用业务产生的数据解决业务本身。比如现在在探讨一个人的健康的时候,我们可以从他的出行轨迹、使用手机的习惯、父母的健康情况、经济情况都可以影响其身心健康,这样关联的看万事万物,不再把事物的因果看的很孤立,这也是很典型的大数据思维。&站在更学科性的角度讲,周涛把大数据思维归结为来自两个学科,一个是统计学,一个是计算机科学里的机器学习和人工智能。统计学就是这种定量化、逻辑化,分辨什么是关联什么是因果,机器学习和人工智能做大规模的非因果的关联,另外讲究预测性,预测是大数据的核心,这些因素共同组成了大数据思维。&周涛因此建议希望走上大数据这条路的读者增加机器学习和统计方面的知识:&第一是了解机器学习相关概念,读这方面的书,比如Bishop、周志华的书,有机器学习方面的概念;第二是一定要有统计学的概念,知道哪些统计是对的哪些统计是错的,了解置信区间等等这些概念。&周涛认为,大数据思维的培养可以从娃娃抓起:“我觉得对于培养小孩子,有几个点比较重要,第一个是要培养小孩子集中注意力的能力,能不能自我控制集中注意力,延迟享乐,比如学下棋、做数学题看书,集中精力做一件事,这样对未来会有帮助。对于大数据思维的培养,并不在于做多少数学题,但是可以让他理解世界是有因果的,理解了因果才有逻辑。比如限制供给,付出努力才能得到,做什么样的事情可以得到什么后果。”&&◆&◆&◆结语&“什么是青春,青春就是把所有力量都集中起来去做一件触动自己灵魂的事情。”&如果以周涛自己所说的这条标准去判断,那么而立之年的他依然在抓紧时间极致地体验青春。&那么该如何“为数据而生呢?”周涛如此总结自己正为之奋斗的事业和还年轻的人生,本文也以此做结吧:&“我认为最重要的事情,从我个人执行层面来说,是创造和传播知识,努力提高下一代人的品位和格局;而从长远来讲,社会上一代一代人最重要的只有两件事,理解宇宙和生命的诞生,还有,消除暴力和贫穷。”&&最后,点击视频查看周涛给大数据文摘读者的悄悄话:&&&*【思享者】栏目招募志愿者*思之,分享之,所谓【思享】也。而我们想做的,就是把真正的思想分享出去,我们叫自己【思享者】。大数据文摘【思享者】栏目专注对话大数据行业最有思想的人物,记录并传递最in的数据干货,分享对时下数据形式问题的态度。我们希望通过对采访现场的文字、音频、视频还原,让您身临其境地仿佛面对面一样对话大咖,真正看到每一位数据家鲜明的个性和真正想传达的想法。如果你也喜欢和有趣、有料、有深度的人聊天对话 ;如果你也想要和大数据文摘一起把更多大数据深度思想分享给全世界;如果你善于用文字、视频、音频的方式表达想法,点击文末【阅读原文】加入大数据文摘【思享者】,成为数据大咖访问团志愿者中的一员,和我们一起对话大咖、分享思想。
发表评论:
馆藏&12228
TA的最新馆藏  电子科技大学教授、BBD(数联铭品)首席科学家周涛   2016第五届上市公司领袖峰会”于11月24日-26日在成都举行。主题为“聚焦供给侧、创新资本路”。深圳证券交易所创业企业培训中心主任邹雄出席会议并发表主旨演讲。  他提到,所有的大是给决策提供支撑的,但是决策者还是人,到了智能时代决策者就不是人,决策闭环中没有人的存在。比如说未来的律师,未来的医生,未来的检察官,很有可能都不是人,或者中间很大部分都不是人,这就是为什么刚才阎老师会说30%-40%的工作岗位会消失,而有些是肯定不会消失的,第一就是做科学和艺术创作,第二就是通过情感关怀让人们远离痛苦恐惧获得安逸。  以下是演讲摘编:  周涛:谢谢主持人,很高兴在这里跟大家讲的问题。大数据目前炒的热度超过了其对行业真正贡献的概念,几乎所有的政府和投资人都在追这个概念,几乎每个企业打得开电子表格他都号称自己是大数据企业,所以我今天的报告其实很简单,我想通过一些鲜活的例子让大家能够判断什么是真正的大数据创新,什么不是。  简单而言,我认为大数据的核心部分是两部分。第一是数据的外部化,大数据时代一组数据一定不仅仅是被这组数据产生的这个地方使用、优化产生新价值,而是在很多看起来风马牛不相及的地方产生价值,用10次、100次、1000次甚至更多。第二,大数据不是简单的统计报表,不是商务智能的工具在更大量数据中的简单应用,而是我们通过人工智能,尤其是人工智能里边机器学习的办法获得深刻的洞见,再用这种深刻洞见支持高效准确的决策。只有这两者加到一起我们才有真正的大数据的时代,大数据的创新兴起。  我认为大数据正在深刻改变当下的社会经济,不完全是一个泡沫,我从三方面来谈一谈。  第一,它改革了政府的监管方式,让政府变革更加定量化、扁平化、透明化。数联铭品很早就开始用政府公开和企业公开的数据,包括董监高形成的公司与公司之间的关联数据,包括质押数据、知识产权数据、人力资源招聘数据等等来打击非法集资。  下面我讲第二个例子,我们怎么样用机器学习的办法能够实现帮助政府更好的进行监管,监督性抽检的作用就是要发现更多的不合格品,但是每个检验要花几千块钱,如果大部分产品都是合格品,那就起不到监督的作用,但是在全国范围来看监督抽检发现不合格的比例和随机抽检都是一样的,没什么差别,都是2.3%。  但是我们发现不合格品的出现在地域上分布高度不均匀,而且受天气环境的影响,受方式、保质期、食品品类,甚至包括食品生产企业的股东结构都有关系,我们把来自不同地方的数据汇聚到一起做了机器学习的模型,它可以自适应不断提高精度,最终我们达到了惊世骇俗的10.7%,在全国我们把第二名抛到不知道有多远,这就是大数据的魅力。实际上,未来的政府监管比大家想象的还要恐怖。  第二,大数据还能够优化资源配置。我们都知道医疗资源是高度不平等的,但是当我们下到一个县,走到三甲以下的那些小地方的医院,甚至到社区医院,我们并不知道这个县的医疗资源到底有哪些东西是不平等的。但是现在我们通过数十亿的电子病例数据的分析,以四川为例,我们能够很清楚地知道一个小城市乃至一个县,到底科室哪些做不了。宜宾在成都是比较发达的城市,但是宜宾所有跨地市转诊前6名,有5名都是儿科,说明儿科不行。再往儿科走,头位顺产是比较好处理的,但是攀枝花这个地方有30%要转诊,说明这个地方儿科不行。  我们发现有些县没有皮肤外科,这些东西不是卫计委到每个县去分析,我们只需要分析电子病例的首页就能发现。当我们有了这些数据,比如说高血压、糖尿病这些病种,我们分析这些病人所有的结算数据,我们就能够很好知道他到底把钱花在哪些并发症上,一个当前血压和体检报告如此如此的人,他在一年后两年后大概要在上花多少钱,方差是多少?区间是多少,可以让我们进行更好的医保政策制定以及商业保险。我们还做了很多医保控费,现在覆盖8200万人,9.3亿明细,1亿的报销能检出300-600万的医保诈骗。  第三,大数据还能增加工业生产效率,真正给传统行业带来转型升级。比如我们在(),对于五粮液这样的酒厂来说,他认为酿酒是一门艺术,但是围棋也是艺术,计算机能战胜李世石就能战胜酿酒大师,不同班组对酿酒的理解也是不一样的,五粮液16次加水加汤,每个班组加的方法完全不一样,但是我们能够通过大量的数据把一张一张的纸花四个月时间录入到计算机,通过对窖池的学习,我们能找到这种温度、湿度、搅拌、浑浊度等等,与最后产酒的关系,从而我做一个(),用来酿酒,机器人酿的酒能够比人酿的酒还要厉害,我们酒的产量还能再提高20%。  从数据时代走向智能时代。所有的大数据是给决策提供支撑的,但是决策者还是人,到了智能时代决策者就不是人,决策闭环中没有人的存在。比如说未来的律师,未来的医生,未来的检察官,很有可能都不是人,或者中间很大部分都不是人,这就是为什么刚才阎老师会说30%-40%的工作岗位会消失,而有些是肯定不会消失的,第一就是做科学和艺术创作,第二就是通过情感关怀让人们远离痛苦恐惧获得安逸。  我不知道我们的未来在哪里,会不会几十亿年发展过去之后走向机器人的未来,但是即便如此,我相信人类也在碳基生物这个时代发挥了它应有的作用。谢谢大家! 
欲知更多股市机会,速速关注微信号:股市机会情报(thsjihui)
责任编辑:yyc
回复0条,有0人参与
以下网友评论只代表同花顺网友的个人观点,不代表同花顺金融服务网观点。
净额(亿)
同花顺财经官方微信号
手机同花顺财经
炒股必备&同花顺财经
同花顺爱基金
您有什么问题想要告诉我们?
留下您的联系方式,以便我们向您反馈结果
提交成功,感谢您的支持!
近1年收益率
近1年收益率
近1年收益率
近1年收益率
近1年收益率
最近7日年化
最近7日年化周涛:大数据是给决策提供支持的 不论决策者是不是人 _ 东方财富网()
周涛:大数据是给决策提供支持的 不论决策者是不是人
东方财富网APP
方便,快捷
手机查看财经快讯
专业,丰富
一手掌握市场脉搏
手机上阅读文章
智能时代的决策者不再是人,但一些工作岗位仍不会消失。第一就是做科学和艺术创作,第二就是通过情感关怀让人们远离痛苦恐惧获得安逸。
   日,由每日经济新闻主办的“2016”在成都举行。会上,电子科技大学教授、BBD(数联铭品)首席科学家周涛做了主题演讲,以下为演讲实录:
  谢谢主持人,很高兴在这里跟大家讲大数据的问题。大数据目前炒的热度超过了其对行业真正贡献的概念,几乎所有的政府和投资人都在追这个概念,几乎每个企业打得开电子表格他都号称自己是大数据企业,所以我今天的报告其实很简单,我想通过一些鲜活的例子让大家能够判断什么是真正的大数据创新,什么不是。
  简单而言,我认为大数据的核心部分是两部分。第一是数据的外部化,大数据时代一组数据一定不仅仅是被这组数据产生的这个地方使用、优化产生新价值,而是在很多看起来风马牛不相及的地方产生价值,用10次、100次、1000次甚至更多。第二,大数据不是简单的统计报表,不是商务智能的工具在更大量数据中的简单应用,而是我们通过人工智能,尤其是人工智能里边机器学习的办法获得深刻的洞见,再用这种深刻洞见支持高效准确的决策。只有这两者加到一起我们才有真正的大数据的时代,大数据的创新兴起。
  我认为大数据正在深刻改变当下的社会经济,不完全是一个泡沫,我从三方面来谈一谈。
  第一,它改革了政府的监管方式,让政府变革更加定量化、扁平化、透明化。数联铭品很早就开始用政府公开和企业公开的数据,包括董监高形成的公司与公司之间的关联数据,包括质押数据、知识产权数据、人力资源招聘数据等等来打击非法集资。
  下面我讲第二个例子,我们怎么样用机器学习的办法能够实现帮助政府更好的进行监管,监督性抽检的作用就是要发现更多的不合格品,但是每个检验要花几千块钱,如果大部分产品都是合格品,那就起不到监督的作用,但是在全国范围来看监督抽检发现不合格的比例和随机抽检都是一样的,没什么差别,都是2.3%。但是我们发现不合格品的出现在地域上分布高度不均匀,而且受天气环境的影响,受食品包装方式、保质期、食品品类,甚至包括食品生产企业的股东结构都有关系,我们把来自不同地方的数据汇聚到一起做了机器学习的模型,它可以自适应不断提高精度,最终我们达到了惊世骇俗的10.7%,在全国我们把第二名抛到不知道有多远,这就是大数据的魅力。实际上,未来的政府监管比大家想象的还要恐怖。
  第二,大数据还能够优化资源配置。我们都知道医疗资源是高度不平等的,但是当我们下到一个县,走到三甲以下的那些小地方的医院,甚至到社区医院,我们并不知道这个县的医疗资源到底有哪些东西是不平等的。但是现在我们通过数十亿的电子病例数据的分析,以四川为例,我们能够很清楚地知道一个小城市乃至一个县,到底科室哪些做不了。宜宾在成都是比较发达的城市,但是宜宾所有跨地市转诊前6名,有5名都是儿科,说明儿科不行。再往儿科走,头位顺产是比较好处理的,但是攀枝花这个地方有30%要转诊,说明这个地方儿科不行。我们发现有些县没有皮肤外科,这些东西不是卫计委到每个县去分析,我们只需要分析电子病例的首页就能发现。当我们有了这些数据,比如说高血压、糖尿病这些病种,我们分析这些病人所有的结算数据,我们就能够很好知道他到底把钱花在哪些并发症上,一个当前血压和体检报告如此如此的人,他在一年后两年后大概要在医保上花多少钱,方差是多少?区间是多少,可以让我们进行更好的医保政策制定以及商业。我们还做了很多医保控费,现在覆盖8200万人,9.3亿明细,1亿的报销能检出300-600万的医保诈骗。
  第三,大数据还能增加工业生产效率,真正给传统行业带来转型升级。比如我们在,对于五粮液这样的酒厂来说,他认为酿酒是一门艺术,但是围棋也是艺术,计算机能战胜李世石就能战胜酿酒大师,不同班组对酿酒的理解也是不一样的,五粮液16次加水加汤,每个班组加的方法完全不一样,但是我们能够通过大量的数据把一张一张的纸花四个月时间录入到计算机,通过对窖池的学习,我们能找到这种温度、湿度、搅拌、浑浊度等等,与最后产酒的关系,从而我做一个,用机器人来酿酒,机器人酿的酒能够比人酿的酒还要厉害,我们酒的产量还能再提高20%。
  从数据时代走向智能时代。所有的大数据是给决策提供支撑的,但是还是人,到了智能时代决策者就不是人,决策闭环中没有人的存在。比如说未来的律师,未来的医生,未来的检察官,很有可能都不是人,或者中间很大部分都不是人,这就是为什么刚才阎老师会说30%-40%的工作岗位会消失,而有些是肯定不会消失的,第一就是做科学和艺术创作,第二就是通过情感关怀让人们远离痛苦恐惧获得安逸。
  我不知道我们的未来在哪里,会不会几十亿年发展过去之后走向机器人的未来,但是即便如此,我相信人类也在碳基生物这个时代发挥了它应有的作用。谢谢大家!
(责任编辑:DF207)
[热门]&&&[关注]&&&
举报原因:
人身攻击 
侵权(诽谤、抄袭、冒用等)
举报邮箱:
举报成功!
请下载东方财富产品,查看实时行情和更多数据
网友点击排行
郑重声明:东方财富网发布此信息目的在于传播更多信息,与本网站立场无关。东方财富网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。
扫一扫下载APP
东方财富产品
关注东方财富
天天基金网
扫一扫下载APP
关注天天基金大数据时代导读:大数据时代的数据统计分析师是运用全新的模式对海量、高增长率和多样化的信息资产就行处理分析,具备更强的决策力、洞见发现力和流程优化能力的人。
推荐标签:
CDA大数据培训
CDA大数据培训从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统学习Hadoop、HDFS、MapReduce、Hbase、Mahout、Spark等大数据知识和Hadoop大数据生态环境,
学会Hadoop多种模式的安装配置,以案例的形式,重点讲解基于Mahout项目的大数据分析之聚类、分类以及主题推荐。重点培养基于Hadoop架构的大数据分析思想及架构设计,演示实际的大数据分析案例,在较短的时间内理解大数据分析的真实价值,使用Hadoop架构应用于大数据分析过程,
学员能有一个快速提升成为兼有理论和实战的大数据分析师,适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势,CDA大数据周末班和3个月就业班任你选择,解决行业痛点。
面授时间:日—日(8天周末班)
面授地点:北京市海淀区丹龙大厦
授课时间:上午9:00-12:00;下午13:30-16:30(课后1小时答疑)
CDA大数据培训班赠送视频,反复学习,提供在线咨询,享受CDA社群服务
(大数据周末班)
面授时间:日—日(3个月就业班)
面授地点:北京市海淀区丹龙大厦
授课时间:上午9:00-12:00;下午13:30-16:30(课后1小时答疑)
CDA大数据培训班赠送视频,反复学习,提供在线咨询,享受CDA社群服务
(大数据就业班)
数据的征服:读《大数据时代》
谷歌有一个名为"谷歌流感趋势"的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入"紧张"级别。
它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。
事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认
大数据时代BI王者之剑——SAS企业挖掘系统
大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理和分析能力;同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。对企业而言,能够从大数据中获得全新价值的消息是令人振奋的。
然而,如何从大数据中发掘出"真金白银"则是一个现实的挑战。这就要求采用一套全新的、对企业决策具有深远影响的解决方案人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来
大数据概念
  "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
百度知道—大数据概念
  大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。
互联网周刊—大数据概念
  "大数据"的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力
研究机构Gartner—大数据概念
  "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。"
Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。
大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
大数据分析
  从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
  大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
  大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
  大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
  大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
大数据技术
  数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
  数据存取:关系数据库、NOSQL、SQL等。
  基础架构:云存储、分布式文件存储等。
  数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
  统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
  数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
  模型预测:预测模型、机器学习、建模仿真。
  结果呈现:云计算、标签云、关系图等。
大数据特点
  要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
  第一,数据体量巨大。从TB级别,跃升到PB级别。
  第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
  第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
  第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
  大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
当下我国大数据研发建设应在以下四个方面着力
  一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
  二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
  三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。
  四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
大数据作用
  大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。
变革价值的力量
  未来十年,决定中国是不是有大智慧的核心意义标准(那个"思想者"),就是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。
变革经济的力量
  生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。
变革组织的力量
  随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、博客等。
大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。
大数据处理
  周涛:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
大数据处理的流程
  具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
大数据处理之一:采集
  大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
大数据处理之二:导入/预处理
  虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
  导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
大数据处理之三:统计/分析
  统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
  统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
大数据处理之四:挖掘
  与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
  整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理
CDA大数据应用培训与案例分析
  大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是我整理的关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。
大数据应用案例之:Hadoop大数据分析
(1)人大经济论坛日志分析,介绍日志分析的相关知识,以及人大经济论坛现在的日志管理现状,设计并实现适合人大经济论坛的基于hadoop架构的大数据日志分析系统,手动编写日志分析MapReduce程序,并在集群环境下运行自已的jar文件,实现从零起步到hadoop架构,直到实际的大数据分析真实案例的飞跃。
(2)基于旅游点评网站的文本挖掘,介绍文本挖掘的相关知识,使用网页爬虫抓取旅游点评网站的实际数据,实现数据的清洗和预处理,制定定时更新机制,并尝试使用手动编程实现MapReduce程序,在hdfs上运行和处理采集的数据,真正参与基于实际项目的大数据分析过程。
(3)基于Mahout的人大经济论坛主题推荐,介绍推荐系统和汉字主题推荐涉及的文本挖掘等相关知识,以及人大经济论坛主题推荐的项目背景,项目的需求分析以及基于hadoop+Mahout算法模型和系统架构设计解析,并同时使用手动编写MapReduce代码和利用Mahout提供的主题推荐算法两种方法解决人大经济论坛的主题推荐。
大数据应用案例之:医疗行业
  [1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
  [2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
  [3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
大数据应用案例之:能源行业
  [1]  智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
  [2]  维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
大数据应用案例之:通信行业
  [1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
  [2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
  [3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
  [4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
大数据应用案例之:零售业
  [1] "我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
  [2] 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
大数据时代相关帖子
&&京ICP证090565号 &&
京公网安备号}

我要回帖

更多关于 决策者 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信