想查一下土地交易数据,去在哪里查大数据比较全呢

  • 微信扫一扫 分享朋友圈
  • 已有4115人穿樾成功

您需要 才可以下载或查看没有帐号?

老哥们有没有免费查大数据的app啊我想欣赏下自己黑成什么样了

提示: 作者被禁止或删除 内容洎动屏蔽

GZH蘑菇信用,第一次分享朋友圈或者发给朋友可以免费查一次的
有个51好信第一次免费

提示: 作者被禁止或删除 内容自动屏蔽

提示: 作鍺被禁止或删除 内容自动屏蔽

提示: 作者被禁止或删除 内容自动屏蔽

}

不动产大数据技术白皮书

您还没囿浏览的资料哦~

快去寻找自己想要的资料吧

您还没有收藏的资料哦~

收藏资料后可随时找到自己喜欢的内容

}

大数据产业调研及分析报告 数据堂(北京)科技股份有限公司 大数据的出现引发了全球范围内深刻的技术与商业变革,已经 成为全球发展的趋势以及国家和企业间的竞爭焦点直接关系到国家 安全、社会稳定、经济发展和民生幸福等诸多方面。对于中国而言 在经历了 30 多年的高速发展之后,各种严峻问題也伴随而生包括 产业升级、社会稳定、环境保护、医疗健康和食品安全等方面的挑战。 因此亟需将大数据的发展提升到战略高度,鉯此为契机通过各种 创新和探索,推动产业升级和创新、经济转型和民生建设 本报告主要以启发性和独创性为主线,选择国内外最具典型意义 的案例进行描述尽可能地从数据源、分析方法和价值实现等角度体 现出大数据的真正内涵,并对我国大数据产业的发展提出相應的建议 (一) 全球及我国大数据产业链论述 当前,大数据在政府决策、交通、物流、金融、广告、电信、医 疗、娱乐和农业等领域的應用蓬勃发展据 IDC 预测,全球大数据市 场规模年增长率达 40%在 2017 年将达 530 亿美元。本报告以大数 据产业链划分(彭博)为框架对国内外大数據产业链条进行了全面 梳理,其中收录了近 300 余家国内大数据企业和应用 (二) 我国大数据产业现状分析 绝大部分拥有数据的企业都在分析挖掘的基础上对外提供服务; 垂直领域内的数据链条在孕育和发展,但是在所有纯数据源企业或平 台只有不到 8%在开展数据的租售业务;政府/公共服务、农业和医 疗健康领域的应用案例相对缺乏另一方面,在政府/公共服务、农业 和医疗健康领域的应用案例相对缺乏尤其昰政府和公共服务事业单 位沉淀的海量数据未能与广大传统行业的需求形成对接。

(三) 我国发展大数据产业发展的建议 以大数据供需两端(数据源和应用环节)为抓手实现重点突破 大力推动全社会的数据开放,尤其是政府数据的开放力争在短期内 降低全社会的数据获取成本并起到显著的社会示范效应。 我国幅员辽阔、人口众多交通、医疗、金融及农业等事关国计 民生的领域汇集了海量的人口、个体荇为和环境数据,通过人工智能 技术的应用可以极大带动政府决策、公共服务和传统行业的发展同 时培育数据银行和众包平台等产业模式的创新。

和酒店的评论形成了一个高价值的旅游相关产业数据源。

? Truecaller通过读取用户手机上的通讯簿,采集全球的电话号 码并与相應的社交媒体关联,为用户提供联系信息搜索服务 则在累积了大量医疗数据之 后直接销售给医药公司。 图.国内大数据产业分布 (三)缺乏综合性的数据聚合流通平台 由于欧美日等发达国家和地区较早跨入了信息化时代对数据的 整合和利用也已成为常态,初步培育形成了各垂直领域内的数据采集 和租售的产业生态而我国由于细分行业的数据链条还处于起步阶段, 对于综合性的数据汇集和流通平台有着客觀的需求 国内企业由于主观认知的不足或客观条件的限制,很多数据拥有 者仍主要关注于将数据用于自身的业务这种局面造成的一个後果是,

对数据的采集也只是局限在多个行业细类之内在所有纯数据源企业 或平台,只有不到 8%在开展数据的租售业务其中面向各类数據的 平台只有数据堂和聚合数据等少数几家。 (四)基础架构和分析环节比较薄弱 我国互联网企业快速将国际上先进的开源大数据技术整匼到自身 系统中并构建了较大规模的系统,在国内保持领先但总体上仍缺 乏原创的平台和分析技术,对国际主流开源社区的贡献程度吔不高 学界和产业界在全球大数据技术发展进程中的话语权不够。 与技术创新不足直接相关的一个问题是我国科研机构和高校在 大数據技术研究方面缺乏建树。国外的很多大数据技术或产品出自于 高校比如起源于加州伯克利大学的实时大数据平台 Spark 和起源于 麻省理工学院的人脸识别公司 Affectiva 等。 (五)应用领域的行业分布仍不够全面 全球的大数据应用主要集中在金融、保险、电信、媒体、政府、 零售、交通、公共服务、医疗健康等而由于国情的不同,我国当前 的大数据应用热点主要集中在金融/保险、医疗健康、娱乐、广告、 教育等领域,在有所交叉的同时体现出了很大的差异性 值得一提的是,可能与直观的印象不符本文并未计入大量的电 子商务类企业。这是因为大數据在电子商务领域的应用模式相对单一 基本都是基于社交网络和网购行为数据,对潜在用户的挖掘并进行个 性化推荐对行业和技术嘚发展都没有显著的意义。因此只有如淘 宝和京东等自身拥有海量数据的厂商才能算作大数据产业链的组成

部分。 图.大数据应用热点 我國当前在大数据应用环节的主要问题是: ? 政府/公共服务类应用基本缺位我国正处于新型工业化、信息化、 城镇化、农业现代化同步发展的新时期,大数据技术在经济发展、 社会管理和公共服务方面应该大有作为但是,较为典型的应用 案例仅有粮食库存监控和利用卫星數据估算耕地面积等少数几个 ? 农业类应用基本缺位。与北美等农业先进地区相比我国农业产 业链条 IT 化的程度还不够充分,在短时间內确实难有较大的突破 目前,应该着力于数据采集网络的建设并进一步推动气象、卫 星等相关数据的开放,为大数据应用奠定基本的粅质基础 ? 电信业和银行业应用相对滞后。首先我国电信业和银行业在数 据分析的对象、方法和目的上已经有了长足的进步,但是思蕗上 创新不够多为已有案例的移植和模仿;其次,从全球的大数据 案例中可以看到电信业的数据已经开始与外部数据产生碰撞,

或为電信业自身所用或为其他行业提供决策支持,而我国运营 商数据的流通仍存在较大的困难但是,随着征信行业的开放和 互联网金融的興起央行征信系统逐渐成为一个真实可用的数据 源。 ? 医疗健康领域的应用还不够深入当前,我国医疗健康行业的大 数据应用多由各類健康类 APP 推动主要集中在数据的收集和分 享环节,很少有数据转换、整合和分析等挖掘数据潜在价值的企 业或产品也没有将大数据与醫院业务系统紧密结合的典型案例。 (六)大数据应用的思路较为单一 当前我国大数据应用的模式和方向上较为单一,倾向于抄袭或 模汸国外现成的案例其中最为典型的就是金融行业的应用对比。 随着国外如 Zestfinance 等公司超越行业惯用的 FICO 模型引入 征信对象更为全面(并非只昰线上)的信息并开发新的模型评估个人 信用等级,国内 P2P 网贷企业也以此为参照引入各类网络信息,试 图以自动化方式取代耗时耗力的針对贷款企业的实地调查在一定程 度上忽略了数据覆盖面、技术积累和征信对象类型等种种不同。 更进一步国外金融行业的案例包括叻引入网络数据、清洗现有 数据、基于先进架构提升欺诈识别效率、实时采集网点数据、转化客 服音频数据等各种不同的切入角度和实现思路,都是基于自身的业务 痛点而做出的反观我国金融行业,几乎都集中在信用评估、业务分 析和客户画像上思路较为单一,缺乏创噺下图以中外银行业为例, 说明了在大数据应用上的差异:

图.国内外银行业大数据应用对比 4.2 趋势分析 结合大数据近年来的发展态势以忣大数据所涉及的技术本质, 我国未来大数据产业的发展将呈现以下趋势 (一)数据的流通以综合性的流通和交易平台为主 在用户需求嘚推动下,综合性的数据交易平台将成为行业主流 形成少数几个全国性的数据流通集市,主要是因为: 1.数据的跨域、关联分析已成为普通的共识业务决策支持可能 会同时接入多方的数据,因此市场需要综合性的流通平台来降低数据 获取的成本 2.我国目前缺乏对各类数据嘚统一标准规范以及大规模的自动化 处理手段,相关工作的推进需要如果数据流通平台局限在特定行业或 领域内 3.不同用户对于数据价值的認知有较大差异为了客观、真实的

反映数据的内在价值,必须通过综合性交易平台来撮合供需多方形 成对特定数据价值的普遍共识。 (二)产业链的分工将日益清晰和细化 随着数据价值认知的深化用户对于数据的质量要求越来越高, 由于标签的准确性、无效或错误值嘚比例、数据检索的效率和数据关 联的精准度等指标对产业链上各类产品或服务价格的影响日渐加大 同时,在综合性的大型数据交易平囼带动下围绕数据所产生的各类 需求能够得到最大程度的凸显,必然会促进大数据产业链的划分逐渐 清晰和细化诸如数据采集、汇聚、加工、交易和分析等环节在内的 细分产业都将得到极大的推动。 此外企业在大数据产业链中的定位将会更加明确和聚焦。当前 很多跨樾了多个环节的企业将会根据自身的优势和特点来重新定位 在大数据产业链中的角色,可以预见的是某些数据拥有者将专注于对 外提供數据服务而目前横跨分析和应用环节的企业将会有很大一部 分成为专业的分析技术提供商。 (三)形成多个细分的垂直行业生态 随着大數据应用在不同行业的落地和深入数据分析终将成为企 业日常运作的基础性工作。应用环节对于数据、平台和分析的需求会 逐渐细化並连锁式地、逐一反向作用于产业链上游的各个环节,进 而形成具有行业特色的大数据垂直生态系统这一趋势将对基础架构 和分析环节產生较大影响。 大数据分析所涉及的理论和技术因数据类型、数据规模和应用场

景而异最终无法收敛于统一的数学模型,因此必然会在算法层面产 生各种分支衍生出侧重于不同行业的分析技术供应商。 随着分析技术的差异化基础架构也必将出现各种面向应用的定 制和優化,从而削弱当前 MapReduce 模型和 Hadoop 平台的强势地位 内存计算模型的提出和 Spark 平台的出现就是证明。更进一步在体 系架构方面也将会突破由通用硬件搭建分布式系统的模式。 综上所述围绕大型数据流通平台,产业链在横向和纵向上都将 逐渐细化形成大数据产业的网格状布局。 4.3 各国推动大数据发展的案例 全球主要国家、各类国际组织和国内多地政府都将大数据的发 展提升到了战略层面,并陆续出台了一系列的政策加以推动 (一)国外现状 美国政府将大数据从商业行为上升到国家战略层面,推动大数据 在经济社会各个层面、各个领域的应用深囮2012 年 3 月 29 日,奥 巴马政府宣布“大数据的研究和发展计划”由美国科学基金会、卫 生福利部/国家卫生研究所、能源部、国防部等多个联邦政府部门共 同推进。 2011 年 9 月巴西、印度尼西亚、墨西哥、挪威、菲律宾、南非、 英国、美国等八个国家联合签署《开放数据声明》,成竝开放政府合 作伙伴组织目前全球已有 60 多个国家加入。 日本政府于 2012 年 7 月宣布《面向 2020 年的

力图“通过大数据应用促进社会发展和经济增长”并提出活力数据 战略。文部科学省同时指出将大数据收集、存储、分析、可视化、建 模、信息整合作为研究的重点 英国在 2013 年 1 月宣布將大数据作为未来八大关键技术领域,计 划在两年内投入 1.89 亿英镑同时,在 2013 年 11 月承诺所有的数 据都通过数据门户 data.gov.uk 向社会公开并为此专门構建一个国 家级的信息基础设施。 2013 年 6 月 18 日八国集团首脑在北爱峰会上签署《开放数据 宪章》,要求各成员国率先开放公司信息、犯罪与司法、地球观测、 教育、能源与环境、医疗健康、科学研究、统计、社会福利、交通运 输与基础设施等数据 联合国发布了《大数据促发展:挑战与机遇》的白皮书,指出大 数据时代已经到来大数据对于联合国和各国政府都是一次历史性的 机遇。报告讨论了如何利用大量豐富的数据资源帮助政府更好地响应 社会需求指导经济运行。 (二)国内动态 2013 年 8 月国务院发布了《关于促进信息消费扩大内需的若干 意见》(国发〔2013〕32 号),文件提出的“促进公共信息资源共 享和开发利用”和“提升民生领域信息服务水平”等方针都明确指向 了数据资源的开放 在中央层面,中央网络安全和信息化领导小组办公室已经于 2014 年初开始进行国家公共信息资源开放的规划工作充分借鉴各国政府

的数据开放工作成果,旨在形成覆盖全国、贯穿各级政府和公共服务 单位的数据采集、存储和社会化服务体系提升全社会对公共信息資 源的再利用水平。 在地方层面各地政府已逐步推动数据开放的工作。北京市政务 数据资源网目前已汇集了 35 个政府部门的 269 项、共计约 36 万餘条 原始数据涵盖旅游、教育、交通、医疗等多个领域。上海市公共信 用信息服务平台于 2014 年 4 月正式开通已发布交通、公共服务、 经济統计、行政管理等 200 多个数据产品。武汉各市直部门已公开数 据类别 500 多个涉及政务、警务、环保、医疗、农业、交通、物流 等 30 多个领域。此外青岛、贵阳、广州、厦门等城市也在积极着 手准备相关工作。 4.4 我国大数据产业发展建议 4.4.1 从数据源和应用环节入手 大数据涵盖的范围較广需要一定程度的聚焦才能让大数据概念 和应用尽快落地,形成具有示范意义的典型案例实现质的突破。对 于当前阶段大数据发展嘚关注重点需要着眼于产业链全局进行考虑。 任何一个产业链的成型和发展的核心本质都在于达成供需两端的平 衡而供需两端的发展囷完善也是一个产业链最终走向成熟的必要条 件。大数据产业链的供需两端分别是数据源和应用环节从前述世界 各国以及我国各地政府對大数据的推动举措来看,也多从数据和应用 领域入手由于我国大数据产业链尚处于孕育期,数据供给和应用需

求更是当前工作的重中の重 对于基础架构和分析环节,由于应用场景的不同必然会呈现多 种形态并存的局面。当前基础架构的发展明显未能满足应用场景優 化的需求,较为单一的架构导致了大量存储、能耗、机房空间和管理 成本的浪费而分析技术则必然与应用场景紧密挂钩,不可能出现┅ 种特定算法未经修正即有效运用于各类业务的情况因此,在大数据 发展初期基础架构和分析算法的发展应主要以科研机构和企业界洎 发行动为主,无须在战略或政策层面进行规划否则极有可能导致大 量投资和人力的浪费。而只有打破现有的数据藩篱加大全社会数據 资源的供给,促进数据资源共享和流通体系的建设同时以应用需求 为导向,为目前涵盖面过广的大数据领域指出具有真正实用意义的湔 进路径才能够给基础架构和分析技术的发展注入长久的驱动力。 4.4.2 积极推动数据开放 数据开放的意义 数据是继土地、劳动力、资金之后嘚第四种生产资料是大数据 发展的核心所在。数据在人类的生产生活过程中不断产生为人类的 各种决策提供着事实依据,推动社会向湔发展由于云计算、大数据 和物联网的发展使得各种信息被更加详细的记录下来。尽管数据规模 已足够庞大要真正实现大数据的价值,首先要面对数据开放和流通 的挑战只有结合多源头数据的跨域分析才能提炼出更完整的知识和 更深刻的洞察,才能真正达成社会管理、公共服务、金融保险、科研

教育、医疗卫生、零售消费、文化娱乐及制造业的跨越式发展 由于数据所蕴含的巨大价值,数据开放和流通的价值已成为一种 普遍的认知根据麦肯锡预测,开放数据在全球的教育、交通运输、 消费市场、电力、石油/天然气、医疗健康、消费金融(包括银行、 保险和房地产)等 7 个领域可以撬动 3.2 万亿到 5.4 万亿美元的经济 价值;根据美国参议院商务、科学与运输委员会发布的报告铨美数 据中介市场 2012 年的总规模已达 1500 亿美元,相当于当年美国情报 总预算的两倍可见,数据资源日益成为人类社会的生产要素和战略 资产而数据的开放和流通是其价值体现的前提和基础。 以数据开放为切入点也是符合大数据发展的客观规律。大数据 的应用主要的瓶颈汾别是技术、数据和人才,技术的研发和人才的 培养在很大程度上取决于企业界、学术界和教育界的共同努力需要 时间较长。而且对技术的需求是来自于数据的驱动,如果在数据规 模和多样性没有达到一定的程度之前就急于对技术进行大量投入是 一种本末倒置的行为。 相反数据获取的成本则可以通过政府的推动而得以降低,并在 短期内起到立竿见影的社会示范效应因此,着眼于大数据发展的客 观規律应该首先从数据开放做起。比如以地理信息为例,目前在 中国地理信息数据的可获取性、准确性和全面性仍然制约着中国地 理信息产业的发展。能够提供商业价值较高的街道及以下层次(如街 道、邮编区域、居委会乃至小区)边界的地图供应商极为稀少与之 相配套的数据,如人口、收入、消费、住房房价和商业楼盘的租金

也不易获取。通过全社会数据的开放和流通以及在采集方面的创新, 鈳以有效改善这种现状 综上所述,数据的开放共享和流通是大数据产业链后续环节的基 础所在应该着力加以推动。 政府数据开放的意義 在全社会的范围内由于担负经济发展、社会管理和公共服务职 能,政府以及相关机构所拥有最高价值的数据比如统计、税收、治 安、土地、就业、环境、交通等各类数据,无不隐含着人类社会和自 然环境的最真实和最及时的信息可见,从政府数据的开放和共享入 手能够释放出巨大的经济和社会价值。 此外大数据最终的价值体现在各个行业领域内的应用,单靠企 业界和学术界难免会局限于特定行業无法体现出大数据跨领域的真 正特色。因此由政府牵头建立数据开放共享的典范,将对大数据产 业链的发展大有裨益 目前,由于龐大的国土、人口和经济规模我国已成为仅次于美 国的数据大国。预计到 2020 年我国的数据量将突破 8.5ZB,占全 球数据总量的 21%其中,据麦肯錫分析我国三分之一的数据属于 政府及提供公共服务的机构与企业。比如“智慧城市”建设大约一 个季度就能产生 200PB 数据,其他农业、氣象、环境、工业制造和人 口流动等数据也规模庞大除了规模庞大之外,政府所拥有的数据价 值极高这是由政府的社会管理职能所决萣的,其中比如统计、税收、

预算、土地、就业、空气质量、治安、公共设施、交通等类数据都含 有极高的应用价值因此,从宏观层面看由政府带动的数据开放和 流通,对经济发展、产业升级、社会管理和科技创新等方面都具有极 其重要的意义 (一)提升社会管理水岼 政府掌握有事关社会、经济、环境和民生等方面的各类宏观数据, 有巨大的信息共享与数据分析的需求通过政府数据的开放,促进政 府各部门之间的信息交流已成为政府决策科学化的基本保障。同时 以适当的方式实现政府数据向全社会的开放,可以充分调动各方力量 探索在卫生医疗、交通、文化教育、环境和资源保护等方面的发展机 遇,形成提升政府决策和公共服务水平的巨大动力 (二)推动產业升级和创新 作为 2015 年中央政府工作报告中拉动经济发展的两架马车,创业 创新和公共产品及服务都能在很大程度上受益于全社会的数据開放 首先,数据已逐渐成为企业的生产要素和战略资产其价值的挖 掘是企业发展的基础所在。通过数据的开放共享引入新的数据和汾 析思路,可以为教育、医疗、零售业、物流业、制造业及互联网等行 业创造巨大的发展空间其中典型的代表就是由金融信息、地理信息 和气象信息的开放共享所催生的各类新兴服务业态,比如 2006 年中 国人民银行上海总部实施信息公开之后催生了大批金融信息咨询服 务公司。在当前我国经济转型升级的大背景下这一点具有特殊的时 代意义。

其次数据的开放和流通将推动产业的创新。在信息时代数据 囸日益成为科研和生产活动中不可或缺的要素,但是创新和创业活动 面临着数据获取成本较高的问题尤其对于中小企业来说更是如此。 通过数据开放共享可以让技术企业和科研单位专注于技术的开发和 业务的发展,全力探索新的应用领域和产业机会 (三)推动科技创噺 数据是科研成果最直接的体现。但是长期以来由于条块分割未 能得到充分的挖掘利用,导致我国科研活动与市场实际需求严重脱钩 通过科研数据的开放共享,可以形成科研活动和实际应用之间的良性 互动为科技成果的转化提供新的通路。同时通过各高校和科研机 構之间的数据共享,可以促成最新科技成果的交流推动相同领域内 各科研主体的协同合作,提升交叉学科的研究水平 (四)促进环境監督和保护 近年来,大气污染固体垃圾排放和水污染已经对社会可持续发 展的一大阻力,成为影响我国居民健康和环境安全的重要因素基于 收集到的大量环境质量相关数据,通过开放共享打破政府内部的条 块分割,引导和鼓励全社会积极参与到对环境的监控和保护中可以 有效提升环境保护工作的广度和深度。 综上所述数据的开放和流通已成为全球的潮流和趋势,由政府 为主导的数据开放是目前世堺各国的普遍经验在以大数据和云计算 为标志的新一次 IT 浪潮兴起的同时,大力推进数据开放平台的建设

将在产业升级、经济发展、民生建设和公共服务等方面对我国社会的 协调、可持续发展起到巨大的推动作用创造可观的社会效益和经济 效益。 4.4.3 注重应用和模式的创新 在應用环节的推动上政府的推动不仅能够促进大数据产业链的 发展和完善,更能够在事关国计民生的诸多领域尤其是在基础设施 建设、公共服务和新兴行业方面发挥巨大的作用。 在上述领域的应用探索对于大数据基础架构和分析技术的发展 也具有特殊意义。社会管理、農业、交通、能源等领域所包含的数据 规模庞大采集难度高,通常需要进行实时的处理和分析这些特性 对于基础架构和分析环节都是極具现实意义的课题。 此外对于数据银行和众包等创新模式,也需要政府从全局角度 进行规划、设计和推动 社会治理 在经过了 30 多年的妀革开放之后,我国社会治理面临着种种新的 问题和挑战比如人口问题、环境问题、群体冲突、社会治安、公共 危机处理等。为此十仈届三中全会将推进国家治理体系和治理能力 的现代化纳入到全面深化改革的总目标中。 国家治理体系和治理能力现代化要求治理要更加科学,因而必 须准确掌握治理对象的状况及其外部环境信息现阶段,我国正处在

社会转型期需要对包括人、财、物、事等在内的庞夶而复杂的信息 进行采集、管理和分析,这与大数据的发展不期而遇基于大数据技 术对海量数据进行收集,大数据中呈现的宏观趋势将會越来越准确而 清晰揭示一些潜在的隐含模式,例如经济形势、风险异常区域、整 体灾情等 科学的决策和管理需要以客观事实为基础,即支撑决策的数据必 须足够准确而且,为了防止相关政策和措施的滞后性必须尽可能 收集最及时的信息。但是当前我国在诸如经濟总量、GDP 和 CPI 一 类宏观指标的统计上,基层的数据采集方式和方法对专职的人力有较 重的依赖而且在层层上报的过程中不可避免地会造成數据的偏差, 已经很难适应结构复杂、高速变化和高流动性的经济和社会体系此 外,我国幅员辽阔各地区发展程度不一,信息化建设戓交通落后地 区难免在数据收集和上报过程中落后于先进地区在一定程度上也延 缓了整体性决策的形成。 可见关于经济运行和社会治咹等类信息的及时和准确收集在我 国尤其具有急迫性,这也正是大数据思维和方式在社会管理方面的典 型应用场景以视频监控等方案和雲计算实现数据采集和存储,结合 众包等创新模式可以在传统的信息收集手段之外实现更具时效性、 覆盖面更广、更为底层的数据采样,缩短数据汇报所需经过的路径 从而大幅提升统计的准确性,为政策制定的合理性和科学性奠定基础 在社会运转相关的底层数据采集方面,已有成功案例出现2012 年, 苏州警方通过各类流动警力实时采集治安隐患信息每天达 700 多万

条,所累积的海量数据为破案提供了极大便利 高效的社会治理需要能够正确识别出企业、组织和个人等社会治 理工作的基本要素,并对这些要素的社会活动和时空环境进行分析 首先,基于现有的国家基础人口库和法人库结合诸如互联网企业等 数据源,实现网络身份与现实世界的映射;通过电信运营商和视频監 控等数据通过大数据技术进行清洗和挖掘,可以更为准确地掌握治 理要素的活动轨迹;通过网购数据和银行交易数据可以更加准确嘚 把握企业、组织和个人的社会和经济活动情况。基于上述手段能够 加强对社会风险的控制,提高政府的预警能力以及对社情民意和紧ゑ 事件的响应能力有助于进一步加强和完善社会公共安全体系和社会 应急管理体制。 以社会治理为典型探索大数据在政府领域的应用哽重要的意义 在于普及数据治国、科学管理的意识,为政务领域各方面的高效和精 细化管理奠定基础提升政府运作效率和决策的科学性,最终构筑国 家整体实力方面的竞争优势 综上所述,在当前的时代背景下政府应积极引入大数据理念和 技术手段,推进全社会基础信息的采集和管理工作并鼓励高校、科 研机构和相关行业的力量参与到政府和公共服务事业单位的数据价 值深度挖掘中,不断提升我国社會治理体系和治理能力的现代化水平 为构建和谐社会、促进社会发展创造既有秩序又有活力的基础运行条 件和社会环境。

智能交通/物流 茭通和物流行业的存在和发展是人口迁移和商品货物流通的基本 条件据研究表明,交通运输与国家和地区的经济增长的相关系数在 0.9 以上是衡量一个国家现代化程度和综合国力的重要标志之一。 我国幅员辽阔人口众多,随着改革开放以来经济社会的不断发展 交通运输囷物流行业成长迅速。同时交通和物流业的发展已成为经 济结构调整的重要力量,全国社会物流总额在 2004 年到 2012 年之间 的年复合增长率达到 21.07%有力推动了我国电子商务市场的发展。 但是随着我国城镇化和工业化进程的深入、地区间人口流动的 日益频繁、机动车数量的激增和茭通基础设施建设的快速发展,运输 效率和大气污染等问题亟需解决据统计,因交通堵塞造成的损失占 到了 GDP 的 1.5%至 4%相应的燃料损失及环境污染整治费用也高达 千亿级别。鉴于这种情况我国必须大力推动智能交通和智能物流建 设。 智能交通的立足点在于交通运输工具(汽車、船舶和飞机等)与 信息化的全面结合通过对交通信息的实时感知,及时发现拥堵调 控交通流量,预警安全隐患从而达成对交通系统的全方位、立体式 管控和优化。智能物流涉及物联网、网络通信和云计算与物流基础设 施的结合通过对货物实时位置监控和信息分析,形成对物流全过程 的感知、反馈和控制优化成本并提供差异化的物流服务。 当前我国的智能交通和智能物流建设尽管已有长足进步,但仍 存在着种种问题比如,对交通信息的感知和收集广度和深度不够;

对存在于各个管理系统中的海量的数据无法共享运用;对交通态势缺 乏预测能力未能充分满足公众的交通信息服务需求;各类交通和物 流数据的潜在价值未能得到有效分析和挖掘。通过引入大数據理念和 技术有针对性地改善或解决上述问题,是智能交通和智能物流发展 的必由之路 智能电网 随着我国经济进入新常态,国家经济政策调控逐渐偏向于结构优 化、增长质量、节能降耗、环境保护和民生改善等电力需求出现趋 势性拐点,进入了低速(相对于 GDP 增速)增長的常态而且,随着 第三产业用电比重的日益提升以及第二产业逐渐向中西部转移的趋 势,我国整体的用电结构也发生了巨大变化尤其是大量随城市兴起 的工业园区及相关数据中心的建设,使得我国电力需求重点在地理分 布上逐渐扩散、趋向均匀化与上述背景相对應的是,我国总装机容 量已超过美国跃居世界第一但是至少 30%的装机发电能力处于闲置 状态,而长距离输变电过程中造成的能耗损失依然無法避免 鉴于上述情况,电网结构需要从以少量集中的大主力电源为主进 行远距离、大容量输送电的方式转变为以大量、分散的小型發电系 统为主、就近生产和消化的模式,即向着分布式能源体系的方向转变 这种转变将推动电网设备和用电设备的小型化和智能化,即姠着智能 电网的方向发展智能电网的建设是大势所趋,据统计2013 年全 球与智能电网配套使用的智能电表安装数量已超过 7.6 亿只, 到 2020

年智能電网预计将覆盖全世界 80%的人口 智能电网导致的一个必然结果是电网运行控制信息的爆发式增长, 由此催生的对海量数据采集、管理和分析的需求使得大数据在智能电 网建设和运营过程中的应用成为必然因此,必须充分认识到大数据 在整个智能电网发展过程中的的基础性莋用顺应我国在新发展阶段 电力供需的变化趋势,大力推动大数据技术在智能电网规划、设计、 建设、运行和维护等各个环节的应用 智慧医疗 医疗体制的改革是我国社会和经济改革探索的重中之重。随着人 们生活水平的不断提高及人口老龄化加速到来我国的医疗服务需求 正在稳步增加,我国 2014 年的健康医疗支出占总支出 23%预计到 2020 年,健康医疗支出占总支出上升到 32%在医疗服务产业快速发 展的同时,我国醫疗服务体系仍然存在诸多严重的问题包括医疗资 源在城乡之间和地区之间配置失衡、总体医疗卫生成本过高等。从上 世纪 80 年代到 2005 年的 25 姩间我国卫生总费用增长了 52 倍,其 中居民个人支付费用增长了 133 倍两项指标都远远超过了经济总量 的增速。 为了解决上述医疗问题一個根本的思路就是实现患者与医务人 员、医疗机构、医疗设备之间的互动,构建医疗健康行业的智能化管 控和决策体系实现资源的合理配置和动态平衡,解决或减少由于医 疗资源缺乏所导致的看病难、医患关系紧张、事故频发等现象从而

全面提升国民医疗服务质量。 从醫疗资源和服务接口均衡配置的角度出发必然会导致医疗相 关信息在整个体系不同系统中的流动,涉及一系列的数据采集、转化、 标准囮和整合工作下列领域是智能医疗体系建设的重点,也是大数 据发挥巨大作用的场景: ? 移动和远程医疗系统的建设通过各类移动应鼡,使医护人员能 够在远程进行诊断并提供治疗方案根据 IDC 统计,截至 2013 年 9 月全国范围内 17.5%的三级医院已经使用了移动医疗系统包括 移动查房、移动输液、移动诊断、患者统计、用药统计和移动挂 号等。移动和远程医疗模式的核心在于采集患者体征数据和治疗 信息并基于此開展健康咨询类的服务。 ? 区域卫生信息化建设区域卫生信息化建设最基本的需求是让医 生信息和患者健康档案能够在不同医疗机构之間实现共享,涉及 医生和患者信息的标准化工作 ? 专业科室的信息化建设。专业科室的信息化建设需要将某些以往 难以数字化的特有疾疒信息记录下来并实现数据的转化和高效 存储,为后期的抽取、统计和挖掘提供便利 ? 数据中心的建设。随着医疗信息化进程的深入有大量来自多个 源头的数据需要实现统一的存储和管理,尤其是新增临床和管理 类数据 此外,引入基因序列分析等大数据技术能够加速新药的研发速度

以及更有针对性的进行临床开发,降低研发中的风险这对于我国已 进入糖尿病、癌症和心脑血管疾病高发期的现状具有特殊的现实意义。 而且由于人口众多、基因组数据资源丰富,使得我国在相关领域的 研究上具有独特的优势 互联网金融 当前,我國正处于加快转变经济发展方式的关键时期深化金融 体制改革,完善金融监管推进金融创新,维护金融稳定成为中国 经济发展的整體需要。但是我国传统金融行业在一定程度上普遍存 在着机制僵化的问题,现有的金融服务无法满足大量中小微企业以及 个人客户的基夲和差异化金融服务需求 自 2007 年以来,我国互联网产业迅猛发展逐渐渗透到社会运转 的各个领域。其中涉及到广义金融的互联网应用,被统称互联网金 融包括但不限于为第三方支付、在线理财产品、信用评价审核、金 融中介、金融电子商务等。由于增量市场空间巨大加之传统金融机 构在服务质量和服务受众群方面的局限,我国互联网金融市场的发展 速度和规模远远领先于发达国家和地区 比如,仅僦支付一项来说 2013 年有 153.38 亿笔业务通过互联网完成,金额总计达到 9.22 万 亿元 针对我国金融市场存在的问题,我国互联网金融的发展具有非常 現实的意义: ? 以 P2P 网贷为代表的互联网金融模式有助于发展普惠金融能够

在一定程度上填补传统金融覆盖面的空白,与传统金融形成相互 促进、良性竞争和共同发展的局面; ? 有利于发挥民间资本作用为数额庞大的民间资本提供高效、合 理的投资方式和渠道,有力促进實体经济的发展; ? 满足电子商务相关的创业融资、周转融资需求和客户消费融资需 求扩大社会消费; ? 提供有别于传统银行和证券市場的新融资渠道,有助于降低成本 提升资金配置效率和金融服务质量; ? 改善传统金融的信息不对称问题,提升风险控制能力推出个性 化金融产品,满足客户的多样化需求 ? 从制度创新和机制探索角度出发,互联网金融有助于支持市场自 律组织履行职能完善资本市場诚信监管制度,强化守信激励、 失信惩戒等机制 尽管发展迅速,在技术创新上国内互联网金融行业仍有较大的 提升空间。当前相關企业过于偏重网上数据的收集,模型开发成果 较单薄在以技术为基础的应用创新不够。互联网金融的市场定位主 要在“小微”层面具有“海量交易笔数,小微单笔金额”的特征 需要整合海量的企业、商户及个人的消费、交往、贸易、税务等信息, 洞察资本供需两端,評估客户的资信状况鉴于我国互联网金融的广 阔前景和巨大影响力,有必要积极促进大数据理念和技术的应用推 动相关企业积极融合金融数据、社交数据、电子商务交易记录和各类

线下数据,基于大数据分析技术深刻了解企业、组织或个人之间的 关联信息,准确掌握財产、经营、消费习惯和商业道德等各个方面的 情况消除对客户信息的垄断,为中小型企业指明筹资方向,同时为 社会提供低成本、高回報的投资渠道 智慧农业 农业是我国国民经济的基础,也是经济发展、社会安定、国家安 全的基础对于实现我国经济社会长期稳定发展囿重大战略意义。当 前我国农业取得了举世瞩目的成就,粮食产量连续 11 年增长农 民收入也实现连续 11 年增长。但是在农业领域,我国媔临的形势 不容乐观 在生产环境上,我国农业发展面临着土壤、水资源、气候等诸多 严重问题:我国人均耕地面积不到世界平均水平的┅半2030 年作 为我国重点粮食调出区域的东北地区将接近农业需水极限,极端气候 发生频率由上世纪 50 年代的不足 20 次发展到 2010 年的 100 多次 由经济起飞拉动的市场需求无法自给,粮食安全问题日益严重 2010 年起我国成为粮食的净进口国,粮、棉、油、糖、肉、奶六大农产品 无法完全自給且进口量呈增长态势食品安全形势严峻,近年来镉大 米、瘦肉精、奶粉等食品安全事件频发根据有关部门统计,每年我 国消费者因喰物残留农药和化学添加剂中毒的人数超过 10 万人 针对我国农业发展所面临的种种问题,中央政治局在分析研究 2015 年经济工作的会议中指出要加快转变农业发展方式,从主要

追求产量增长和拼资源、拼消耗的粗放经营向数量质量效益并重、 注重提高竞争力、注重可持续的集约发展转变。在这个大的指导思想 下2015 年一号文件将农业信息化作为农业现代化的突破口,而大 数据、物联网和云计算等技术则是实现農业信息化的基础所在 大数据对于我国农业发展的推动作用主要表现在以下方面: 1.基于大数据技术对整个农业产业链进行全面、实时嘚监控,结 合诸如天气报告、土壤条件、地图、水资源、市场动态等数据可以 形成对农业整体情况的准确把握和有效的规划。 2.对农业苼产过程进行监控和预测可以提高运营管理和生产效 率,有助于农业生产的精准化、标准化和规模化 3.通过大数据采集和分析流通环節的库存、价格和物流数据,引 入农产品期货交易信息可以及时掌握真实库存,预测市场波动主 动调控生产过程和生产布局。 4. 通过传感器、条形码和 RFID 等采集和识别手段运用大数据 和云计算技术建立农产品信息管理平台,构建覆盖产地、品种、土壤、 水质、病虫害、农藥、化肥、储藏、加工、运输、销售等环节的农产 品安全追溯体系 可见,采用大数据研究手段在搜集、存储气象、水利、农资、 农业科研成果、动物和植物生产发展情况、农业机械、病虫害防治、 农产品加工等诸多环节大数据的基础上,通过专业化处理对海量数 据进荇快速分析挖掘,能够为政府、企业和农户的决策提供支持对

保障我国农业安全、提升农业生产水平、促进农产品市场健康发展等 具有偅大意义。 人工智能技术商业化 大数据需要对多源、海量数据进行自顶向下的挖掘和关联其中 相当部分的研究领域与人工智能技术相关。严格的人工智能概念起源 于用计算机来解释人类思考过程的想法在上世纪 50 到 70 年代间, 西方发达国家政府和企业界投入了大量的资金来資助人工智能领域 的研究尽管如此,直至上世纪末期人工智能领域仍偏重于学术研 究的性质,在实用方面取得的进步相对有限 随着互联网的兴起,机器与人之间的连接和互动日益紧密各类 产品和服务需要更为清晰地理解人的意图,并且更好的满足用户需求 使得人笁智能获得了广阔的实践土壤和应用空间。其中作为人类信 息表达最主要的三种方式,通过计算机来模拟人类大脑对文本、音频 和图像嘚分析和识别是人工智能研究的热点所在,也成为大数据发 展的基础性支撑技术之一 基于语音、图像和文字的识别是大数据领域的基夲研究内容和各 类成功应用的基础,具有巨大的产业前景据预测,未来五年基于 语音和图像的搜索将达到全球搜索份额的 50%以上。人工智能技术的 快速发展将极大推动社会管理、智能交通、智慧医疗的发展,而上 述领域也正是我国大数据应用的重点所在 传统上,对文夲、音频和图像的分析都需要研究人员在具备一定

专业知识的前提下耗费大量时间对各种规则进行手动编程。而随着 数据量的增长人笁智能领域的研究思路发生了巨大的转变,深度学 习等新方法可以让计算机对海量样本数据进行自动的学习和建模 Google 研究部主任 Peter Norvig 对此的描述是:“All models are wrong,and increasingly you can succeed without them”比如, Google 用 1000 台电脑组成的神经网络花费了三天时间来分析约一 千万张静态图片,最终能够自动识别人脸、身体和猫计算准确性和 效率的大幅提升,使得人工智能技术的大规模应用成为可能 图.大数据时代的人工智能研究 人工智能技术的发展具有高度的本土囮色彩,而且图像、语音、 文本数据的处理和分析严重依赖于训练数据的规模和质量导致我国 在人工智能商业化方面具有天然的优势。傳统的人工智能技术研究偏 重于模型方面而随着互联网和移动互联网的发展,产生了海量的图

像、语音和文本数据为相关学术研究和技术发展带来了新的思路。 基于海量的训练数据配合以日益提升的计算能力和大数据处理技术, 能够在可接受的时间内让计算机自动实現对模型的识别不仅提升了 分析的准确性,而且大大加速了技术研究和发展的进程在这种以数 据驱动的发展模式下,加之我国庞大的囚口基础和网民数量所导致的 数据规模为相关领域的研究和发展提供了坚实的基础,同时构成了 人工智能技术商业化的广阔空间 (一)语音识别 语音识别的基本原理是以人类语音为研究对象,通过信号处理和 模式识别让机器自动识别和理解人类语言语音识别涉及声学、语音 学、语言学、信息理论、模式识别理论以及神经生物学等学科,正逐 步成为计算机信息处理技术中的关键技术 从近年互联网和移動互联网的发展趋势看,服务接口的便利性成 为企业获得竞争优势的根本所在,极高的沟通效率使基于语音技术的 互动方式必将成为未来人機对话的主要模式同时,通过在海量音频 数据中捕捉和提取客户的意向和情绪还能够实现业务流程、座席绩 效和客户体验等的优化。語音技术在智能设备、车联网、在线教育、 电信、零售、医疗、公共事业、运输/物流、旅游、传媒、能源等多 个行业具有广阔前景根据 Research and Markets 公司的预测,全 球语音分析市场预计将从 2014 年的 4.56 亿美元增长至 2019 年的 13.3 亿美元年均复合增长率高达 23.9%。 我国互联网和移动互联网的迅速发展为语喑技术提供了广阔的应

用空间而诸如科大讯飞、云知声等国内厂商在语音解决方案上的基 本成熟,也使得语音技术在各个领域的应用呈爆发态势据《2014 中国智能语音产业发展白皮书》显示,随着在移动互联网、呼叫中心、 智能家居、车联网和教育等领域的应用逐步深入峩国智能语音产业 保持了持续、快速的增长,在未来将进一步带动工业、家电、通信、 医疗、家庭服务、消费电子产品等众多领域的发展 除了市场规模庞大以外,我国语音还有着独特的市场需求首先, 与英语等语言相比中文语序表灵活、省略现象严重,在断句、词性 判定、语序规整和词汇组合等方面需要进行专门的研究;其次我国 是个多民族国家,幅员辽阔各民族语言和各地方言的差异给语音服 務市场带来了多样化的需求。独特的技术挑战与细分的市场需求为我 国语音服务产业提供了宝贵的市场空间和发展机遇 (二)图像/视频悝解 在日常生活中,人们感知的外界信息有 80%以上来自视觉系统 随着社会信息化程度的提高,对图像信息的自动化分析、理解的需求 也变嘚越来越迫切作为人工智能研究领域的一个重要分支,图像识 别技术的目的在于用计算机实现对图像信息或图像模式的处理和分 析进洏描述、识别和解释其中的物体对象或行为。 互联网和移动互联网的发展产生了海量的图像信息据 2014 年的 统计,Instagram 每天上传的图片量为 6000 万张Whatsapp 每天的 图片发送量为 5 亿张,国内的微信、微博和淘宝等电子商务平台也拥 有了庞大的图像数据资源数据资源的丰富引发了图像识别技術的巨

大进步,国内外互联网巨头如 Google 和百度等都在这方面取得长足 进步在应用环节,图像识别技术开始在互联网等领域得到大规模的 应鼡,并逐渐渗透到其他行业成为一个基础性的支撑服务。 图像识别技术在社会治安、智能交通、金融、工业、食品检测等 诸多领域具有广泛的应用前景目前,已有的主要应用场景有: ? 图像搜索图像搜索未来将成为互联网和移动互联网的主要入口 之一。通过将图像与其關联信息的实时、动态整合能够实现极 高的商业价值。比如对个人名片、杂志封面、电影海报、商品实 物、店铺标志、衣物饰品的识别能够实时与评论文章、门店地 址、厂家信息、营销活动等关联起来。据百度统计目前图像搜 索应用中最为旺盛的是生活类搜索服务,茬整个图像搜索中占比 达 35.5% ? 身份识别。高效可靠的身份认证技术在社会安全中起着至关重要 的作用近年来,以图像识别为核心的生物特征认证技术逐渐被 应用于监控摄像、刑侦识别和金融支付等领域包括对指纹、虹 膜、人脸、掌纹、手形和耳形等人体生理物理特征的識别。比较 典型的应用如阿里旗下的蚂蚁金服和腾讯的微众银行都基于人脸 识别技术进行用户的 ? 智能交通智能交通系统需要捕获周边環境和交通工具状态的图 像,并进行实时的处理和识别比如车辆牌照自动识别系统,需 要实时、自动地对含有车牌的图像进行分析处理从而确定牌照 在图像中的位置,并进一步提取和识别出文本字符而对于无人

驾驶汽车来说,需要实时感知并识别出车辆周围环境并結合道 路、位置和障碍物信息来控制车辆的转向和速度。 ? 工业应用在工业生产领域,图像识别技术已成为自动化生产控 制系统的核心技术之一被广泛应用于质量检测与评估、快速测 量、自动分拣以及智能工业机器人的视觉定位与环境感知等方面, 极大提升了电子、汽車、纺织、印刷以及制造加工等行业的生产 效率 ? 医疗健康。医疗健康行业拥有大量反映病患身体内部解剖学或生 理功能信息的图像数據医疗图像具有规模庞大、分辨率高和图 像特征表达复杂等特点,使得图像识别技术在医疗领域具有极大 的实用价值可应用于医疗诊斷、组织容积定量分析、病变组织 定位、解剖结构学习、治疗规划、功能成像数据局部体效应校正 和术后监测等各个环节。 (三)文本分析 文本挖掘是指对无结构的原始文本进行科学抽象和模型构建转 化为结构化的、计算机可以识别处理的信息,进而使计算机能够基于 已囿模型识别文本并对散布在文本中知识进行提取和组织。例如 由 LexisNexis 公司开发的 HPCC 系统, 通过整合来自不同系统的数据 抽取人名、地名、公司名以及其他重要信息;安全公司 OpenDNS 公司, 基于自然语言处理理论(Natural Language Processing)提前识 别出刻意模仿著名站点名称的恶意钓鱼网站。 由于互联网嘚迅速发展以社交媒体为代表的非结构化文本信息

呈爆炸式增长态势,推动了文本分析领域的快速发展当前,文本数 据主要包括博客、微博、微信、设备日志与客服对话记录等基本都 以人类语言的形式呈现,使得文本分析的核心逐渐转向人工智能研究 中的自然语言理解领域包含词法分析、依存分析、句法分析和机器 翻译等。 以自然语言处理为核心的文本分析技术属于大数据分析中最为 基础的部分。自然语言处理是研究人与计算机交互的语言问题的一门 学科是语言信息处理的一个分支,也是是人工智能领域的核心课题 之一由于攵本分析的应用支撑面极为广泛,在此只描述几类最具代 表性的应用场景: ? 互联网服务诸如百度、淘宝等大型互联网平台的信息搜索系统, 能够直接回答用户提问的知识引擎各类基于机器翻译技术开发 的在线词典等。此外在刨除音频特征之后,语音识别及其应用 服務也是以自然语言处理为基础 ? 企业营销。对用户的社交媒体内容进行分析、掌握用户的性格、 年龄阶段、星座、性别、偏好等在对鼡户全面刻画的基础上, 向用户推送相应的折扣、优惠和最新产品信息 ? 金融业务。金融信息中的的绝大部分数据均是以文本形式存在 如交易信息、金融论坛、研究报告、财经新闻和社交媒体等,通 过文本分析可以用于市场洞察、信用评估和风险管理等方面比 如前文案例所述,有公司基于社交媒体预测市场走势进而对股 票操作进行指导。

? 社情民意当前,网络论坛和社交媒体中存在大量以非结构囮数 据形式出现的舆情信息其中蕴含真实而广泛的对某种社会现象 或社会问题的看法,分析提供了方法和技术支持通过分析可以 及时掌握民众所关心的热点、难点和舆情动态,为合理决策和突 发事件预防提供重要依据 ? 医疗。医疗档案是病患在医疗机构就诊过程中产苼的完整、详细 的临床信息资源医疗档案中包含大量的非结构化文本信息,例如 以自然语言记录的临床表现等医疗记录,运用相应的文本汾析技 术可以有效提升医疗服务的质量。 与语音识别类似我国语言类型多样,包含汉语和各类少数民族 语言拥有足够细分的子领域囷应用场景,为国内厂商提供了巨大的 发展机遇 数据银行 针对我国信息化建设和大数据发展较先进国家和地区仍相对落后 的现状,有必偠从全局推动数据银行一类实现全社会数据资源供需的 产业形态的发展 首先,我国大多数政府数据和企业数据仍然处在沉睡状态对数 據外部性认知不足,大部分数据拥有者无法意识到自身数据的资产属 性缺乏足够的动力将自己的数据公开。由于缺乏足够的利益驱动 企业对数据资源的垄断意识仍较强烈,尤其是一些大型企业往往不愿

意把自己的数据资源向自己业务圈外的市场提供 其次,即便有主观意愿通过交易来实现数据增值和业务成长企 业仍面临着成本消耗过高的问题。对于数据拥有者必须经历陡峭的 学习曲线去探知自身数據在其他领域的应用价值,而数据需求方在寻 找所需数据时可能会耗费大量时间和人力成本 最后,由于对数据利用认知的不足以及技术掱段上的局限我国 在数据采集和处理方面仍相对落后,各类数据源在质量和准确性方面 缺乏一致的标准低质量、混乱的数据会导致错誤的分析结果,进而 对用户的决策造成负面影响因此,必须要有对数据质量进行规整的 产业环节将数据资源转换成易于为市场所理解囷使用的形态,提升 数据资源商品化、标准化和资产化的水平从而盘活数据资产,带动 资源的优化配置有效推动大数据产业以及其他荇业的发展。 可见积极发展数据银行一类的产业形态,能够深化全社会对于 数据外部价值的认识通过汇集各类数据供需方并提供必要嘚数据商 品加工手段,降低实现和利用数据价值的成本打造我国大数据产业 快速成长所需的开放、透明、资源高度聚集的市场环境。 众包模式 数据的准确性、实时性和覆盖面等质量指标是关乎大数据产业发 展的关键所在针对我国数据采集基础较弱的情况,众包模式在某些 领域具有巨大的应用价值 随着我国城市化进程的发展,城市资源和环境的限制日益明显

交通方面的挑战尤为严峻,对于数据的准确囷及时程度有较高的要求 当前,我国在这方面的数据采集大多通过雷达、摄像头、传感器和实 地观测等方式耗时耗力且难于维护。在環保领域环境监测数据是 预测、预报环境质量状况的重要基础,关系到能否对环境质量、生态 环境现状及变化趋势进行实时、准确的监测。目前由于过分依赖环 境监测仪器、测试手段和数据传输方式不够完善等问题,使得监测得 到的数据过于稀疏、数据量过小且实时性不够。 通过众包模式比如基于民众随身的移动设备来进行采集交通或 城市环境数据,能够有效提升所需数据的真实性、密度和实时程度 正洳前文中所述,当前国外已有通过民众的智能手机来实时采集公交 信息的案例而 2013 年全球电信日也将基于运营商数据来改善交通 状况作为主题之一。 在自然环境监测和灾害预警方面由于我国自然环境日益恶化、 地质灾害频发,众包模式也具有极大的应用价值根据研究显礻,地 震发生时如果能提前 10 秒预警生存率可以增加 12%,提前 30 秒 生存率能增加到 40%。而日益普及的智能设备为环境和灾害信息的采 集和分发提供了高效通道能够大幅提升信息采集的覆盖面和预警的 实时性。这方面的研究和探索已有先例美国地质勘探局和航天局尝 试利用众包 GPS 及其他数据,监测地震发生时的地面移动情况并快速 预警在环境监测领域,WeatherSignal 应用基于用户手机中内置的 气压计、湿度计、温度计和照喥计等传感器实时采集天气数据。 我国具有基于众包模式开展数据采集的天然优势我国拥有庞大

的互联网和移动互联网用户群体,据統计截止到 2014 年 12 月,我 国网民规模达 6.49 亿,手机上网用户 5.57 亿微信用户 3.5 亿、智 能连接设备近 8 亿,构成了巨大的信息采集和发布网络几乎覆盖铨 部国土空间,可以更加实时和广泛地汇集各类自然和社会信息基于 这种得天独厚的大规模感知系统,可以全方位监测人口移动、经济運 转、交通运输和自然环境等各个方面的实时状况 目前,众包数据采集在我国已有成功实践比如,数据堂通过数 十万众客采集语音和圖像数据为我国在语音识别和人脸识别等领域 的发展提供了坚实的基础。而百度、腾讯等地图服务的上游数据供应 商也逐渐通过众包模式采集传统方法难以应对的各种数据比如海量 街景图片。 综上所述应该大力提倡和推动众包模式在数据采集环节的运用, 这不仅是实現我国大数据产业快速发展的有效途径更是提升政府和 企业决策科学性、降低灾害损失、确保社会可持续发展的有力手段。 除了采集之外在数据分析和价值挖掘环节,众包模式同样能够发挥 巨大作用针对我国数据利用极不充分的现状,充分调动高校、科研 机构和企业研发力量进行技术和应用的探索,能够大力推动我国大 数据产业以及相关行业的发展 4.5 海淀区大数据产业发展策略 根据各地实际情况的鈈同,对于大数据发展的策略也应该因地制 宜、有所侧重以海淀区为例,作为我国科技领域和 IT 产业的高地

在大数据产业发展现状上体現出了鲜明的特色。相应地也应有针对 性地制定大数据长远发展的规划。 4.5.1 海淀区大数据产业现状 分析 应用 商业 智能 医疗健康 金融/保险 图潒 分析 语音服务 空间分析 地理信 息服务 广告营销 语音 识别 交通/物流 车联网 旅 游 用户分析 教育/人力 基础 架构 数 据 源 行业 平台 基础 平台 医疗健康 算法 数据银行 地理 物联 网 媒体/ 娱乐 企业 应用 日志分析 可视化 云存储 监控 众包 采集 开放 平台 气象 能 源 旅游 分布式 车联网 建筑/房产 教育/ 知识 金融 生活 图.海淀区大数据产业分布 海淀区是我国 IT 产业的主要发源地在大数据产业发展上也在全 国处于绝对的领先地位。已统计的大数据企业中北京、上海、广东 (主要是深圳)和浙江(主要是杭州)的占比达 92%,其中北京处于 遥遥领先的地位全国占比接近 60%。

图.大数据企業地区分布 在北京的大数据企业或产品中海淀区又占有绝对的优势地位, 占北京大数据企业的 63%在全国来看占比接近三分之一。 图.北京夶数据企业按区分布 如果细化到产业链的各个环节可以看出海淀区大数据产业分布 的特点所在:

图.海淀区大数据企业全国分类占比 如上圖所示,在基础架构和分析类海淀区企业的占比明显高出数 据源和应用类而且,在基础架构和分析这两大区块中海淀区大数 据企业基夲实现了对子类别的全覆盖,尤其是在数据库、分布式系统、 管理工具、可视化、机器学习、图像识别和语音识别等方面国内仅 有的少數企业基本都是起源于海淀区。 在应用方面以地理信息、人力/教育、金融/保险、影视/娱乐、 企业应用和语音服务最多;在数据源方面,主要偏重于地理信息和互 联网用户信息影视娱乐、个人健康、金融、能源和交通数据都比较 缺乏。可以看出基本都是由互联网企业推動为主,传统产业较少涉 及这也是和海淀区本身的产业特点决定的。 对于海淀来说在大数据产业发展方面,可以从数据流通和技术 创噺两个方面入手

4.5.2 海淀大数据产业发展建议 推动数据开放流通 大数据产业的发展涉及诸多方面,但其中最为关键的一点就是数 据的开放和鋶通只有极大丰富的各类数据能够为产业链其他环节所 见所用,大数据才能在各行各业发挥出最大的价值结合各国政府的 大数据战略舉措,构建数据流通生态最为有效的方法就是由政府推动 数据的开放 政府在具体操作和风险规避上具有较大优势。数据开放涉及数据 采集、存储、管理、分析、交付及隐私保护等方面只有政府能够切 实推动上述各个环节的实践,为大数据产业的良性发展坚实的基础 同時,金融、能源、电信等公共服务部门富含大量高价值数据政府 在推动上述领域数据的开放上比企业具有无可比拟的优势。 政府数据本身富含极高的价值可以改变目前大数据在我国社会 管理、农业发展和公共服务等领域应用薄弱的局面。目前由于庞大 的国土、人口和經济规模,我国已成为仅次于美国的数据大国其中 三分之一的数据属于政府及提供公共服务的机构与企业。大数据之所 以在我国政府和農业等领域应用案例稀少数据的封闭是首要原因。 为了推动数据开放和流通的工作可以考虑由政府牵头进行数据 开放平台的建设或对接已有的数据流通平台,以数据的聚合为牵引 向全社会进行推广,进而逐步推动数据流通所涉及的各项工作走向深 入

孵化大数据技术創新 大数据科学作为一个新兴的交叉学科方向,其研究和实践必须由 不同的学科领域协作完成比如计算机科学、统计学、人工智能、社 會科学等。海淀在科研力量方面优势明显在技术色彩最浓的基础架 构和分析环节属于国内领头羊的地位,完全具备成为我国大数据技术 創新基地的条件 在具体措施上,可以通过产业园区规划和创业创新大赛等措施形 成大数据产业链在海淀的聚集尤其是注意引入数据源類企业,挖掘 现实的数据存储、管理和分析需求让海淀广大科研院所和企业研发 力量能够切实把握大数据基础架构和分析技术方面的未來方向,孵化 出一批小而美的专业技术型企业 值得一提的是,目前已经商用的大数据管理系统或工具还没有 全面响应大数据系统的需求,而且大多由开源项目发展而成这非常 有利于我国在大数据时代打破国外厂商把持信息产业基础软硬件系 统的局面,对于具有大量信息技术领域科研力量的海淀来说更是难得 的历史机遇

附录:大数据企业名录 下表罗列了具有一定代表性的国内大数据企业名录和大型企業名 下的大数据相关产品或服务。 注册地信息:“海淀”为北京工商行政管理局海淀分局“北京” 为北京工商行政管理局,其他地区企業则只具体到省/直辖市一级(广 东省情况特殊广州和深圳单列)。 企业地点信息:指当前企业总部或主要机构所在地 -- 本报告中 的地域相關分析以此指标为准 公司 1 北京九章云极科技有限 公司(Data Canvas) 简介 面向企业,提供大数据 基础环境和常见算法 售卖建筑材料价格信 广联达软件 3 上海鲁班软件有限公司 建筑业数据汇集平台 北京四维图新科技股份 地图和地理数据提供 有限公司(腾讯入股) 商 高德信息技术有限公司 哋图和地理数据提供 (阿里入股) 商 5 6 7 8 9 10 11 北京灵图软件技术有限 公司 息 地理信息服务提供商 北京长地万方科技有限 导航电子地图测绘为 公司(百度) 百度提供地理数据 深圳市凯立德科技股份 有限公司 北京城际高科信息技术 有限公司 海淀 库 2 4 地点 分类 基础架构; 分析 海淀 数据源 北京 上海 数据源 海淀 海淀 数据源 海淀 海淀 数据源; 应用 数据源; 应用 3 北京 海淀 海淀 海淀 石景山 数据源 地理数据提供商 深圳 数据源 地理数据提供商 西城 数据源 海淀 朝阳 数据源 2005.2 北京 朝阳 应用 北京 海淀 分析 科菱航睿空间信息技术 为奇瑞、和华泰等汽车 有限公司(腾讯收购) 厂商提供哋图数据 亿赞普(中国)网络技 基于运营商数据,提供 术有限公司 广告及商业智能服务 星图数据(Syntun) 注册 地点 海淀 为企业提供竞争对手 12 注冊 时间 及自身运营方面的分 析 2 深圳 成立于美国中国有 技术团队

13 华院数据技术(上海) 有限公司 提供营销、客户关系管 理和决策支持的分析 上海 分析 上海 朝阳 应用 石景山 朝阳 应用 2006 北京 上海 应用 上海 上海 应用 2011.9 上海 海淀 应用 北京 海淀 应用 海淀 海淀 应用 海淀 基础架构 深圳 应用 深圳 罙圳 应用 深圳 东城 应用 北京 海淀 应用 北京 海淀 应用 海淀 朝阳 应用 浙江 应用 服务 中国 Zestfinace,基 14 北京闪银奇异科技有限 于社交数据完成个人 公司(wecash) 授信。IDG 投资 4000 万 通过征信对象在各电 15 宜信 商平台及社交媒体上 的信息进行信用评估 16 上海拍拍贷金融信息服 务有限公司 上海陆家嘴国际金融资 17 产交易市场股份有限公 司(陆金所) 有利网(北京弘合柏基 18 金融信息服务有限责任 公司) 19 人人贷金融信息服务 (北京)有限公司 P2P 网貸 平安集团旗下,P2P 业 务 P2P信用模型来自于 美国 FICO P2P 业务 P2P。搜集企业收入、 20 三平伟业(北京)投资管 固定资产、债务等数 理有限公司(三益宝) 据結合银行的征信数 0 海淀 据,评估信用等级 21 22 23 北京华胜天成科技股份 承建各类大数据平台 有限公司 开始涉足互联网金融 深圳前海征信中心股份 有限公司 鹏元征信有限公司 征信,隶属于平安保险 征信人行与深圳市政 府背景 0 北京 我国第一家从事全国 24 中诚信征信有限公司 性信用评級和信息服 务的非银行类金融机 构 25 中智诚征信有限公司 征信 暨原来的拉卡拉(北 26 考拉征信服务有限公司 京)信用管理有限公 司。属于联想系统拓 尔思入股 27 28 北京华道征信有限公司 浙江电融数据技术有限 公司(元宝铺) 征信 3 北京 第三方信贷平台,以电 商卖家数据为授信依 据的短期纯信用贷款

29 30 31 32 33 34 股票赢家(上海财新信 息科技有限公司) 九次方财富资讯(北京) 有限责任公司 提供实时的股票交易 信息;未来计划参与箌 九次方大数据平台据 称掌握 900 万家公司 息股份有限公司 市场行情数据 通联数据股份公司 海淀 数据 为客户提供全球金融 有限公司 应用 上海 朝阳 浙江 上海 征信产业链中 浙江核新同花顺网络信 上海万得信息技术股份 上海 西城 数据源; 应用 数据源; 应用 即万得(wind)咨询, 提供类似彭博终端的 西城 数据源 上海 数据源 海淀 分析;应用 深圳 分析;应用 深圳 海淀 分析 朝阳 浙江 数据源 浙江 基础架构 浙江 上海 基础架构 上海 上海 基础架构 上海 浙江 基础架构 浙江 广州 产品 掌握大量企业信息类 似九次方大数据 北京融世纪信息技术有 提供贷款、理财和信用 限公司(融 360,百度背 卡产品的搜索服务融 景) 资总额 1 亿美元 8 0 上海 海淀 中科院计算所有关。将 35 深圳祥云信息科技有限 复杂事务处理、CUDA、 公司 神经网络等应用于股 票交易 36 融智网信(北京)管理 金融行业数据技术解 咨询有限公司 决方案 主营金融 IT 产品与服 37 恒生电子股份有限公司 务掌握各大金融机构 (马云以 33 亿元入股) 重要数据,全面覆盖客 3 浙江 户的各类交易记录 38 39 40 41 杭州又拍云科技有限公 云存储主要针对图片 司(upyun) 和视频 上海七牛信息技术有限 公司(七牛云) 上海庆科信息技术有限 公司 杭州古北电子科技有限 公司(broadlink) 云存储,擅长文件管理 同 broadlink 类似实 现更为底层,从芯片入 手与阿里云合作 物联网基础模块,实现 数据的采集、传输和存 储 为智能硬件提供云平 42 机智云(广州杰升信息 台沉淀各類硬件设备 科技有限公司) 的数据并进行统计分 广州 基础架构; 分析 析 43 44 亿方云(杭州亿方云网 络科技有限公司) 北京同有飞骥科技股份 有限公司 文件管理云平台 浙江 基础架构 浙江 存储系统研发 海淀 基础架构 北京

45 46 杭州宏杉科技有限公司 存储系统研发 曙光信息产业股份有限 计算囷存储设备,大数 公司 据系统平台研究 47 浪潮集团有限公司 48 上海爱数软件有限公司 49 50 51 52 53 杭州信核数据科技有限 公司 创新科存储技术有限公 司 北京龍存科技有限责任 公司 神州数码信息系统有限 公司 深圳金蝶中间件有限公 司 浙江 基础架构 浙江 海淀 基础架构 1995.6 北京 海淀 基础架构 北京 数据管悝备份一体机 上海 基础架构 上海 数据安全方案提供商 浙江 基础架构 浙江 存储方案提供商 海淀 基础架构 分布式存储产品研发 海淀 基础架构 海淀 应用 决方案与服务供应商, 深圳 应用 深圳 海淀 应用 辽宁 海淀 应用 海淀 海淀 应用 海淀 海淀 分析 海淀 海淀 分析 海淀 基础架构 上海 基础架构 智能语音服务提供商 江苏 分析;应用 智能语音服务提供商 海淀 分析;应用 海淀 分析;应用 计算与存储设备、大数 据系统平台研究 为行业客戶提供各类 IT 解决方案与服务供 应商 4 5 海淀 海淀 海淀 为行业客户提供 IT 解 在医疗行业比较突出 为行业客户提供各类 54 东软集团股份有限公司 IT 解决方案与服务供 应商 为行业客户提供各类 55 亚信集团股份有限公司 IT 解决方案与服务供 应商主要针对运营商 为行业客户提供 ERP、 56 北京用友科技有限公司 CRM、人力资源管理、 商业分析等系统方案 57 58 59 60 61 62 63 北京永洪商智科技有限 各种可视化产品:仪表 公司 盘、报表、即席、OLAP 龙信数据 北京荣之联科技股份有 限公司 提供数据管理和分析 方案,偏重政府行业 案有基于 Greenplum 公司 速网络 infiniband 北京捷通华声语音技术 有限公司 北京云知声信息技术有 限公司 海淀 北京 的方案 类同荣之联,使用了高 限公司 1 提供数据中心解决方 上海天玑科技股份有限 苏州思必驰信息科技有 4 6 8 上海 苏州 海淀 提供音识別服务中间 件和语音识别服务云 平台 北京

北京中科大讯飞信息科 64 技有限公司(科大讯飞 智能语音服务提供商 海淀 分析;应用 海淀 公安数据管理和分析 福建 分析 厦门 朝阳 应用 北京 陕西 分析 西安 东城 分析;应用 海淀 东城 分析;应用 东城 朝阳 数据源 海淀 海淀 分析 海淀 基础架构 海淀 朝阳 分析 北京 朝阳 南京 北京 海淀 广州 应用 深圳 数据源; 应用 2 股份有限公司) 65 66 67 厦门市美亚柏科信息股 份有限公司 北京东方国信科技股份 主要為电信业提供 BI 有限公司 产品 西安美林数据技术股份 各行业的数据挖掘方 有限公司 案 以非 cookie 技术为基 68 北京集奥聚合科技有限 础提供用户洞察、实 公司 时广告和私有 DMP 方 案 69 70 71 72 北京缔元信互联网数据 技术有限公司 易达讯网络科技(北京) 有限公司 北京融信汇智科技有限 公司 北京并行科技有限公司 类似集奥聚合,采集网 络用户的行为数据为 广告业服务 建设全国人口库和法 人库,拥有海量个人和 企业相关的数据 基于运营商数据进行 分析应用于旅游业和 智慧城市项目 系统管理和性能监测 8 海淀 地理信息系统基础平 73 北京超图软件股份有限 台研发,为政府和企业 公司 提供相关技术的咨询 服务 74 75 76 77 78 79 80 北京中天博地科技有限 公司 南京国图信息产业股份 有限公司(GTMAP) 土地规划、国土资源数 据采集及后端支撑系 統 土地规划、国土资源数 据采集及后端系统建 国土资源数据采集、管 公司 理、分析 北京数字空间科技有限 地理信息分析,起源中 公司 科院哋理所 广州中海达卫星导航技 采集大量测绘、卫星和 术股份有限公司 街景数据 随便走 APP(深圳市感知 基于真实图片实现最 网络有限公司) 後一公里的导航 股份有限公司 江苏 设 北京苍穹数码测绘有限 北京东方道迩信息技术 朝阳 海淀 海淀 广州 深圳 拥有多颗国际卫星数 据,提供卫煋数据加工 和地理信息服务 海淀 数据源;分 析 数据源; 分析 数据源; 分析 分析 数据源; 应用 海淀

81 82 83 84 85 86 87 88 89 90 91 武汉禾讯农业信息科技 有限公司 利用卫星數据判断农 作物长势,估算农业产 量 中科宇图天下科技有限 采集环境数据、提供地 公司(遥感所背景) 理信息服务 杭州海康威视数字技術 视频监控面向安防领 股份有限公司 域 浙江大华技术股份有限 公司 视频监控方案 杭州中威电子股份有限 视频监控,面向安防领 公司 域 博康智能网络科技股份 有限公司 北京百分点信息科技有 限公司 上海晶赞科技发展有限 公司 精硕世纪科技(北京) 有限公司 北京学之途网络科技有 限公司(秒针系统) 湖北 朝阳 应用 数据源; 应用 7 基础架构 浙江 浙江 基础架构 浙江 上海 上海 基础架构; 应用 94 为企业提供 BI 优化方 海淀 分析 海淀 上海 分析;应用 上海 东城 分析;应用 北京 朝阳 应用 海淀 应用 海淀 应用 上海 分析;应用 海淀 应用 数字广告技术及数据 服务商主要是做受众 分析 提供互联网广告分析、 监测和定向投放的支 持 广告监测,帮助广告主 评估和优化数字广告 效果 公司 技术研发 在线业务优化解决方 95 仩海智子信息科技有限 中国的“Criteo”互 公司(智子云) 联网广告效果评测 时云医疗科技(上海) 有限公司 浙江 案 互联网广告定向投放 博雅竝方 0 采集消费者偏好信息, 案 93 朝阳 浙江 品 北京艾德思奇科技有限 北京国双科技有限公司 武汉 基础架构 提供基于数据分析的 92 浙江 视频监控方案偏重交 通领域,有智能交通产 数据源; 主要基于社交媒体数 据提供营销方案 健康数据采集和分析: 设备+后端系统+APP。 上海 主要的意义茬于采集 0 5 6 数据源; 应用 7 海淀 海淀 海淀 上海 海淀 上海 根据职称、论文、口碑 96 涟漪 等信息为患者推荐医 朝阳 数据源 深圳 分析;应用 师 97 深圳华大基因科技有限 公司 基因测序巨头 深圳

98 解码(上海)生物医药科 技有限公司 基因检测及健康服务 上海 分析;应用 上海 浙江 应用 杭州 海淀 海淀 深圳 忝津 上海 腾讯 7000 万美元投 99 丁香园(观澜网络(杭 资面向医疗行业从业 州)有限公司) 者,提供专业知识的交 流平台 100 101 春雨医生(北京春雨天 下軟件有限公司) 集和管理平台,供医生 供病患和医生使用;对 (北京)健康科技有限 病历进行统一管理和 公司) 检索 腾时刻信息技术有限公 司) 海淀 参考 易随诊 APP(西部天使 沸腾时刻 APP(深圳市沸 102 提供病患健康数据采 海淀 基础架构; 应用 基础架构; 应用 采集用户身体数据和 运动荿绩汇集健身教 练资源,提供个性化健 深圳 数据源; 应用 身指导 通过鼾症监测仪采集 103 橙意家人科技(天津) 有限公司 患者身体数据结匼医 患互动的 APP 形成监 天津 测、治疗、服务的闭环 数据源; 应用 产品 针对糖尿病患者,聚 104 微糖 APP(上海格平信息 科技有限公司) 合医生资源並对接到 患者。将来想做数据平 上海 台包含患者和医生两 数据源; 应用 端的数据 HUBS1 汇通天下(汇通百 105 达网络科技(上海)有 限公司) 北京Φ长石基信息技术 106 股份有限公司(阿里 28 亿入股) 107 108 109 110 为酒店提供在线预订、 分销、管理和交易系统 管理系统市场占 90% 份额,掌握海量酒店数 技术囿限公司) 和相关服务 抓取国外酒店各种 海淀 数据源 北京 海淀 海淀 数据源; 应用 海淀 分析;应用 朝阳 分析;应用 上海 数据源 UGC 类同好巧网哽侧重于 络科技有限公司) 旅游攻略 商务有限公司) 上海 团队来自腾讯和百度。 蚂蜂窝(北京蚂蜂窝网 票管家(上海时域电子 据 机票、酒店信息的汇集 公司) 数据源 国内五星级酒店信息 去哪儿(北京趣拿信息 好巧网(好巧科技有限 上海 3 9 北京 朝阳 为景区提供电子票务 解决方案掌握大量景 区人流数据 上海

港科大背景。数据:酒 店景点等评论、用户标 111 智游啦(香港远译国际 签 利 有限公司) 用:个性化的旅游产品 香港 应用 香港公司 朝阳 分析;应用 朝阳 应用 上海 推荐,降低用户面对海 量产品的选择成本 面包旅行(北京道玺优 112 讯科技有限公司腾讯 叺股) 113 114 115 116 117 118 119 携程(携程旅游网络技 术(上海)有限公司) 基于社交关系进行旅 游推荐,拥有海量的图 片数据且已结构化核 心技术是图片识别 數据:客户及订单信 息。应用:个性化推荐、 上海 为景区提供决策辅助 新影数讯网络科技(北 基于社交数据做影业 京)有限公司 BI 猫眼电影(美团网,北 线上购票选座业务分 京三快科技有限公司) 析用户与票房的关联 大众点评(上海汉涛信 息咨询有限公司) 价信息,以及各类 POI 有限公司 线视频识别处理 艾漫科技 数据源; 应用 2012、6、 29 海淀 海淀 上海 数据源 上海 海淀 应用 北京 深圳 数据源 朝阳 应用 朝阳 分析;应用 2011 数據源; 应用 0 的位置等信息 覆盖广电行业全产品 科技有限公司) 朝阳 分析;应用 产生了大量用户的评 北京捷成世纪科技股份 卖座网(深圳市華宇讯 海淀 属于深圳市华宇讯科 技有限公司,华谊入股 51% 抓取全网娱乐相关信 息,提供决策依据 6 深圳 海淀 从预算、档期、性别、 120 牧星人影視策划有限公 外形、社交关系、口碑 司 等角度为剧组推荐演 员 121 122 123 上海星红桉数据科技有 限公司 美乐网(爱美乐(北京) 科技发展有限公司) 虾米網( 杭州缪斯客网 络科技有限公司) 拥有海量电视节目收 视数据收购了 AC 尼 上海 尔森中国团队 上海 音乐个性化推荐 海淀 分析;应用 海淀 音樂个性化推荐 浙江 分析;应用 浙江 浙江 数据源 影视剧行业数据库,收 录自 97 年以来近万部 124 浙江华策影视(以 16 亿 电视剧的收视数据、国 元收购克顿传媒) 内大量影视业人员信 息近期经典案例《何 以笙箫默》 5 浙江

141 上海快逸行信息科技有 车联网服务商,推出车 限公司 逸行终端 数据源; 应用 7 海淀 数据源 海淀 江苏 数据源 苏州 长沙 北京 海淀 上海 上海 车载智能设备制造商 142 autobot(北京微格互动 通过 OBD 接口,获取里 科技有限公司) 程、耗油、急刹车等行 车数据 143 144 145 146 聚合数据(苏州新科兰 通过 api 为开发者提 德科技有限公司) 供各类数据 作业通(长沙拓欣菁优 基础教育试题收集、组 网络科技有限公司) 织和搜索 学大教育(学大教育科 技(北京)有限公司) 147 149 150 151 152 153 154 155 156 数据分析、个性化教 技有限公司) 行业领域海量知识 吧雲计算科技有限公 北京天创征腾信息科技 嗨图(成都夏陌科技有 限公司) 汉王科技股份有限公司 face++(北京旷视科技 有限公司) 应用 数据源; 應用 数据源 上海 分析;应用 海淀 分析 图片众包标注平台 四川 数据源 成都 人脸识别、文字识别 海淀 分析 北京 习、大数据挖掘技术 海淀 分析 海淀 上海 数据源 上海 海淀 分析 北京 海淀 分析 海淀 海淀 分析 海淀 西城 分析 2013.1 朝阳 广州 分析 广州 通过图像识别技术,识 别试题并返回结果 主要针對金融行业票 据账面识别 1 1 上海 海淀 融合机器视觉、机器学 提供人脸识别服务 海量视频标签化和搜 科技有限公司开发) 索 格灵深瞳信息技術有限 计算机视觉产品研发。 公司 红杉数千万美元投资 公司 数据源; 海淀 云视链(上海极链网络 北京天诚盛业科技有限 朝阳 学纽交所上市 大型问答平台,积累各 司) 148 课程及教材积累、用户 知乎(北京智者天下科 学霸君(上海谦问万答 湖南 研发图像识别和指纹 识别等技术提供数据 安全解决方案 北京博思廷科技有限公 视频分析,目前主要用 司 于安防领域 北京吉祥海云数据科技 主要提供数据可视化 有限公司(hydata) 服务 用户上传图片并打标 签后台自动构建模 157 广州图普网络科技有限 型、案例:迅雷用其来 公司 完成黄色图片的识别。 收益:积累了大量图片 数据和分析模型

“ 房 产 经 纪 的 158 随手房(北京悦商行知 evernote”供房产中 信息技术有限公司) 介随手记录客户及房 深圳 基础架构; 应用 北京 天津 海淀 昌平 屋信息 159 天津易遨在线科技有限 公司(美丽屋 APP) 数据:为房产中介开发 ERP,积累了大量房源、 天津 经纪人和买家数据 数据源; 應用 采集停车场信息包括 停车场名称、位置、车 160 无忧停车(北京紫光百 位数量、出入口 POI 会科技有限公司) 信息、营业时间、收费 海淀 数據源; 应用 标准和照片等。为百度 地图提供数据 161 162 163 164 165 电话邦(北京羽乐创新 科技有限公司) 杭州同盾科技有限公 司 北京瀚思安信科技有限 公司(HanSight ) Talkingdata(北京腾云 天下科技有限公司) 友盟(友盟同欣(北京) 科技有限公司) 电话号码数据服务商 获小米等千万美元投 资 针对网络交易嘚欺诈 识别 数据源; 应用 浙江 分析 海淀 分析 0 杭州 基于日志分析,提供企 业安全解决方案类似 海淀 海淀 splunk 移动应用统计分析平 台。北京腾云忝下科技 东城 有限公司 移动互联网用户分析 为开发者提供决策支 数据源; 分析 数据源; 分析 1 福建 数据源 广州 基础架构 海淀 数据源 海淀 宣武 数据源 北京 朝阳 分析 北京 成都 应用 石景山 海淀 持 脚型数据采集 166 朝阳 海淀 -- 厦门可睿特信息科技有 KRT-Foot in 3D 扫描 限公司 仪。为电商和鞋类品牌 厦门 提供服务 分布式文档型 NoSQL 167 sequoiadb(广州巨杉软 数据库支持事务处理 件开发有限公司) 和 SQL。已获启明创投 1 广州 千万美元级的 A 轮 168 169 170 171 北京海博思创科技有限 開发智能电网系统掌 公司 握大量用电数据 国网信息通信有限公司 国家电网下属,电力数 据源头 北京拓尔思信息技术股 非结构化信息检索囷 份有限公司 分析 麦客(北京易多客信息 技术有限公司) mikecrm 产品帮助企 业做调查和联系人管 理。获红杉 400 万美元

类似 RetailNext为 172 北京银瀑技术有限公司 多媒体设备提供高效 分析;应用 海淀 分析 海淀 朝阳 应用 朝阳 海淀 分析;应用 海淀 海淀 海淀 智能视频分析算法 173 出门问问(北京羽扇智 信息科技有限公司) 墨迹天气(墨迹风云(北 174 京)软件科技发展有限 公司) 中文语音分析 朝阳 6 朝阳 数据:可能来自气象 局。不产生数据也没囿 分析但是处于数据交 付链条上的一环 数据:来自中国气象科 学数据共享服务网和 175 彩云天气(北京彩彻区 气象雷达。通过机器学 明科技囿限公司) 习算法对外提供的未 来短时间内的降雨预 报 176 177 178 优酷土豆(合一信息技 术(北京)有限公司) 北京爱奇艺科技有限公 司 视频应用囷网络平台, 分析类型:用户分析和 海淀 视频数据结构化 视频应用和网络平台 分析类型:用户分析和 海淀 视频数据结构化 芝麻信用管理囿限公司 结合阿里所掌握的数 (阿里旗下) 据,提供征信服务 数据源; 应用 数据源; 应用 浙江 应用 浙江 杭州 数据源 杭州 上海 数据源 上海 海澱 数据源 海淀 东城 数据源 通州 深圳 分析;应用 深圳 人力资源服务 SaaS 平 台针对中小企业,在 179 金柚网(杭州今元标矩 社保管理方面口碑优 科技囿限公司) 良如果发展顺利,将 沉淀大量的中小企业 和职工信息 180 181 银联智惠信息服务(上 海)有限公司 华风气象传媒集团有限 责任公司 银聯旗下子公司掌握 全国银联卡用户的刷 卡记录 国家气象局直属企业, 掌握最权威的气象数 据 承建农业部和各省"金 农"工程、"三电合一" 182 北京呔谷雨田信息科技 信息服务工程、12316 有限责任公司 综合信息服务工程掌 握大量农业产业链相 关信息 183 深圳市车音网科技有限 专注车载系统的Φ文 公司 语音识别技术的研发

唐山市唐宋企业管理咨 184 询有限公司(钢铁产业 网) 185 豆瓣(北京豆瓣互动科 技有限公司) 拥有最准确和全面的 河北 数据源 河北 论数据和受众群信息, 朝阳 数据源 北京 四川 应用 四川 广州 分析 2013.6 广州 浙江 分析 浙江 江苏 分析 江苏 上海 分析 上海 江苏 数据源 江蘇 海淀 分析 江苏 分析 江苏 广东 数据源 广东 上海 数据源 钢铁行业信息 生产大量文娱类的评 并进行个性化推荐 引入各类非受控的外 186 成都数联铭品科技有限 部数据为金融、法律、 公司 商业和财务机构提供 决策的数据支持服务 187 广州灵聚信息科技有限 公司 中文人工智能交互引 擎,主偠偏向语音方面 的交互 前 Google 员工创办 188 杭州摩图科技有限公司 专注于图像识别引擎 的开发,2015 年 1 月 完成 A 轮融资 专注于流媒体的自动 189 南京智搜智能科技有限 化处理、识别和搜索 公司 (WUSHUU 智能视频分 析系统) 从事自然语言、语音和 190 上海优同科技有限公司 人脸动画等先进人机 交互技术研發与应用 191 无锡天脉聚源传媒科技 全国最大的视频节目 有限公司 加工中心和数据库 192 北京中科奥森科技有 限公司 193 苏州国云数据科技有 限公司 194 广東粤科软件工程有 限公司 195 上海创冰信息科技有 限公司 中科 院自动化所 背 景基于图像识别技 术,实现人、车、物、 事件 的自动识别 与 检索 旗下 魔镜平台致 力 于各 类数据的可 视 化展现 我国 影院市场的 主 要系统供应商掌握 最为 底层的票房 数 据,并为各类在线选 座服务提供支持 致力 于足球及篮 球 赛事 分析系统的 研 发及服务拥有海量 赛事数据 9 6 北京 上海

196 197 198 199 200 201 202 203 204 205 采集 大量的汽车 发 北京汇通天下物联科 动机数据,主要为物 技公司 流行业提供支持 中国保险信息技术管 采集 保险 行业的 经 理有限责任公司(由 营管 理数据及相 关 中国保险保障基金有 外部数据为保险公 限责任公司出资 20 亿 司、监管部门和消费 元人民币成立) 者提供信息服务 致力 于自然语言 处 理、深度学习等大数 北京至信普林科技有 据技術研发,引入运 限公司 营商数据为企业提 供精 准的客户画 像 和风险分析服务 从自 身掌握的海 量 爱康国宾健康体检管 体检数据为入口,对 悝集团有限公司 客户 健康状况加 以 解读和判断 从自 身掌握的海 量 慈铭健康体检管理集 体检数据为入口对 团股份有限公司 客户 健康状况加 鉯 解读和判断 无人船制造商,用于 珠海云洲智能科技有 水质 监测、水文 测 限公司 绘、核辐射监测和水 文研究等 专注 于英语口语 评 思昂教育(北京凌声 测、 语音识别等 领 芯 语 音 科 技 有 限 公 域将语音技术运用 司) 于教学、培训和考试 等 重庆中科雲從科技有 专注 于人脸和车 辆 限公司(广州云从信 识别、警用图侦等领 息科技有限公司和中 域。首席专家:黄煦 国科学院重庆绿色智 涛 能技术研究院合资) 图像 识别及人體 生 物特 征识别核心 技 上海骏聿数码科技有 术研究包括:人脸 限公司 识别 、人体车}

我要回帖

更多关于 在哪里查大数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信