现在有哪些好做的大数据实战项目平台项目？

点击联系发帖人 时间：2017-09-17 02:42

大数据平台项目建议书

现在所谓大数据精准招商真的精准吗？【西南吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：29,256贴子：
现在所谓大数据精准招商真的精准吗？收藏
利用“大数据”实现精准招商　　南方日报讯（记者/张昕）29日，记者从惠州市商务局获悉，为实现招商选资信息的交流共享和宣传推广，“惠州市投资促进信息化平台”正式上线，依托于线上平台的信息共享、数据分析，打开外界了解惠州互联网窗口，拓宽招商引资渠道。　　据了解，“惠州市投资促进信息化平台”是惠州市开展“项目建设提速年”活动有关工作部署的一项举措，系统平台由“三库三系统”组成，平台建设目标是实现“精准招商、大数据招商、互联网+招商”。　　平台具有招商资源对外展示、招商项目在线咨询与洽谈、招商项目进程备案与跟踪管理、招商工作各部门联动等多种功能，旨在通过网络不受时间、地域、空间限制的特点，创新招商引资方式。　　以招商资源对外展示功能为例，可发布招商信息、重点招商载体资源、招商项目，宣传推介惠州投资环境，并采用图片、视频等各种形式直观展示区域招商资源；同时，平台还采用了最新的浏览和交流技术，集电脑PC端、手机端于一体，提供随时随地线上招商服务、预约洽谈等。　　平台最大的亮点在于招商工作数据的共享和分析，可提供数据存储、调用、分析、安全等功能支持，相当于平台系统的“大脑”，其决策分析功能主要是对招商引资业务数据进行统计分析，以文字、图表进行总体情况和单项工作进展情况的展示，为招商决策提供支持。　　当天的上线活动，还吸引了惠州市7个县（区）商务主管部门以及5个省级园区相关负责人参加
药师在线为您深度解析2017药师考试,巧法解析,直击考试重点!
当前，地方政府招商引资大多采取展会招商、上门招商、专题推介会招商等惯性方式开展大范围、多轮次的招商活动，以此作为挖掘符合当地政府产业导向且有投资意向项目的手段，但多数取得的成效是招商形象得到了宣传，挖掘到符合产业导向且有投资意向的项目线索很少，犹如大海捞针，希望渺茫，最终导致招商人力、物力、财力等资源大量付出，但招商成效很小。因此，当下的地方政府在招商引资上与企业在投资选择上，普遍存在：地方政府难以找到符合发展需求的招商对象，有投资意向的企业难以找到适合自身投资的首选地，究其主要原因是地方政府和企业双方的需求存在信息不对称、不匹配、不精准而造成的。因此，建立一种政府与企业在投资信息上精准匹配的招商渠道成为了地方政府招商引资工作的难题，这一难题亟需解决和突破。大数据精准招商安商云平台正是为了解决这一难题而诞生的。但其建设的难度大、创新难，欢迎各位网友提出宝贵意见！
一、项目名称：大数据精准招商安商云平台建设项目二、采购项目的内容、数量、用途及简要技术要求、项目性质序号
包号（品目名）
简要技术要求
大数据精准招商安商于平台建设顷目
大数据精准锁定目标企业与精准挖掘线索系统
大数据精准招商安商于平台建设
X络大数据采集、建立招商情报数据仓库、项目线索挖掘、数据展示、第三方商业库集成等功能
大数据精准招商安商于平台建设顷目
招商安商数据仓库
大数据精准招商安商于平台建设
实现数据处理、数据存储、数据X析、数据管理等功能
大数据精准招商安商于平台建设顷目
云服务IT基础设施租用
大数据精准招商安商于平台建设
采集服务器3台（CPU：至少2颗、内存至少XG）；数据挖掘与X析服务器3台（CPU：至少2颗、内存至少XG）；应用服务器4台（CPU：至少2颗、内存至少XG）；数据库服务器2台（CPU：至少2颗、内存至少XG）；带宽XM；存储第一年至少XT，第二年至少XT。
其他详见招标文件大数据精准招商安商云平台建设项目根据法律法规、部门规章和招标文件的规定，贵阳国家高新区投资促进局（商务局）的大数据精准招商安商云平台建设项目已于日按规定程序进行了竞争性谈判采购评审，现将本次采购的成交候选人公示如下：一、竞争性谈判项目名称及项目编号：项目名称：大数据精准招商安商云平台建设项目交易编号：2016-ZFCG-1245二、公告日期：公告日期：日三、评审信息：谈判日期：日 14:00谈判地点：贵阳市公共资源交易中心（贵阳市观山湖区中天会展中心soho办公区G座）谈判委员会组成：徐盛,张岚,刘蕊,王晓琼,蒯栋,王麒,李海波四、中标信息：包号（品目名）
成交供应商
成交金额（元）
成交供应商地址
备注大数据精准招商安商云平台建设项目
中冶赛迪重庆信息技术有限公司
重庆市北部新区汇金路11号
null五、本次招标联系事项：联系人：钮志卿联系电话：4传真电话： 4邮箱：？联系地址：？贵阳市政务服务大厅118号窗口（市级行政中心二期A区负一层）邮政编码：？550081网址：？&a href=&& rel=&nofollow& &=&& target=&_blank& style=&word-wrap: break- color: rgb(153, 153, 153); text-decoration:&&采购人将从上述成交候选供应商中，按照排序由高到低的原则确定成交供应商。供应商对成交结果有异议的，可以在中标公告发布之日起七个工作日内，以书面形式向采购人或代理机构提出质疑，同时抄送贵阳市公共资源交易中心，逾期将不再受理。对采购人、采购代理机构的质疑答复不满意，或者采购人、采购代理机构未在规定期限内作出答复的，供应商可以在答复期满后15个工作日内向同级财政部门提起投诉。
鸡的屁是宝宝经济大数据是克强经济都是蒙人的。
冰格都搞大数据。贵内瓦还有什么竞争力？又要哭瞎
冰格都搞大数据。贵内瓦还有什么竞争力？又要哭瞎
大数据精准招商是未来发展趋势，龙信数据（北京）有限公司作为一家中关村知名大数据公司，针对招商困境，开发了“领跑者”大数据精准招商平台，“领跑者”是龙信数据（北京）有限公司旗下基于大数据的精准招商产品，是国内首家大数据精准招商平台，依托“互联网+”，致力于打造精准高效的智慧招商生态系统，为政府、园区等机构提供精准高效服务。“领跑者”整合了全国超过3000万企业全景画像，形成了全面覆盖一、二、三次产业的精准招商数据库，构建了大健康、文化创意、特色小镇、工业大数据、战略性新兴产业等产业链精准招商全景数据库，采用大数据挖掘技术全面呈现企业的族谱图和复杂关系网络。
登录百度帐号推荐应用您的位置：
大数据目前存在五个大问题
日 03:02:08　|　作者：佚名　|　来源：36大数据
摘要：大数据现在非常热，美国白宫任命的委员会近日发布大数据政府报告，而中国央视在两会中有大数据的专题，网络中的大数据分析报告也比比皆是。
大现在非常热，美国白宫任命的委员会近日发布政府报告，而中国央视在两会中有大数据的专题，网络中的大数据分析报告也比比皆是，从百度迁徙看“东莞挺住”,到马年春晚的大数据分析。大数据正在从一种理论思考，演变成跨越社会各领域的实践行为。
但大数据真的这么美吗?如何让数据说真话?当一切美好的讨论需向现实兑现，大数据背后的泡沫，将成新的困惑。大数据目前存在五个大问题。
数据真实性。官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数，为何一直在被质疑?凡数据造假能获利，则数据极可能有假。越来越多的软件自动发布信息，使得大数据也是真假难辨。数据背后的细节，数据源的真实、全面以及处理过程的科学，是大数据走向权威和可信的重要保障。
样本代表性。我们不可能搜集到全数据，而与大数据相关的形容词往往是大规模、精准、细化，在调用如此“完美”的数据时，如何注意情景和样本的适用性。正如网络民意与现实民意的讨论，微博不代表网络，网络不代表社会，朋友圈也是小圈子，跳出圈子看世界不容易，切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时，好数据将劣化，大数据将虚化。
相关性误差。利用大数据，基于一定算法和模型对变量元素进行相关性分析，在要素构成简单的情景中可以，在复杂系统中，仅有相关性解释还不够，易走偏。比如一个明显不对的结论：一个城市的网页数越高，其网络形象就越好。虽然，数据统计证实了网页数和网络形象存在一般的正相关，但忽略了负面事件带来的网页量爆发等，结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
故事化。大数据的概念冲击、视觉盛宴，看上去不错，但要警惕割裂传统信息管理系统和大数据的关系，营造一个概念化、全新的东西。比如开发商大肆搞房地产，大数据要建数据中心，圈地成必然，又如做科研项目，思路和内容要新颖，不少人拉大旗借用大数据。大数据只有与实际接轨，工具化、服务化和实用化，能解决具体问题的大数据，才能打破泡沫，见证数据真正之美。
隐私侵犯。大数据中包含着每个人的小数据，这些数据经过进一步分析既能知道你的爱好，也能知道你的下意识行为倾向，如果据此来判断一个人的未来，是否会重演大片“少数派报告”的场景，我们现在还不得而知。
当然，新事物多要经历阵痛、广受褒贬，才能逐渐练就为成熟的应用。大数据之路，要加强对真假数据的清洗，有好的矫正鉴别模型;商业中的大数据挖掘，应推动交互开放模式;政府可推动数据开放平台的接口，建立更好的沟通渠道，加大数据造假的惩治力度。样本代表性问题，如果无法做到全数据，应尽量考虑大数据分析的适用范围和结论边界。大数据分析也要有直观体验，明显与实际不符的结论最好有多个来源证实，多实地视察，加强生活中人性化沟通、交流，通过人际体验获得第一手材料。对涉及的数据，需要加快立法，予以规范，避免为技术所异化。
参考资料1.：（Big Data），研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[责任编辑：行云之路 ]
正在加载...
我也说几句
汇编一周来国内外网络和IT行业发生的焦点新闻，精挑细选，第一时间推送独家采写的深度报道和热点专题，深入挖掘新闻事件背后的故事，剖析新闻事件的来龙去脉，让读者准确把握业界的发展态势。
汇集存储频道每周精华内容，让您在最短的时间内，以最便捷的方式获取权威的购买指南，专家博客，皆汇聚在此。
定期为您带来深入权威的网络，交换机，路由器，无线，通信领域信息服务，涵盖产品，技术，新闻，应用案例，评测,购买指南，专栏，技巧等多个方面的信息。与企业网络相关的一切，尽在网络通信邮件，您怎可错过？
新一代数据中心建设管理最新信息快递――聚焦新一代绿色数据中心的设计、建设、运营和管理，汇集业界专家与用户的最精粹观点，展示国内外数据中心经典案例！
定期为您带来安全领域权威专业的产品，技术，新闻，应用案例，评测，购买指南等信息，保护您在网络畅游之时不受病毒的威胁，企业运行之际减少安全的风险。一份邮件在手，一份安全在心！
深入、专业关注云计算相关的技术与实践，范围覆盖私有云建设、公有云服务运营、开源云平台发展、重要云服务商动态等领域，面向企业CIO和IT经理提供深度原创报道，以及云计算、云服务领域最新的市场资讯。
汇集软件频道每周精华内容，让您在最短的时间内，以最便捷的方式获取权威的企业软件新闻，SOA，SaaS，BI，ERP，开源技术，产品，技巧等全方面的实用资讯。还犹豫什么，这就开始体验一下吧！
深入、专业关注大数据相关的技术与实践，提供Hadoop、NoSQL等领域的最新技术资讯，定期发布由业界专家撰写的大数据专栏文章，面向企业CIO、IT经理、DBA提供深度原创报道，以及大数据领域的最新市场资讯。
汇集服务器频道每周精华内容，让您在最短的时间内，以最便捷的方式获取权威的服务器虚拟化，刀片服务器，操作系统，大型机，服务器芯片信息，最新最全的服务器技巧，购买指南，专家博客，皆汇聚在此。
网界网网络学院频道，内容涵盖移动互联，技术开发，Web前端，安全，网络通信，云计算，数据中心，存储，服务器，软件等内容。
订阅过的用户，全部取消选择，可取消订阅
热点排行周月
应用案例的爆炸性增长也促进了云分析的增长。不过，真的能够确认云是IT...
五年前，Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃...
网络世界移动客户端网界网微信订阅号电力公司大数据分析平台项目的构建方案
作者:原作原创&&来源：网络转载&&发布时间： 15:13:00
&　　摘要：随着电力行业技术的不断创新，为了能列好的服务于电力行业，该公司将采用目前市面最为成熟的B/S Hadoop系统框架建立大数据分析平台。通过PI、WEB服务、中间件、多元适配器等主流技术充分保障项目的市场先进性以及在同行业中同类产品的领导地位。&
　　关键词：电力公司大数据分析项目方案&
　　中图分类号：F426.61 文献标识码：A 文章编号：X（2015）11（c）-0015-03&
　　大数据，IT行业的又一次技术变革，大数据的出现对国家经济发展和企业转型带来深远的影响，并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个&大数据&引领的智慧科技的时代，因为随着信息网络和物联网技术的不断发展，会产生出越来越多庞大数据，此时的大数据处理正是应势而生。&
　　1 项目简介&
　　四川省电力公司眉山公司也将在自建的大数据分析平台中，充分调动平台的能动性及数据分析能力，将传统的行业信息收集，转换为具有分析性，前瞻性的数据集成平台。系统通过将公司过往及未来的运维、施工等数据进行统一收录，通过数据挖掘等方式分析公司的运作模式的优劣，以数据引导的方式为公司提供更具有市场竞争力的产品和管理模式。&
　　2 项目整体框架&
　　该课题通过建立一套平台信息收集的方式，将目前眉山电力公司过往的运维、管理、施工等数据进行统一录入。通过数据的录入/导入等方式将已入库的数据进行数据分析及挖掘，并以图表、文字报表、数据分析说明等方式展现给管理机关。&
　　2.1 系统技术架构&
　　见图1。&
　　2.1.1 框架描述。&
　　（1）（表现层）界面控制层。&
　　界面主要是用来接受客户的一些请求，并有返回数据的功能，可以为客户端提供页面式的访问，是显示各类数据和用户信息的交互式界面。&
　　（2）（应用层）业务逻辑层。&
　　业务逻辑层是为了能顺利进行数据交换而设计的，它处于整个框架层的中间，这是由于层与层之间具有弱耦合作用，这会使得最下面一层做任何改变都不会影响到上层动作，所以在分层设计时，要依据层与层之间的这种弱依赖关系，以面向接口设计思想为基础，在不改变接口定义的基础上，构建一个可抽取和替换的理想式&抽屉&架构，此时的业务逻辑层对这个架构的构建非常重要，它要同时具备两种功能，从数据访问方面，它要具有调用功能；从表示层方面，它要具有被调用功能。二者的依赖关系都是建立在业务逻辑层上的。&
　　（3）（持久层）数据层。&
　　数据层主要功能是进行数据库的访，通过它可以直接访问数据库系统的所有数据，换言之就是指数据层可以实现对数据表的Select，Insert，Update，Delete的操作。在该项目中将用Web Service技术实现WPf客户端与服务器端的对接。&
　　2.1.2 系统框架架构&
　　系统框架架构见图2。&
　　2.2 系统欢迎页&
　　页面主要用于用户登录后快速的进入到相应的管理查询模块中，用户可以在主页中查看近期的数据更新状况，报表快查等。&
　　2.3 数据展示页&
　　通过前期管理人员的数据录入及对应的类型录入后，管理员可以在页面中以各种条件查看当前数据的报表信息（图、表等类型），同时可以对这些数据进行对比分析并生成相应的分析文档。&
　　2.4 数据导入页&
　　通过前期设定好的数据来源分类、数据类型分类等方式，将数据通过导入、自主上传等方式录入进系统中，系统将以类型的等方式将数据录入至数据库中。&
　　2.5 数据来源类型管理页&
　　拥有权限的管理员可以根据不同的数据来源，类型将录入数据的类型进行整理和分类。其他用户可以通过设定好的类型进行数据录入和数据查看，而系统需求中提及的6个大类全部都由此部分完成，管理员可以根据上面6种行业类型的不同细分将对应的类似与（设备、网络、地址、运维人员）等数据进行统一归类，完成类型设置后即可对该类型下的数据进行管理和查看。&
　　2.6 用户管理页&
　　拥有管理权限的管理员可以在该页面中对其他系统操作人员进行角色，权限的分类，并可查看这些工作人员近期的操作记录。&
　　2.7 系统管理页&
　　拥有权限的管理人员可以在该页面中对于系统的、数据备份、系统参数等模块进行管理和操作。&
　　3 大数据分析技术&
　　分析技术意味着对海量数据进行分析以实时得出答案，但是应用在大数据分析平台中，由于大数据自身的庞大性和复杂性，使得该项技术目前还不太成熟，相信随着相关技术的不断进步，大数据分析技术会日益完善。目前，大数据分析主要以下几个方面功能。&
　　3.1 可视化分析&
　　大数据分析系统中最基本功能就是数据可视化，它针对所有客户端用户或是数据分析人员，通过图像化的数据来表示数据，让用户有更好的感受结果体验。&
　　3.2 数据挖掘算法&
　　数据挖掘主要是用来实现客户端的数据图像化，通过数据挖掘功能将数据以图像的形式表现出来，也是机器语文的翻译器。该算法具有精炼数据，高速处理的优点，能能够应付大数据平台中庞大的数据量，而且还要实现高速计算。&
　　3.3 预测分析能力&
　　在大数据分析平台中，数据挖掘可以实现数据计算和转换，极大的提升判断的准确性，而平台预测分析功能却是让用户或是分析人员利用图像和数据挖掘的结果来做一些正确的判断和使用，是平台比较重要的功能。&
　　3.4 语义引擎&
　　由于庞大的数据量给日常数据处理带来很大困难，加上数据多元化且非结构化的特点，此时的数据处理需要使用专业的系统工具进行分析和提炼，而语义引擎的主要作用就是满足人工智能化的数据信息提取。
　　3.5 数据质量和数据管理&
　　平台最后的一个功能就是对数据的质量和管理进行控制，通过标准化流程处理数据，以此来获得预设质量的分析结果。&
　　目前的大数据平台是由非结构化数据存放文件系统+完善备份和容灾体系组成，使得该大数据平台即经济又实惠，与目前市场上昂贵的小型机集群+商业数据库方案比较，不仅在性能上没有缺失，还具备了充分的可扩展性。在设计该方案的初期，就已经开始思考该大数据平台的后续扩展性问题。&
　　（1）商业并行数据库的基本要求就是各节点物理结构相同，这样才会满足数据的近似计算和存储要求。但是随着硬件技术的不断发展，后来扩容增加的配件肯定要优于最早的老硬件，这样就会打破物理结构相同这个原则，旧硬件也会逐渐成为平台发展的阻碍。为了能更好的保持系统的优越性，只能选择慢慢替换旧硬件，这样就会产生成本浪费，经济损失自然巨大。&
　　（2）就是目前最优的商业并行数据库，能管理的数据节点量也是有限制的，一般都是控制在几十到上百这个区间，这也是架构设计不合理导致，这种数据库的后续扩容性肯定有限。而MapReduce+GFS框架，却不存在以上问题，日后如果需要扩容，仅增设机柜即可，再辅以适量的计算单元和存储，集群系统会自动分配和调度这些资源，一点不会影响到现有系统的正常运行。&
　　4 系统安全设计&
　　4.1 压力测试工具&
　　建议使用HP的LoadRunner压力测试工具LoadRunner，该工具能很好的预测系统行业和性能测试。通过使用该测试工具，可以有效缩短测试时间，同时优化系统性能，它目前被大量应用于各种体系架构的自动负载测试中。&
　　4.2 防火墙技术&
　　为了更好的安全性能，网络火墙要以多种网关方式进行设置，过滤表应以匹配模式进行设计：IP地址、MAC地址、TCP端口号、UDP端口号、主机域名、网段等。比如，允许通过的只能是合法认可的IP，而非屏蔽的非常IP地址；端口方面也只能放行特定的端口号（即具体的服务），屏蔽那些含非法端口号的数据包等。&
　　4.3 入侵检测&
　　虽然经过防火墙技术可以过滤大部分不安全访问，但是想完全实现网络安全仅依靠防火墙技术是不可能的，入侵检测系统就是最好的补漏体系，它是根据已有的、最新的攻击手段的信息代码对进出网段的所有操作行为进行实时监控、记录，并进行实时阻断、报警等策略，有效防止网络攻击和其它非法行为。&
　　参考文献&
　　[1] 肖成勇，赵子川，王淑芬.电力技术自动化在我国电力系统中的重要性和发展趋势[J].大科技，2012（10）：11-13.&
　　[2] 杜立民.电力竞争与我国电力产业市场化改革[M].杭州：浙江大学出版社，2010.
本文TAGS：
上一个文章：
下一个文章：
本站专注于、、及各类服务，联系QQ：（企业版多工号），全国统一客服热线：400-0808380（多线路）
联系地址: 四川大学望江校区成都市一环路南一段24号邮编： 610065
&&网站合法性备案号：苏ICP备号
Copyright &
All Rights Reserved. 星论文网版权所有 &&&&一共81个，开源大数据处理工具汇总（上）
[思路网注] 本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数据的朋友做个参考。
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者：：Salesforce简介：这是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。Phoenix最值得关注的一些特性有：嵌入式的JDBC驱动，实现了大部分的java.sql接口，包括元数据API可以通过多部行键或是键/值单元对列进行建模完善的查询支持，可以使用多个谓词以及优化的扫描键DDL支持：通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列版本化的模式仓库：当写入数据时，快照查询会使用恰当的模式DML支持：用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERTSELECT、用于删除行的DELETE通过客户端的批处理实现的有限的事务支持单表——还没有连接，同时二级索引也在开发当中紧跟ANSI SQL标准二、Stinger贡献者：：Hortonworks简介：原叫Tez，下一代Hive,Hortonworks主导开发，运行在YARN上的DAG计算框架。某些测试下，Stinger能提升10倍左右的性能，同时会让Hive支持更多的SQL，其主要优点包括：让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能，支持WHERE查询，让Hive的样式系统更符合SQL模型。优化了Hive请求执行计划，优化后请求时间减少90%。改动了Hive执行引擎，增加单Hive任务的被秒处理记录数。在Hive社区中引入了新的列式文件格式（如ORC文件），提供一种更现代、高效和高性能的方式来储存Hive数据。引入了新的运行时框架——Tez，旨在消除Hive的延时和吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的执行链，彻底加速Hive负载处理。Stinger官方网站&&&三、Presto贡献者：：Facebook简介：Facebook开源的数据查询引擎Presto，可对250PB以上的数据进行快速地交互式分析。该项目始于2012年秋季开始开发，目前该项目已经在超过1000名 Facebook雇员中使用，运行超过30000个查询，每日数据在1PB级别。Facebook称 Presto的性能比诸如Hive和 Map*Reduce要好上10倍有多。Presto当前支持ANSI SQL的大多数特效，包括联合查询、左右联接、子查询以及一些聚合和计算函数；支持近似截然不同的计数(DISTINCT COUNT)等。github源代码下载&&&四、Shark简介：Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。Shark速度快的原因除了Spark平台提供的基于内存迭代计算外，在设计上还存在对Spark上进行了一定的改造，主要有partial DAG execution：对join优化，调节并行粒度，因为Spark本身的宽依赖和窄依赖会影响并行计算和速度基于列的压缩和存储：把HQL表数据按列存，每列是一个array，存在JVM上，避免了JVM GC低效，而压缩和解压相关的技术是Yahoo!提供的。结来说，Shark是一个插件式的东西，在我现有的Spark和Hive及hadoop-client之间，在这两套都可用的情况下，Shark只要获取Hive的配置（还有metastore和exec等关键包），Spark的路径，Shark就能利用Hive和Spark，把HQL解析成RDD的转换，把数据取到Spark上运算和分析。在SQL on Hadoop这块，Shark有别于Impala，Stringer，而这些系统各有自己的设计思路，相对于对MR进行优化和改进的思路，Shark的思路更加简单明了些。Shark官方网站&&&五、Pig简介：Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本，类似我们通常熟悉的SQL语句，在Pig中称之为Pig Latin，在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining)，Pig也可以由用户自定义一些函数对数据集进行操作，也就是传说中的UDF(user-defined functions)。Pig官方网站&&&六、ClouderaImpala贡献者：:Cloudera简介：Cloudera Impala可以直接为存储在HDFS或HBase中的Hadoop数据提供快速，交互式的SQL查询。除了使用相同的存储平台外，Impala和Apache Hive一样也使用了相同的元数据，SQL语法（Hive SQL），ODBC驱动和用户接口（Hue Beeswax），这就很方便的为用户提供了一个相似并且统一的平台来进行批量或实时查询。Cloudera Impala是用来进行大数据查询的补充工具。Impala并没有取代像Hive这样基于MapReduce的分布式处理框架。Hive和其它基于MapReduce的计算框架非常适合长时间运行的批处理作业，例如那些涉及到批量Extract、Transform、Load，即需要进行ETL作业。Impala提供了：数据科学家或数据分析师已经熟知的SQL接口能够在Apache Hadoop的大数据中进行交互式数据查询Single system for big data processing and analytics so customers can avoid costly modeling and ETL just for analyticsClouderaImpala官方网站&&&七、ApacheDrill贡献者：：MapR简介：Apache Drill是是一个能够对大数据进行交互分析、开源的分布式系统，且基于Google Dremel实现，它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。Drill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。Drill于2012年8月份由Apache推出。从Drill官方对其架构的介绍中得知，其具有适于实时的分析和快速的应用开发、适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive等特征。另外，Drill的核心模块是Drillbit服务，该服务模块包括远程访问子模块、SQL解析器、查询优化器、任务计划执行引擎、存储插件接口（DFS、HBase、Hive等的接口）、分布式缓存模块等几部分，如下图所示：ApacheDrill官方网站&&&八、ApacheTajo简介：Apache Tajo项目的目的是在HDFS之上构建一个先进的数据仓库系统。Tajo将自己标榜为一个“大数据仓库”，但是它好像和之前介绍的那些低延迟查询引擎类似。虽然它支持外部表和Hive数据集（通过HCatalog），但是它的重点是数据管理，提供低延迟的数据访问，以及为更传统的ETL提供工具。它也需要在数据节点上部署Tajo特定的工作进程。Tajo的功能包括：ANSI SQL兼容JDBC驱动集成Hive metastore能够访问Hive数据集一个命令行客户端一个自定义函数APIApacheTajo官方网站&&&九、Hive简介：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive官方网站&&&流式计算一、FacebookPuma贡献者：Facebook简介：实时数据流分析二、Twitter Rainbird贡献者：Twitter简介：Rainbird一款基于Zookeeper,Cassandra,Scribe,Thrift的分布式实时统计系统，这些基础组件的基本功能如下：Zookeeper，Hadoop子项目中的一款分布式协调系统，用于控制分布式系统中各个组件中的一致性。Cassandra，NoSQL中一款非常出色的产品，集合了Dynamo和Bigtable特性的分布式存储系统，用于存储需要进行统计的数据，统计数据，并且提供客户端进行统计数据的查询。（需要使用分布式Counter补丁CASSANDRA-1072）Scribe，Facebook开源的一款分布式日志收集系统，用于在系统中将各个需要统计的数据源收集到Cassandra中。Thrift，Facebook开源的一款跨语言C/S网络通信框架，开发人员基于这个框架可以轻易地开发C/S应用。用处Rainbird可以用于实时数据的统计：统计网站中每一个页面，域名的点击次数内部系统的运行监控（统计被监控服务器的运行状态）记录最大值和最小值三、Yahoo S4贡献者：Yahoo简介：S4（Simple Scalable Streaming System）最初是Yahoo!为提高搜索广告有效点击率的问题而开发的一个平台，通过统计分析用户对广告的点击率，排除相关度低的广告，提升点击率。目前该项目刚启动不久，所以也可以理解为是他们提出的一个分布式流计算（Distributed Stream Computing）的模型。S4的设计目标是：·提供一种简单的编程接口来处理数据流·设计一个可以在普通硬件之上可扩展的高可用集群。·通过在每个处理节点使用本地内存，避免磁盘I/O瓶颈达到最小化延迟·使用一个去中心的，对等架构；所有节点提供相同的功能和职责。没有担负特殊责任的中心节点。这大大简化了部署和维护。·使用可插拔的架构，使设计尽可能的即通用又可定制化。·友好的设计理念，易于编程，具有灵活的弹性Yahoo S4官方网站&&&四、TwitterStorm贡献者：Twitter简介：Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架，它原来是由BackType开发，后BackType被Twitter收购，将Storm作为Twitter的实时数据分析系统。实时数据处理的应用场景很广泛，例如商品推荐，广告投放，它能根据当前情景上下文（用户偏好，地理位置，已发生的查询和点击等）来估计用户点击的可能性并实时做出调整。storm的三大作用领域：1.信息流处理（Stream Processing）Storm可以用来实时处理新数据和更新数据库，兼具容错性和可扩展性,它可以用来处理源源不断的消息，并将处理之后的结果保存到持久化介质中。2.连续计算（Continuous Computation）Storm可以进行连续查询并把结果即时反馈给客户，比如将Twitter上的热门话题发送到客户端。3.分布式远程过程调用（Distributed RPC）除此之外，Storm也被广泛用于以下方面：精确的广告推送实时日志的处理TwitterStorm官方网站&&&迭代计算一、Apache Hama简介：Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计算框架，模仿了Google的Pregel。用来处理大规模的科学计算，特别是矩阵和图计算。建立在Hadoop上的分布式并行计算模型。基于Map/Reduce和 Bulk Synchronous的实现框架。运行环境需要关联Zookeeper、HBase、HDFS组件。Hama中有2个主要的模型:– 矩阵计算(Matrix package)– 面向图计算(Graph package)二、ApacheGiraph代码托管地址：简介：Apache Giraph是一个可伸缩的分布式迭代图处理系统，灵感来自BSP（bulk synchronous parallel）和Google的Pregel，与它们区别于则是是开源、基于Hadoop的架构等。Giraph处理平台适用于运行大规模的逻辑计算，比如页面排行、共享链接、基于个性化排行等。Giraph专注于社交图计算，被Facebook作为其Open Graph工具的核心，几分钟内处理数万亿次用户及其行为之间的连接。三、HaLoop简介：迭代的MapReduce，HaLoop——适用于迭代计算的Hadoop。Hadoop与HaLoop的不同与Hadoop比较的四点改变：1.提供了一套新的编程接口，更加适用于迭代计算；HaLoop给迭代计算一个抽象的递归公式：2.HaLoop的master进行job内的循环控制，直到迭代计算结束；3.Task Scheduler也进行了修改，使得任务能够尽量满足data locality4.slave nodes对数据进行cache并index索引，索引也以文件的形式保存在本地磁盘。HaLoop官网&&&四、Twister简介：Twister，迭代式MapReduce框架，Twister是由一个印度人开发的，其架构如下：在Twister中，大文件不会自动被切割成一个一个block，因而用户需提前把文件分成一个一个小文件，以供每个task处理。在map阶段，经过map（）处理完的结果被放在分布式内存中，然后通过一个broker network（NaradaBroking系统）将数据push给各个reduce task（Twister假设内存足够大，中间数据可以全部放在内存中）；在reduce阶段，所有reduce task产生的结果通过一个combine操作进行归并，此时，用户可以进行条件判定，确定迭代是否结束。combine后的数据直接被送给map task，开始新一轮的迭代。为了提高容错性，Twister每隔一段时间会将map task和reduce task产生的结果写到磁盘上，这样，一旦某个task失败，它可以从最近的备份中获取输入，重新计算。为了避免每次迭代重新创建task，Twister维护了一个task pool，每次需要task时直接从pool中取。在Twister中，所有消息和数据都是通过broker network传递的，该broker network是一个独立的模块，目前支持NaradaBroking和ActiveMQ。离线计算一、HadoopMapReduce简介：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（归约）”，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。HadoopMapReduce官方网站&&&二、Berkeley Spark简介：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。三、DataTorrent简介：DataTorrent基于Hadoop 2.x构建，是一个实时的、有容错能力的数据流式处理和分析平台，它使用本地Hadoop应用程序，而这些应用程序可以与执行其它任务，如批处理，的应用程序共存。该平台的架构如下图所示：相关文章：DataTorrent 1.0每秒处理超过10亿个实时事件DataTorrent将数据分析速度从“实时”提升至“现在时”键值存储一、LevelDB贡献者：Google简介：Leveldb是一个google实现的非常高效的kv数据库，目前的版本1.2能够支持billion级别的数据量了。在这个数量级别下还有着非常高的性能，主要归功于它的良好的设计。特别是LMS算法。LevelDB是单进程的服务，性能非常之高，在一台4核Q6600的CPU机器上，每秒钟写数据超过40w，而随机读的性能每秒钟超过10w。此处随机读是完全命中内存的速度，如果是不命中速度大大下降。LevelDB官方网站&&&二、RocksDB贡献者：facebook简介：RocksDB虽然在代码层面上是在LevelDB原有的代码上进行开发的，但却借鉴了Apache HBase的一些好的idea。在云计算横行的年代，开口不离Hadoop，RocksDB也开始支持HDFS，允许从HDFS读取数据。RocksDB支持一次获取多个K-V，还支持Key范围查找。LevelDB只能获取单个Key。RocksDB除了简单的Put、Delete操作，还提供了一个Merge操作，说是为了对多个Put操作进行合并。RocksDB提供一些方便的工具，这些工具包含解析sst文件中的K-V记录、解析MANIFEST文件的内容等。RocksDB支持多线程合并，而LevelDB是单线程合并的。RocksDB官方网站&&&三、HyperDex贡献者：FacebookHyperDex是一个分布式、可搜索的键值存储系统，特性如下：分布式KV存储，系统性能能够随节点数目线性扩展吞吐和延时都能秒杀现在风头正劲的MonogDB，吞吐甚至强于Redis使用了hyperspace hashing技术，使得对存储的K-V的任意属性进行查询成为可能官网：http://hyperdex.org/四、TokyoCabinet日本人MikioHirabayashi（平林干雄）开发的一款DBM数据库。Tokyo Cabinet是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。当做为Hash表数据库使用时，每个key必须是不同的,因此无法存储两个key相同的值。提供了以下访问方法:提供key,value参数来存储，按key删除记录，按key来读取记录，另外，遍历key也被支持，虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM等等是相同的，但是比它们的性能要好得多（因此可以替代它们) 。下一代KV存储系统，支持strings、integers、floats、lists、maps和sets等丰富的数据类型。TokyoCabinet官方网站&&&五、VoldemortVoldemort是一个分布式键值存储系统，是Amazon’s Dynamo的一个开源克隆。特性如下：支持自动复制数据到多个服务器上。支持数据自动分割所以每个服务器只包含总数据的一个子集。提供服务器故障透明处理功能。支持可拨插的序化支持，以实现复杂的键-值存储，它能够很好的5.集成常用的序化框架如：Protocol Buffers、Thrift、Avro和Java Serialization。数据项都被标识版本能够在发生故障时尽量保持数据的完整性而不会影响系统的可用性。每个节点相互独立，互不影响。支持可插拔的数据放置策略官网：/六、AmazonDynamo贡献者：亚马逊简介：Amazon Dynamo是一个经典的分布式Key-Value存储系统，具备去中心化，高可用性，高扩展性的特点，但是为了达到这个目标在很多场景中牺牲了一致性。Dynamo在Amazon中得到了成功的应用，能够跨数据中心部署于上万个结点上提供服务，它的设计思想也被后续的许多分布式系统借鉴。如近来火热的Cassandra，实际上就是基本照搬了Dynamo的P2P架构，同时融合了BigTable的数据模型及存储算法。Amazon Dynamo官方网站&&&七、Tair贡献者：淘宝简介：tair是淘宝自己开发的一个分布式key/value存储引擎.tair分为持久化和非持久化两种使用方式. 非持久化的tair可以看成是一个分布式缓存. 持久化的tair将数据存放于磁盘中. 为了解决磁盘损坏导致数据丢失,tair可以配置数据的备份数目,tair自动将一份数据的不同备份放到不同的主机上, 当有主机发生异常, 无法正常提供服务的时候, 其于的备份会继续提供服务.tair的总体结构tair作为一个分布式系统, 是由一个中心控制节点和一系列的服务节点组成. 我们称中心控制节点为config server. 服务节点是data server.config server负责管理所有的data server, 维护data server的状态信息.data server对外提供各种数据服务, 并以心跳的形式将自身状况汇报给config server.config server是控制点, 而且是单点, 目前采用一主一备的形式来保证其可靠性. 所有的data server地位都是等价的.八、ApacheAccumuloApache Accumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案，基于单元访问控制以及可定制的服务器端处理。Accumulo使用Google BigTable设计思路，基于Apache Hadoop、Zookeeper和 Thrift构建。官网：http://accumulo.apache.org/九、RedisRedis是一个高性能的key-value存储系统，和Memcached类似，它支持存储的value类型相对更多，包括string（字符串）、list（链表）、set（集合）和zset（有序集合）。与memcached一样，为了保证效率，数据都是缓存在内存中，区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了主从同步。Redis的出现，很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用。它提供了Python、Ruby、Erlang、PHP客户端，使用很方便。官网：http://redis.io/表格存储一、OceanBase贡献者：阿里巴巴相关文章：26页PPT解密支撑支付宝交易的分布式数据库系统——OceanBase简介：OceanBase是一个支持海量数据的高性能分布式数据库系统，实现了数千亿条记录、数百TB数据上的跨行跨表事务，由淘宝核心系统研发部、运维、DBA、广告、应用研发等部门共同完成。在设计和实现OceanBase的时候暂时摒弃了不紧急的DBMS的功能，例如临时表，视图(view)，研发团队把有限的资源集中到关键点上，当前OceanBase主要解决数据更新一致性、高性能的跨表读事务、范围查询、join、数据全量及增量dump、批量数据导入。目前OceanBase已经应用于淘宝收藏夹，用于存储淘宝用户收藏条目和具体的商品、店铺信息，每天支持4～5千万的更新操作。等待上线的应用还包括CTU、SNS等，每天更新超过20亿，更新数据量超过2.5TB，并会逐步在淘宝内部推广。OceanBase 0.3.1在Github开源，开源版本为Revision:12336。官网：http://alibaba.github.io/oceanbase/二、AmazonSimpleDB贡献者：亚马逊Amazon SimpleDB是一个分散式数据库，以Erlang撰写。同与Amazon EC2和亚马逊的S3一样作为一项Web服务，属于亚马逊网络服务的一部分。正如EC2和S3，SimpleDB的按照存储量，在互联网上的传输量和吞吐量收取费用。在日，亚马逊推出了新的定价策略，提供了免费1 GB的数据和25机器小时的自由层(Free Tire)。将其中的数据转移到其他亚马逊网络服务是免费的。它是一个可大规模伸缩、用Erlang编写的高可用数据存储。官网：/cn/simpledb/三、Vertica贡献者：惠普简介：惠普2011年2月份起始3月21号完成收购Vertica。Vertica基于列存储。基于列存储的设计相比传统面向行存储的数据库具有巨大的优势。同时Vertica支持MPP（massively parallel processing）等技术，查询数据时Vertica只需取得需要的列，而不是被选择行的所有数据，其平均性能可提高50x-1000x倍。（查询性能高速度快）Vertica的设计者多次表示他们的产品围绕着高性能和高可用性设计。由于对MPP技术的支持，可提供对粒度，可伸缩性和可用性的优势。每个节点完全独立运作，完全无共享架构，降低对共享资源的系统竞争。Vertica的数据库使用标准的SQL查询，同时Vertica的架构非常适合云计算，包括虚拟化，分布式多节点运行等，并且可以和Hadoop/MapReduce进行集成。Vertica官网：/四、Cassandra贡献者：facebook相关文章：开源分布式NoSQL数据库系统——Cassandra Cassandra与HBase的大数据对决谁是胜者？简介：Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将Cassandra开源，此后，由于Cassandra良好的可扩放性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比Dynamo（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型）。Cassandra最初由Facebook开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。Cassandra官网：http://cassandra.apache.org/五、HyperTable简介：Hypertable是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable相似的模型。在过去数年中，Google为在PC集群上运行的可伸缩计算基础设施设计建造了三个关键部分。第一个关键的基础设施是Google File System（GFS），这是一个高可用的文件系统，提供了一个全局的命名空间。它通过跨机器（和跨机架）的文件数据复制来达到高可用性，并因此免受传统文件存储系统无法避免的许多失败的影响，比如电源、内存和网络端口等失败。第二个基础设施是名为Map-Reduce的计算框架，它与GFS紧密协作，帮助处理收集到的海量数据。第三个基础设施是Bigtable，它是传统数据库的替代。Bigtable让你可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable是Bigtable的一个开源实现，并且根据我们的想法进行了一些改进。HyperTable官网：http://hypertable.org/六、FoundationDB简介：支持ACID事务处理的NoSQL数据库，提供非常好的性能、数据一致性和操作弹性。日，FoundationDB已经发布了其key-value数据库的3.0版本，主要专注于可伸缩性和性能上的改善。FoundationDB的CEO David Rosenthal在一篇博客上宣布了新的版本，其中展示了FoundationDB 3.0在可伸缩性方面的数据，它可以在一个32位的c3.8xlarge EC2实例上每秒写入1440万次；这在性能上是之前版本的36倍。除了性能和可伸缩性的改善之外，FoundationDB 3.0还包含了对监控支持的改善。这种监控机制不仅仅是简单的机器检查，它添加了对多种潜在的硬件瓶颈的诊断，并且把那些高层级的信息整合到现有监控基础架构中。官网：/七：HBase贡献者：Fay Chang所撰写的“Bigtable简介：HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。官网：http://hbase.apache.org/文件存储一、CouchDB简介：CouchDB是用Erlang开发的面向文档的数据库系统，最近刚刚发布了1.0版本（日）。CouchDB不是一个传统的关系数据库，而是面向文档的数据库，其数据存储方式有点类似lucene的index文件格式，CouchDB最大的意义在于它是一个面向web应用的新一代存储系统，事实上，CouchDB的口号就是：下一代的Web应用存储系统。特点：一、CouchDB是分布式的数据库，他可以把存储系统分布到n台物理的节点上面，并且很好的协调和同步节点之间的数据读写一致性。这当然也得靠Erlang无与伦比的并发特性才能做到。对于基于web的大规模应用文档应用，分布式可以让它不必像传统的关系数据库那样分库拆表，在应用代码层进行大量的改动。二、CouchDB是面向文档的数据库，存储半结构化的数据，比较类似lucene的index结构，特别适合存储文档，因此很适合CMS，电话本，地址本等应用，在这些应用场合，文档数据库要比关系数据库更加方便，性能更好。三、CouchDB支持REST API，可以让用户使用JavaScript来操作CouchDB数据库，也可以用JavaScript编写查询语句，我们可以想像一下，用AJAX技术结合CouchDB开发出来的CMS系统会是多么的简单和方便。其实CouchDB只是Erlang应用的冰山一角，在最近几年，基于Erlang的应用也得到的蓬勃的发展，特别是在基于web的大规模，分布式应用领域，几乎都是Erlang的优势项目。官网：http://couchdb.apache.org/二、MongoDB简介：MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。
【温馨提示】思路网倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至，我们将及时处理。本站文章仅作分享交流用途，作者观点不等同于思路网观点。用户与作者的任何交易与本站无关，请知悉。
热门文章标签
电商服务推荐
电商服务招标
版权所有思路
保留所有权利
Copyright & EBrun, Inc. All Rights Reserved.
京ICP证070369号 | 京ICP备号 | 京公网安备 87
北京亿商联动国际电子商务股份有限公司
地址：北京市石景山区鲁谷路74号中国瑞达大厦1701 电话：010-
打开微信“扫一扫”打开网页后点击屏幕右上角分享按钮
选择需要的电商服务类别
店铺外包（代运营、设计...）
软件工具（ERP、CRM...）
仓配物流（管理、配送…）
外贸出口（推广、管理…）
其它服务（请在备注说明）}

我就爱股票网