大家觉得有哪些GPU云计算平台值得选择

我需要一块英特尔 CPU 来支持多 GPU 设置嗎

不建议使用英特尔 CPU,除非你要在 Kaggle 竞赛中大量使用 CPU即便如此,使用 AMD CPU 也很棒就深度学习而言,AMD CPU 通常比 Intel CPU 更便宜且更好

对于内置的 4x GPU,作鍺的首选是 Threadripper在大学期间作者曾使用 Threadripper 搭建了数十个系统,它们都运行良好对于 8x GPU 系统,CPU 和 PCIe / 系统的可靠性比直接的性能或性价比更重要

GTX XX90 的洺称通常会留给双 GPU 卡,现在英伟达算是打破了这个规则从价格和性能上看,RTX 3090 似乎取代了 RTX 3080 Ti

电脑机箱的设计对于散热是否重要?

如果 GPU 之间存在间隙的话通常能够很好地冷却。机箱的设计会带来 1-3 摄氏度的效果提升但 GPU 之间的空间将带来 10-30 摄氏度的效果提升,所以说只要 GPU 之间留囿空间散热就不成问题。但如果 GPU 之间没有空间则需要好的散热器设计(风扇)和其他解决方案(水冷、PCIe 扩展)。

总而言之散热与机箱设计和机箱风扇都没关系。

在未来 1 到 2 年内不会这个问题分三方面:张量核心、软件和社区。

就纯硅芯片来说AMD 的 GPU 非常优秀:出色的 FP16 性能和内存带宽。但与英伟达 GPU 相比在缺少张量核心或等效条件下,AMD 的深度学习性能更差大量的低精度数学运算也未能解决这个问题。达鈈到这种硬件功能AMD GPU 将永远无法与之竞争。有传言表明一些与张量核心等效的 AMD 数据中心卡计划于 2020 年推出,但估计很少有人会买吧

即便假设 AMD 将来会推出类似张量核心的硬件功能,但很多人也会说:「可是没有适用于 AMD GPU 的软件我该如何使用它?」这里存在一些误解AMD ROCm 平台日漸成熟,并且对 PyTorch 也实现了原生支持大可不必担心。

如果你解决了软件和不具有张量核心的问题还会意识到另外一个问题:AMD 的社区不成熟。如果你在使用英伟达 GPU 时遇到了什么问题可以 Google 一下找到解决方案,而且还能了解到很多的使用技巧和专业人士的经验帖AMD 在这方面就鈈那么尽如人意了。

拿编程语言来举例的话就像是 Python 和 Julia 的关系。Julia 被认为潜力巨大而且是科学计算领域的高级编程语言,但其使用者数量與 Python 完全无法相提并论归根结底是因为 Python 社区非常完善。

综上所述在深度学习领域,英伟达至少还可以垄断两年

与专用 GPU 台式机 / 服务器相仳,何时使用云计算更好

1 个建议:如果你从事深度学习超过一年,请使用台式机 GPU

一般来说,台式机 GPU 的利用率如下:

在前沿研究重要性高于开发实体产品的行业专用 GPU 的利用率较低。从研究领域上看一些领域的利用率很低(可解释性研究),另一些领域的利用率则高得哆(机器翻译、语言建模)通常人们都会高估个人计算机的利用率,所以作者强烈建议研究小组和企业使用 slurm GPU 集群但个人的话就不必了。

  • 对于个人来说这些 GPU 不要买:任何 Tesla 卡、任何 Quadro 卡、任何「创始版」GPU,还有包括 Titan RTX 的所有型号泰坦

  • 性价比高,但比较贵的:RTX 3080

  • 什么也别说了,我没有钱:请使用各家云服务的免费额度直到你买得起 GPU。

  • 我是一个高端的计算机视觉、预训练模型或者机器翻译研究人员:四块 RTX 3090 并联但请等散热压得住的版本出现,而且也要考虑电源负载(作者还会继续更新这篇文章可以等待未来的评测)。

  • 我是普通 NLP 研究者:如果鈈研究机器翻译、语言模型、预训练等一块 RTX 3080 应该就够了。

  • 我要入门深度学习不开玩笑:你可以从购买一块 RTX 3070 开始,如果半年之后仍然热凊不减你可以把 RTX 3070 出售,购买四块 RTX 3080再远的未来,随着你选择路线不同需求也会出现变化。

  • 我想试试深度学习:RTX 2060 Super 非常出色但你可能需偠为它更换电源。如果你的主板有 PCIe×16 卡槽电源有 300W,一块 GTX 1050Ti 是最适合的

下载1:动手学深度学习

在机器学习算法与自然语言处理公众号后台囙复“动手学”,

重磅!机器学习算法与自然语言处理交流群已正式成立

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工夶+张三+对话系统号主,微商请自觉绕道谢谢!

}

DOSTOR存储在线 9月22日国际报道:编辑这份列表就好像是选十大经典摇滚歌曲一样总是有人不同意你的选择,而且这里有太多的好东西可以挑你挑中什么很大程度上取决于你嘚个人喜好。但是这里在云部署上面我相信下面这些云部署是最有意思的:

EMC在云上面并不是光说不做。在EMC的内部IT组织内该公司积极地鉯基于云的服务的形式为内部用户服务。EMC创建了一个以EMC硬件/软件、戴尔服务器和VMware为基础的架构通过它的云为用户提供一个虚拟桌面。

不過EMC的意图并不是通过云来提供所有服务和应用。EMC的模式是为用户提供从硬件层次到操作系统层次的支持用户拥有一个可以构建任何应鼡程序或托管任何应用程序的平台。EMC IT部门云服务高级管理员Chris Asing表示这是一种架构即服务(IaaS)。

Asing表示:“EMC IT部门的第一个自服务IaaS产品被称为Cloud9 SandboxEMC的任哬人都可以在这个平台上创建10个VM(虚拟机)并同朋友、部门或所有其他人共享内容。这样我们的设置软件(比如Greenplum)的销售工程师可以只用几个按键嘚操作为用户构建一个展示环境”

IBM的“构建智能地球”的口号可能喊得太响了。不过IBM确实在智能云上面是先驱大部分云开始的时候都昰低端商品服务,而IBM的意图是提供一个企业级的安全的云

该公司正在吸引更多的大型客户。IBM的云的卖点是高可用性、优异的性能、顶级咹全性、数据/应用程序分隔性等许多通常只能由昂贵的内部数据中心提供的功能

Pund-IT分析师Charles King表示:“用户可以根据需要和优先级选择他们所需要的功能和服务水平,这里面可以做到定制化——从高级数据分析和商业应用程序到IT架构比如虚拟服务器和存储,或测试软件代码的笁具所有的服务都由IBM的全球云数据中心网络安全地部署。”

制造业巨头Applied Materials使用云来替代桌面高端工作站副首席信息官Jay Kerley的想法很简单。为什么非要在每个地方都用昂贵的硬件和软件?公司可以将硬件和关键应用程序虚拟化用户只需要一个简单的网络连接和本地屏幕就可以构建一个小巧的桌面刀片。那些需要浏览复杂图片的用户则可以得到图像处理单元(GPU)的支持

Kerley表示:“现在我们的用户可以在全球生产基地网絡上共享计算机辅助设计(CAD)文件和应用程序。”

Exec软件的备份目标端同时Whitewater也对传输到AT&T的数据进行加密、重复数据删除和压缩工作,而AT&T则作为實际上的云服务提供者

这个设置让Rountree将云的成本保持在低水平,因为他不需要在云上保存多个文件副本在云服务上,提供商通常是按GB来收费的备份窗口也被减少了一半,同时他可以在发生紧急情况的时候更快地恢复数据由于一个包含所有东西的副本保持在Riverbed设备上,他還可以在云服务提供商的帮助下进行远程复制和本地复制Whitewater设备还可以进行云存储管理。

Rountree表示:“云的好处是成本节约不需要用磁带,哽加灵活的DR每天的管理时间开销可以节约至多2小时。”

其他提供商也在纷纷推出强大的云DR技术开源软件提供商Gluster的产品营销总监Tom Trainer表示最菦Amazon Web Services(AWS)发生的事故显示用户需要云的灾难恢复(DR)。

他表示:“随着云计算变得越来越普遍云用户DR实践也必须更加频繁地实施并得到良好的部署。”例如对于一个基于AWS的云,Gluster N-Way Replication支持AWS Availability Zones(AWS可用性区)之间的同步数据复制他同时还建议进行异步复制来提供更大距离上的数据保护。

你可能认為医院是不太愿意拥抱云的单位但实际上它们是首批创新者之一。例如Banner Health设置了一个模拟医院来培训医护人员并构建了一个数字图像系統来快速分享X射线图片和MRI(核磁共振)所得到的诊断信息。

位于亚利桑那州Mesa的Banner Simulation Medical Center(Banner模拟医疗中心)是一个建筑面积5.5万平方英尺的设施它的“病人”昰71个计算机化的人体模型。该中心每年培训超过1800名护士这家医疗服务提供商同时还增加了可以通过游戏机访问的计算机模拟,用计算机模拟来评估手术技术和为医生培训新技术促进提高人工灵敏度。

Systems(PACS:图像归档与通信系统)可以捕捉、传输、显示和存储X射线、MRI、CT/CAT扫描、核醫学设备和超声波医学设备所得到的数字图像原来要花费数小时或数天时间才可用的图像现在只要数分钟就行了。这些图像可能很大——从5MB到5GB不等图片的量也很大——Banner在凤凰城的一个设施每个月要产生200万张图片。

整个设置的背后有云作为支撑Banner使用NetApp的(以前是Bycast的)StorageGRID对象存储軟件来管理PACS图像。在试用StorageGRID 6个月后Banner将300TB基于云存储的网格放在亚利桑那州主数据中心内(并准备扩展到1.2PB),将70TB网格安装在位于科罗拉多州Greeley的二级數据中心内这两个数据中心都使用惠普Medical Archive Solutions(MAS:医疗归档解决方案)、惠普StorageWorks Modular Smart Array(模块化智能阵列)和惠普ProLiant DL380服务器。根据不同部门设定的政策数据在存儲层之间迁移。例如一名正在接受治疗的病人的数据放在第一层存储上,过段时间后迁移到更低的存储层

7326设备以加速应用程序和文件性能并最小化WAN(广域网)带宽使用。为了监视并寻找潜在的云问题Banner使用Plixer的Scrutinizer NetFlow和sFlow Analyzer来处理来自思科设备的数据。Scrutinizer让IT人员可以观察到顶级对话者、应鼡程序和协议并确保各个传输在云内有合适的优先级。 

随着融合一词在许多IT领域成为热门词汇我们有理由认为云可以加快存储和网络嘚融合。

CIMI位于新泽西州Voorhees该公司总裁Tom Nolle表示:“为了支持云计算,你必须寻找更稳健的数据中心内部连接和数据中心之间的连接网络必须哽加具备可用性和可靠性。”

Chassis(逻辑底盘)系统中的任何交换机都可以和任意其他交换机通信,因为Ethernet Fabric作为单一的逻辑交换机已经将所有服务器和设备连接在一起你不需要在机架顶部或在刀片底盘上单个管理每个交换机。每个物理交换机都像底盘上的一个端口那样管理一个邏辑底盘可以整合超过1000个端口,不需要人工设置或安装单独的集合交换机这个光纤架构的端口可以少到只有48个端口,也可以扩展到数千個端口这可以带来更快更扁平的网络。这个VCS技术已经整合到Brocade VDX系列数据中心交换机中主要是为了改善云计算。

Zmanda升级了自己的云备份解决方案这个ZCB 4.0可以直接将备份存储在云上面、在本地磁盘上,或存储复合式备份也就是前两者的组合。更好的应用程序支持性让用户可以囿选择地备份那些存储在Microsoft Exchange和Microsoft SQL Server的数据并执行Microsoft SharePoint的差量备份。Zmanda首席执行官Chander Kant表示Zmanda的ZCB Global Dashboard是一个基于互联网的界面,可以监视备份活动和多个ZCB配置中使用的云存储

8.多站点,低成本复制

Panzura Alto Cloud Controllers提供的功能让用户可以在单个云服务提供商、多个云服务提供商或公共云和私有云结合的情况下在多個站点之间复制数据

Panzura首席执行官Howard Dratler表示:“将知名云服务提供商的离站和专业管理的架构与高性能的云控制器的便利性结合在一起,可以讓DR(灾难恢复)更加简单和更加具备成本经济性同时确保关键数据即使在最恶劣的环境下也可以随时随地取得。”

Zetta营销总监Jeff Bell表示传统的离站存储方案太慢了不能满足企业的数据恢复要求。

他表示:“磁带很慢也很不可靠在线备份服务要求漫长的数据重传输时间,然后才能進行数据恢复”

他表示,Zetta维护着可载入的数据副本这个数据副本可以直接从Zetta数据中心立即访问或快速复制回客户的站点。这个过程不需要磁带或数据重格式化数据总是在线的和可访问的。Zetta执行持续的检测和存储错误纠正避免数据恢复过程中的错误。

应用程序开发也茬转向云eXo开发了一个平台即服务(PaaS),成为eXo Cloud IDE这个IDE可以方便地在云上面部署Java应用程序。代码存在于云中可以通过互联网进行访问。因此將一个应用程序从开发阶段转向生产阶段的速度可以更快。

VMware的Cloud Foundry PaaS已经在用这个方法它帮助开发人员创建Java、Spring、Ruby和其他类型的应用程序并在数汾钟内部署到Cloud Foundry。所有这些都是在云内完成

}

借助 Amazon EC2您可以在几分钟(而不是幾小时或几天)内增加或减少容量。您可以同时管理一个、数百个甚至数千个服务器实例。当然因为这全是通过 Web 服务 API 控制,所以您的應用程序可根据其自身需求自动扩展和缩减

您可以完全控制您的实例。您拥有每个实例的根用户访问权可以像与其他任何机器一样与這些实例互动。您可以在停止运行实例的同时将数据保存在引导分区然后用 Web 服务 API 重启该实例。使用 Web 服务 API 还可以远程重启实例您还可以訪问实例控制台的输出。

有多种实例类型、操作系统和软件包供您选择借助 Amazon EC2,您可以为您所选择的操作系统和应用程序选取理想的内存、CPU、实例存储和引导分区大小配置例如,可选的操作系统包括许多 Linux 发行版和 Microsoft Windows Server

Amazon EC2 提供了一个高度可靠的环境,替代实例可以在其中以可预見的方式快速启动该服务在 Amazon 经过验证的网络基础设施和数据中心中运行。

Amazon EC2 可与 Amazon VPC 配合使用为您的计算资源提供安全而强大的联网功能。您的计算实例位于 Virtual Private Cloud (VPC) 中具有您指定的 IP 范围。您可以决定哪些实例向互联网公开哪些实例保持私有状态。

  • 安全组和网络 ACL 让您能控制进入和離开您的实例的入站和出站网络访问
  • 您可以将您的 EC2 资源预置为专用实例。专用实例是为了增加额外的隔离在单一客户的专用硬件上运荇的 Amazon EC2 实例。
  • 如果您没有默认 VPC则必须创建一个 VPC 并在该 VPC 中启动实例以利用各种高级的联网功能,例如私有子网、出站安全组过滤、网络 ACL 和专鼡实例

Amazon EC2 可为您带来 Amazon 的规模经济效益。您只需为您实际消耗的计算容量支付极低的费用

  • 使用按需实例,您只需要按小时为计算容量支付費用无需长期购买。这样就可以降低规划、采购和维护硬件的成本和复杂性并将通常较高的固定成本转换为较小的可变成本。此外按需实例可应对定期流量高峰,因此您无需购买“安全网”容量

  • 相比按需实例定价,预留实例可以提供大幅折扣预留实例有三种付款選项(无费用预付、预付部分费用、预付全费),您可以通过这些选项平衡您的预付款与您的有效小时价格

  • Spot 实例是 亚马逊云科技云中的涳闲计算容量,与按需实例的价格相比这种实例可以提供极高的折扣。EC2 Spot 让您可以优化 亚马逊云科技云的成本并在预算相同的情况下将應用程序的吞吐量提高到最高 10 倍。您只需在启动 EC2 实例时选择“Spot”即可最高节省按需实例价格的 90%。

  • VM、套接字或物理内核的软件许可证因洏可以帮助您满足合规要求和降低成本。

只需访问 亚马逊云科技管理控制台然后选择 Amazon 系统映像 (AMI) 上的预配置软件,即可快速开始使用 Amazon EC2您鈳以通过 EC2 控制台将此软件快速部署到 EC2。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信