打破在服务器基础设施上运行AI的瓶颈局限

2018-04-20 11:28 浏览: 次

现如今的企业组织机构正在大规模的采用AI人工智能应用程序来解析不断呈指数级增长的庞大数据量，这不仅要求极高，并且需要具备强大的并行处理功能，因此原来的标准化CPU已然无法充分执行许多AI解析任务了。有鉴于此，当企业数据中心在接近或达到服务器性能的瓶颈局限时，究竟应该相应的采取哪些有效的应对措施呢?

在本文中，我们将帮助您企业数据中心准备并应对由AI应用程序为企业本地部署环境和云基础架构所带来的限制。同时，我们还采访了数据中心业界的同行们，邀请他们提供了相关的指导性建议，其中包括着重强调了企业数据中心与服务器供应商密切合作的重要性，这些服务器供应商可以为您的企业从早期阶段尽快过渡到稳步的高级生产阶段，进而充分利用AI功能提供相应的指导。

当前的企业组织机构正在积极努力的应对众多的变数，以确定他们对使用由深度学习时带来的能够提供新的洞察见解的人工智能(AI)应用程序到底应该采取怎样的立场。而这一领域在当下可以说是充满了无限的商机，不采取积极的行动可能会演变成商业灾难，因为企业的竞争对手们正在收集并分析处理海量以前无法获得的数据信息，来扩大其客户群。大多数企业组织都已然意识到了这一严峻的挑战，故而他们的业务部门、IT员工、数据科学家和开发人员们都在共同努力，以确定企业的人工智能战略。

在某种程度上，采用AI战略的企业将逐步体验到在利用AI应用程序方面更为先进的领军企业们过往的经历：他们的服务器性能将遭遇到瓶颈局限问题。人工智能应用程序，特别是深度学习系统可以对当下呈指数级不断增长的海量数据信息进行分析，但这些系统要求非常高，并且需要具备强大的并行处理能力，故而越来越多的标准化CPU已然无法充分执行这些AI任务了。早期阶段和高级阶段的AI用户在某些时候将不得不彻底改造其服务器基础设施以实现所需的相关性能。

因此，IDC建议正在开发AI功能或扩展现有AI功能的企业组织机构应以严格控制的方式解决这一服务器性能瓶颈问题。务必要在充分掌握相关细节的前提下实施下一步的基础设施迁移。此外，我们建议他们务必要与其服务器供应商密切合作，这些服务器供应商可以为企业客户从早期阶段尽快过渡到稳步的高级生产阶段，进而充分利用AI功能提供相应的指导。

打破在数据中心服务器基础设施上运行AI的瓶颈

天下数据IDC发现，大多数处于概念验证(POC)测试或生产模式的人工智能和深度学习应用程序的企业在某种程度上已经达到了 “服务器基础设施瓶颈限制”的水平——有时在这些企业迁移到不同的服务器基础设施后，会不止一次的出现基础设施瓶颈局限性的问题。

天下数据IDC采访了相关的企业组织当他们在其现有的企业内部部署服务器基础架构上开始运行AI应用程序时所经历的情况。77.1%的受访者表示他们在内部服务器部署基础设施上运行AI遇到了一个或多个限制。在采用了认知软件的云用户中，90.3%的企业遇到了这种限制。下表1列出了在企业内部部署服务器环境和云基础架构中运行AI应用程序的相关限制。

表1：基础架构运行AI应用程序的瓶颈限制(排名分主次顺序)

基础架构运行AI应用程序的瓶颈限制(排名分主次顺序)

资料来源：《认知服务器基础架构调查》2017年6月

正是由于这些基础设施的瓶颈局限问题的出现，很多企业很快经历了代际转变。尽管人工智能应用程序和深度学习的兴起仅仅只有几年时间，但IDC发现，已有22.8%的企业在采用第三代服务器基础设施来运行其人工智能应用程序了，而37.6%的企业在使用第二代服务器基础设施，39.6%的企业则在使用第一代的服务器基础设施。上述这些调查百分比表明了当下的企业客户正在寻找合适的基础设施。而下表2则列出了AI服务器基础架构最常出现的代际。

表2：人工智能服务器基础设施最常见的代际(排名分顺序)

人工智能服务器基础设施最常见的代际(排名分顺序)

资料来源：《认知服务器基础架构调查》2017年6月

转向具有更高处理器性能(通常所采取的最常见的措施)、更大的I / O带宽和加速器的系统是一个合理的决定。但是这些数据也表明了理想配置所存在的不确定性。一些企业已经尝试了横向规模化扩展，并纵向扩展;而另外一些企业则采取了相反的方案。其他某些迁移从虚拟机开始，然后转移到专用服务器，而其他一些同行却与此相反。

这些矛盾的举措其实并不像其看起来那么奇怪。当前的企业组织不仅在AI软件上进行试验，而且同时也在基础设施上进行试运行。一些企业已经开始采用横向的规模化扩展配置，并且随着解决方案的日趋成熟，他们决定需要更高的性能，而这些性能能够在数据中心的现有扩展系统中获得。其他一些企业则在扩展系统的一个分区上启动了POC，并在解决方案进入下一阶段时决定将其转移到一个单插槽或双插槽的服务器集群。同样的，一款解决方案可能已经在虚拟机中开发出来，然后被迁移到专用的服务器上，以便在有些绝缘隔热的的环境中进一步开发(很多企业更倾向于在早期阶段如此进行)。

天下数据IDC认为，对于早期的实验和开发而言，所有这些迁移的举措都是有道理的。利用现有的环境意味着延迟投资于新的服务器基础设施，直到企业明确了什么是最为恰当的配置为止。但是，一旦应用程序接近运行并准备投入生产，就需要及时的做出合理的基础架构方面的决策了，以避免触及基础设施的瓶颈。

根据来自已经运行了AI应用程序的企业用户们的反馈，我们认为：认知应用程序的理想基础架构配置是一组具有加速器的单路或双路服务器，不过，企业也还可以根据实际业务需要在稍后阶段添加加速器。中型系统集群也是可行的，但只有在工作负载迅速的规模化扩展的情况下才是相关的。其他配置可能也是可行的。从对于企业用户的研究中可以清楚地看出，超融合系统和虚拟机已被证明对认知应用的影响较小。

企业数据中心究竟应该如何应对?

天下数据IDC认为，目前正在考虑实施人工智能计划或正在从实验阶段转向更为成熟的人工智能部署阶段的企业用户可能需要随着时间的推移逐步推进其实施方案，以下，我们将与读者朋友们讨论几种AI开发方法。

01、从小型到中型AI项目的逐步推进

对于小型AI项目计划逐步向中型过渡的企业用户而言，我们建议在内部开发解决方案。这种方法有很多优点。通过协作实验，企业的开发人员、业务部门、数据分析师或数据科学家和基础架构团队将能够获得重要的新技能，同时为业务创建量身定制的解决方案。数据分析师和数据科学家没呢可以准备数据集和相关模型，开发人员则可以测试框架，而基础架构团队则可以评估要开发什么硬件以及用于生产的内容，并且业务部门将有机会设置解决方案的参数。但是，我们建议仅仅将这种方法用于独特的AI项目。如果企业所需的解决方案可以作为商业软件在市场上可以随时获得，那么商业化的软件包将通过实现快速部署的业务优势远远超过企业内部开发所带来的好处。

天下数据IDC建议，企业可以从小型和企业本地部署项目计划开始着手。这种趋势将是从一个与其他环境相隔离的专用服务器开始，但同时也需要意识到集成整合最终会变得重要。如果有AI培训组件的话，那么该环境将需要能够访问用于培训的数据，并且硬件需要能够进行强大的并行处理，理想情况下具有足够数量的加速器，例如图形处理单元(GPU)。环境可以由AI解决方案倾向于喜欢的集群，甚至包括具有多个节点的融合系统组成。但是，对于第一代AI基础架构而言，规模化横向扩展服务器中的硬分区也可以奏效。虚拟机或超融合系统则不太合适。如果数据对业务至关重要的话，那么承载数据的横向扩展企业级服务器中的硬分区则可能会很有用，因为企业组织不需要将数据迁出其安全环境。请注意，只有在Linux上运行的AI开发才有大量的开源框架。

一旦企业用户得到基础架构团队、开发团队和数据科学家们对解决方案感到满意之后，就可以运行该解决方案进行生产了，并能够逐步体验检测到软件和硬件的功能和局限性，届时企业将能够更好地确定下一步何去何从。这些后续步骤可能包括继续构建内部部署的内部功能;实施升级或扩展基础架构;添加云组件或聘请其他服务商，例如VAR经销商或顾问等。

在这个反复试验阶段，企业的基础设施团队彻底调查新的基础设施解决方案是至关重要的。如前所述，AI系统在单核和双核服务器集群上运行良好，每核具有较高的性能和I/O参数以及GPU等加速器。该团队不仅应该考虑从其传统供应商处采购服务器产品，同时也应该考虑其他的服务器供应商，尤其是那些提供完整的AI硬件/软件堆栈的服务器产品。其中一些供应商在部署AI系统的所有阶段均能够为企业用户提供帮助，从硬件的选择和优化到软件堆栈，直至后期的部署和咨询服务。我们建议选择企业客户应该对那些已经展示出了对AI和深度学习的基础架构要求有着深入了解的供应商。

确保您企业的服务器供应商可以在第一个实验阶段提供相关的建议，即使该阶段是在企业现有的硬件设备上部署实施的，这些建议也可以指导企业组织进行内部的部署或混合内部云扩展。理想情况下，服务器供应商可以通过几个乃至所有的小型到大型的场景指导企业用户的部署工作。换句话说，这些服务器供应商担任企业客户小型项目计划的顾问，同时也担任其下一阶段的更大的人工智能实施计划的顾问。

02、更大规模的AI项目计划的实施

企业实施更大的AI项目计划将得益于外部的支持。开发全面的人工智能解决方案的时间、成本和复杂性旨在为企业组织带来关键业务的创新，但除了拥有相当足够的资源的大型企业组织之外，一般的企业则可能不太适合采用内部试错法。第三方人工智能解决方案提供商可以像增值经销商或系统集成商那样，帮助企业客户快速实施解决方案，但他们的灵活性会大大降低，并且并不适合独特的业务需求。非常大型的项目计划则可以从咨询合作伙伴中受益。企业客户咨询其合作伙伴的成本往往很昂贵，并且可能会对这些合作伙伴产生长期的依赖关系，其初始部署时间通常很长。另一方面，最终的解决方案将完全根据企业组织的需求量身定制，并且如果执行得当，则可与数据中心实现完美的集成整合。

对于大型的项目计划而言，与具有AI专业知识以及拥有涵盖了整个硬件/软件堆栈的一系列AI产品的服务器供应商合作也能够为企业客户带来明显的优势。服务器供应商通常比第三方咨询合作伙伴的咨询成本便宜，并且比其他解决方案提供商对其自身硬件的优化和扩展有更多的了解。但请务必确保供应商具有扩展AI应用程序基础架构和深度学习的能力，因为规模化缩放加速的计算节点并不像仅仅使用CPU来扩展计算节点那样简单。

我们建议，企业的业务部门、开发团队和基础架构团队密切参与这一过程，尽可能确保其AI解决方案是定制化的，并通过培训开发相关技能。确保企业的该项目最终不会以只有服务器供应商或解决方案提供商才理解的“黑盒”解决方案的方式结束，这种解决方案无法实现很好的扩展，也无法与数据中心集成整合，并且会影响性能或在数据量开始增加时带来局限性。换句话说，这些方法都不会让企业基础架构团队的任务变得更加简单。AI服务器供应商、解决方案提供商和顾问将提出硬件方面的建议，并对与企业内部开发相同的参数进行批判性的评估，包括：加速性能、I/O、可管理性和可扩展性。

请注意，就方法和部署而言，可以将上述这些场景中的几个组合起来。例如，企业内部构建的解决方案可以与云中的SaaS解决方案相结合以实现混合解决方案，或者企业内部构建的解决方案可以跟随VAR经销商更大的方案的实施而实施。最后，IDC发现，大多数企业组织对于其AI项目计划并没有明确估算其基础架构或软件的成本。企业需要为AI项目制定指标，包括软件、基础设施和人工成本方面的目标。他们还应计算投资回报潜力(通过提高生产力，降低成本或增加收入等方面的计算)，并确保他们在项目开始时收集有关这些指标的数据。

03、选择企业内部部署还是云服务?

对于一些较大的AI项目计划，可能存在SaaS解决方案。但是与任何基于云计算的软件解决方案一样，可定制性将受到限制，可扩展性将取决于提供商的基础设施，性能也会如此。而且，当数据量或交易数量快速增长时，成本可能会变得不利。对于关键业务数据、敏感数据或需要遵守法规要求的数据而言，需要对SaaS解决方案的安全性进行评估。

天下数据IDC发现，在部署了人工智能应用出现加速基础设施的企业中，有65%的企业在其内部部署了这些解决方案：22%的企业选择了仅仅只在企业内部部署;而43%企业选择了内部部署和云部署的混合模式。大多数企业表示他们已经发现到目前为止云计算体验是令人满意的，并将把AI工作负载转移到云服务。然而，这方面的迁移并不会影响未来24个月内所有可能部署中认知负载的整体分布;换句话说，企业内部部署的比例将仍然保持不变。某些AI使用案例并不适用于企业内部部署或云部署环境(但也存在一些例外情况)。基于数据安全问题的考虑，某些人工智能使用案例(例如医疗诊断和治疗)采取企业内部部署往往比云服务更为流行。然而，全渠道运营的商品化在云中的普及率稍高。尽管如此，企业内部部署、云计算，当然还有混合策略各自均有其明确的角色作用。后者很可能成为最有利的部署方法。

04、加速器

在本文中，我们曾多次提及加速器作为克服AI系统基础架构性能瓶颈局限性的重要方法，这对于采用深度学习算法的AI系统尤其如此，需要大量的计算能力来训练。在某些情况下，使用加速器对深度学习算法进行训练可以将迭代时间从几天缩短到几小时。

根据IDC的定义，加速计算是通过将部分处理卸载到邻近的硅子系统——如图形处理单元和现场可编程门阵列(FPGA)上来加速应用程序和工作负载的能力。随着企业寻求解决方案来克服CPU处理工作负载(如AI应用程序)的局限性，加速计算正在进一步获得企业用户的青睐。

GPU对于企业特别具有吸引力，因为它们可以通过现成的方式获得，并且可以使用标准库，这些库可以很容易地集成到应用程序中。然而，其他可提供更高性能功耗比率的技术，如FPGA、多核处理器和专用集成电路(ASIC)也开始受到关注：

　　●一款GPU执行基于神经网络层的矢量和矩阵计算。GPU以并行的方式实现，提供了训练速度的大幅改进和更高的能效。

　　● 多核微处理器针对并行或矢量化进行了优化，无需使用外部加速器。多核微处理器拥有比典型多核CPU更多的内核，并且是旨在最大化处理器、高速缓存和内存之间的数据传输速率的体系架构的一部分。其还执行CPU的传统功能。

　　●一款协处理器是用于加速并行工作负载的PCIe卡。它集成了多核处理器，并包含专用的高速缓存、内存和操作系统内核，但需要CPU进行引导。

　　●FPGA是一种集成电路，设计成由客户在制造后使用硬件描述或高级语言进行配置。FPGA由一系列可编程逻辑块、互连和I/O块组成。它们也可以重新配置。

　　●ASIC是专用集成电路，不能在制造后重新配置。

　　●互连是GPU、FPGA或ASIC与CPU之间的数据连接。PCIe互连的最大单向带宽约为16GBps，而NVIDIA的NVLink 2.0的最大单向带宽则为150GBps。

大多数小型企业选择从服务器供应商处采购加速器作为服务器的一部分。这是一种方便的方法，因为大多数主要的服务器供应商都拥有加速服务器产品。较大的公司也会选择VAR经销商或系统集成商或直接从加速器供应商处采购。这种方法为他们提供了更大的灵活性，因为增值经销商和系统集成商将能够提供更加定制化的解决方案，同时直接从供应商处采购可以提供安装加速器的更好的灵活性。

在将加速器作为服务器的一部分进行采购时，会有一定的价格溢价。迄今为止，还没有几项基准来确定加速器作为既定服务器的一部分能够提供多少额外的性能，但是根据IDC的研究表明，采购此类系统的企业平均发现，在既定的总体性能增长的情况下，一定的价格溢价是可以接受的(请参阅下表3)。

加速固然非常有效，但其并不总是解决企业数据中心服务器基础架构瓶颈局限性的最终解决方案。这在很大程度上取决于服务器的核心性能、企业所选择的加速的类型、互连的类型以及诸如软件和数据等各种其他因素。因此，企业客户不仅需要考虑采用哪些加速器和共计拥有多少台服务器，还要考虑企业已经安装了哪种服务器，包括每个内核的性能和I/O带宽。选择一款平衡系统是非常关键的，特别是对于处于尝试各种模型的人工智能的实验阶段的企业客户来说，因为每种模型都会以不同的方式为系统带来压力。

表3、既定性能增加的可接受价格溢价范围

既定性能增加的可接受价格溢价范围