单节点230虚拟桌面、6 GPU卡:AMD EPYC vSAN超融合测试&参考架构

内容提要

-每节点最大230桌面、6块Tesla T4可驱动90图形用户;

-5,000用户Horizon VDI参考架构:VMware推荐25节点vSAN HABlock;

-测试结果:即时克隆减少“启动风暴”存储I/O压力;

-nVector测试:vGPU虚拟图形桌面的性价比高吗?

谈到AMD EPYC(二代)服务器,单CPU 64核心数、128 lane PCIe 4.0这些优势显而易见;而另一方面,单核性能、Socket片上的NUMA亲和,以及缺乏像Intel AVX-512这样的浮点计算增强指令集,也可能会限制其发挥。怎么把它用在合适的场合,是一个需要考虑的问题。

上图中8个小的7nm Die分别可以容纳8个CPU核心,中间那个大的是IO Die。从表面上看内存和PCIe控制器集中了,但从各方面了解的情况是还有CPU内部的NUMA(非一致性内存访问)特征。这点可以参考我在《多级NUMA__:AMD EPYC__互连速率、位宽与功耗的关系》中讨论过的第一代EPYC。

《_AMD EPYC二代服务器预览:Dell扩展2U 4节点HPC机型_》一文中,我曾经初步提到AMD服务器主打的几类客户群体:天气模型、科研、数字化制造和生命科学应用,还有互联网。而当这次我看到一份VDI测试报告和参考架构文档时,才发现之前忽略了虚拟桌面这个应用领域。趁着周末的时间学习一下,顺便给大家写个分享。

首先列出我之前写过几篇VDI相关的东西,交代一下背景:

《_揭秘VDI存储测试:4节点SDS模拟12000虚拟桌面_》

《_虚拟桌面测试:Optane DIMM持久内存能否降低VDI成本?_》

《_V_DI__性能测试:Win10__受漏洞补丁影响小于Win7

其中第一个标题里的密度,是用微软StorageSpaces Direct(S2D或称WSSD)软件定义存储集群只模拟VDI的磁盘I/O负载。在两年多之前的该文中,我也提到过每节点220桌面的超融合,不过是在RDSH会话形式的桌面;而本文讨论的则是针对Instant-Clone(即时克隆)的测试,独立的桌面虚机消耗的硬件资源会更多。

每节点最大230桌面、6块Tesla T4可驱动90图形用户

上图引用自Tolly的测试报告《_Dell EMC PowerEdge R7525 Virtual Desktop Infrastructure(VDI) – Windows 10 Scalability vs. Prior-Generation Platform_》,相关资料链接我会在文末统一列出。

对比第一代AMD EPYC CPU的R7425服务器,R7525在VDI领域最权威的Login VSI测试中,VSIbase和VSImax这两个响应时间上都取得了更好(_即更低,单位__ms_)的结果,包括每节点运行100、140和200虚拟桌面。

既然有对比数字,测试平台信息也应该一并列出:

Demartek在2年前发布的Login VSI测试报告,在PowerEdge R7425服务器上配置了EPYC 7551 32核CPU,并使用PERC H730P RAID卡和本地SSD存储。

这个是本次PowerEdge R7525的测试信息。2颗AMD EPYC 7502 32核CPU的主频提高到2.5GHz,内存仍然是1TB。由于存储改为VMware vSAN分布式,使用4块1.92TB读密集型SAS SSD为容量分层,2块800GB SAS写密集型SAS SSD用于Cache分层,HBA 345卡使用直通模式。网卡为Mellanox ConnectX-5 25GbE双口,以太网交换机采用PowerSwitch S5248-ON。

理论上vSAN可能带来10%的CPU开销,但从测试结果来看超融合的性能并没有比RAID卡吃亏,分布式存储还带来了数据高可用。

注:当然RAID__卡对SSD__的支持也存在性能瓶颈,参见4__年前我写的《服务器SSD RAID__性能速查手册》。

按照现在流行的用法,vSAN配置的SSD为什么不配置性能更好的U.2 NVMe盘呢?在《直联还是交换?Intel__、AMD__服务器NVMeSSD IO__拓扑速查手册》中我就介绍过“2U双路AMD EPYC NVMe x12(最大带宽型)”和“2U双路AMD EPYC NVMe x24(最大容量型)“配置——针对R7425服务器,R7525情况应该类似。

细心的朋友可能注意到了,上面的配置为NVIDIA Tesla T4预留了6个PCIe 4.0 x16 插槽(但GPU当前还只支持3.0)。估计是考虑到NVMe/PCIex4信道可能不够,所以SSD就采用了全SAS配置,从下文中的存储I/O性能来看应该也足够了。

上面这个Login VSI测试结果是在PowerEdge R7525  3节点AMD服务器,VMware Horizon 7 + vSAN超融合集群上获得的。每节点跑了230个Knowledge Worker(知识型)桌面。

nVector Knowledge WorkerProfile__应该与LoginVSI__的虚拟桌面配置和压力不同。

图形用户测试部分,换成了在一台R7525服务器跑90用户——因为在R7525上插了6块NVIDIA Tesla T4 GPU,每个T4是16GB显存,分配给虚拟桌面的每个vGPU是1GB显存。

这里运行的测试项目也不同了——nVector应该主要是为了反映GPU在VDI应用中的功效。性能结果为图像质量0.9904(接近于无损,这个应该与Horizon的远程图形协议有关)、延时215ms、帧速率8.82FPS。测试中主机占用率峰值小于85%,6个GPU的平均占用率大约35%。

Tolly的测试报告并没有展开细节分析,因此我建议继续关注另一个《_DellEMC Ready Solutions for VDI: VMware Horizon 7 on Dell EMC PowerEdge R7525 Servers_》参考架构文档。

5,000用户Horizon VDI参考架构:VMware推荐25节点vSAN HA Block

 

上图只是一个逻辑上的示意:

网络层_:25Gb ToR__交换机跑SDS__和LAN__,iDRAC__服务器管理网络走千兆交换机;_

计算和图形层_:由最多64__台服务器(受vSAN__集群限制)及其配置的TelsaT4 GPU__组成;_

存储层_:vSAN DataStore__的Cache__和容量分层我不在这里过多解释;_

管理层_:管理基础架构虚机包括VCSA__(vCenter__)、Horizon__的ConnectionServer__、文件服务器、统一访问网关(应该是用于VDI__的外网安全访问)以及NVIDIA License__服务器(授权vGPU__);_

具体的虚拟桌面池,可以包括InstantClone__即时克隆虚机、RDSH__会话和虚拟工作站(重度图形应用)。

这样5,000用户pod使用的服务器,如果选择AMD机型,管理集群可以考虑3台PowerEdge R6515 1U单路;而实际承载VDI桌面的就是25台R7525 2U双路服务器,这两个集群都是使用vSAN存储具备HAN+1容错。

前面介绍的测试中,虚拟桌面配置为KnowledgeWorker,如果每个虚机4GB内存都用满的话,230用户就是960GB。尽管AMD有核数更高的CPU,但单服务器1TB内存也够瞧了,目前这个密度我觉得更多受限于内存。

参考架构文档的测试结果中,还会包括PowerWorker以及GPU项目等。我们先来看下软硬件配置:

上图中别的我不重复了,Windows10版本是较新的1909,VMware VDI显示协议为Blast,NVIDIAvGPU版本为10.1。

测试结果:即时克隆减少“启动风暴”存储I/O**压力

**

测试结果显示,当每主机KnowledgeWorker类型VDI用户密度达到207时,R7525的CPU使用率达到85%,平均内存消耗651GB,平均活跃内存225GB。

Power Worker(无GPU)的密度也能跑到158桌面用户,此时平均内存消耗高达965GB(因为该类桌面ESXi配置内存为8GB)。

加上6块Tesla T4和vGPU(Virtual PC:T4-1B)之后,每主机跑满96桌面,此时的平均活跃内存反而达到最高的776GB,显然这个PowerWorker的实际运行负载更重。

上图是网络流量,在虚机桌面Login登录时达到1,704 Mbps的峰值。

这个磁盘(SSD)IOPS测试曲线,与我在3年前介绍的全克隆和链接克隆VDI磁盘(见下图)明显不同了。从即时克隆的原理来看,由于启动时最常用的热点数据已经由SSD预加载到内存,因此Login阶段负载低很多,18,376的读+写IOPS峰值反而出现在Recreate Clones阶段。

上图引用自《揭秘VDI__存储测试:4__节点SDS__模拟12000__虚拟桌面》一文。

即时克隆的磁盘I/O延时也很好看——在这里vSAN读和写都没有超过1ms,LoginVSI的要求是20ms以内即合格。

nVector测试:vGPU虚拟图形桌面的性价比高吗?

在nVector测试部分,除了对比Knowledge Worker桌面在有无GPU时的区别之外,还有一项虚拟工作站的测试,运行SPECviewperf13图形基准测试工作负载,这时vGPU就不能只分1GB显存了——T4-4Q应该是把TeslaT4分配成4个4GB的虚拟Quadro专业显卡。

扩展阅读:《图形工作站专业显卡测试:SPECviewperf 12

先看第一项对比结果。在加入TeslaT4之后,96个nVector桌面产生的平均CPU使用率从92%降低到72%,平均GPU使用率只有15%,终端用户延时和帧速度也有改善。看来Tesla T4支持重载商务办公桌面性能也挺富裕。不过每节点6块卡加上vGPU的License成本,与这20%的CPU资源节约相比是否值得呢?

最后是虚拟工作站测试。上面图表为每个桌面运行SPECviewperf测试的平均帧速度,此时的单节点VM密度应该是4(个4GB)x 6=24。这组数字参照Tesla T4四分之一的性能还算合理,用户运行基本的CAD和DCC软件应该能跑动。

但是性价比呢?别忘了还有Virtual WorkStation的vGPU License,如果没有资源复用的情况下,以24台Precision 34xx/36xx Tower这样的单路工作站物理机作为对比参考,配上4核+Quadro P1000显卡估计要便宜不少吧?要知道Intel Core CPU现在基本都是4GHz以上的Turbo主频,而服务器CPU在虚拟机底下即使能Turbo还会有HyperVisor的一点损耗。

当然VDI相比物理机的优点,还有安全性和灵活接入(移动办公),不能只看成本。

结尾之前,再放一个Dell AMD服务器推荐给VDI应用的BIOS设置。除了最常规的Performance高性能模式之外,NUMA Nodes per Socket不出意外设置为4(对应32个CPU核心所在的4个Die),同时处理器的x2APIC Mode也要打开。

先写到这里吧,希望对大家有帮助!

推荐阅读

  • 多级NUMA:AMD EPYC互连速率、位宽与功耗的关系
  • PowerEdge MX网络篇:从100GbE到32Gb FC的2种姿势

本文转载自企业存储技术微信公众号原文链接点这里

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。

发表评论

邮箱地址不会被公开。 必填项已用*标注