GPU计算服务器（GPU-K1000）

研发背景

工业与学术界的数据科学家已将 GPU 用于机器学习以便在各种应用上实现开创性的改进，这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。尤其是深度学习，人们在这一领域中一直进行大力投资和研究。深度学习是利用复杂的多级「深度」神经网络来打造一些系统，这些系统能够从海量的未标记训练数据中进行特征检测。虽然机器学习已经有数十年的历史，但是两个较为新近的趋势促进了机器学习的广泛应用: 海量训练数据的出现以及 GPU 计算所提供的强大而高效的并行计算。人们利用 GPU 来训练这些深度神经网络，所使用的训练集大得多，所耗费的时间大幅缩短，占用的数据中心基础设施也少得多。 GPU 还被用于运行这些机器学习训练模型，以便在云端进行分类和预测，从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。将 GPU 加速器用于机器学习的早期用户包括诸多规模的网络和社交媒体公司，另外还有数据科学和机器学习领域中一流的研究机构。与单纯使用 CPU 的做法相比，GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量，因此 GPU 已经成为数据科学家处理大数据的处理器。

为此公司开发了可扩展性很强的GPU计算服务器设备。

应用场景

适用于数据可视化、机器学习、计算建模等并行运算应用程序的理想设备。

支持8路GPU E5-2600 V3 V4系列

特性和优势：

1、大规模CUDA并行架构，使工作站的功耗和成本分别降至原来的1/20和1/10，性能却能与小型集群媲美；

2、支持8 个Tesla K10/K40/K80/M40/M60/Xeon Phi 计算处理器（每个处理器有448个核心，共1,792个核心。以最终配置GPU卡为准。）；

3、可提供4.12 Teraflops的单精度浮点运算性能和2.06 Teraflops的双精度浮点运算性能

4、CUDA程序环境，支持多种编程语言和API，包括C、C++、OpenCL、DirectCompute或Fortran；

5、具备内存数据保护功能，加强了应用数据的完整性和可靠性。注册文件、L1/L2高速缓存、共享内存和DRAM都处于ECC保护状态；

6、NVIDIA® 并行数据缓存（DataCache™）技术，能够对无法预知数据地址的算法进行加速，例如物理解算器、光线追踪、以及稀疏矩阵乘法等等；

7、NVIDIA® GigaThread™ 引擎通过更快的上下文切换、同时内核执行以及改善的线程块调度功能，最大限度提升了吞吐量；

规格:

1、支持8 个Tesla K10/K40/K80/M40/M60/Xeon Phi 计算处理器（每个处理器有448个核心，共1,792个核心以最终配置GPU卡为准。）

2、每台服务器可提供4.12 Teraflops的单精度浮点运算性能和2.06 Teraflops的双精度浮点运算性能

3、IEEE 754 单双精度浮点运算标准

4、支持12或24 GB的专用DDR5内存（每颗Tesla C2050 GPU 3 GB，每颗 Tesla C2070/C2075 6GB）

5、4x 384-bit GDDR5 内存位宽 (每个GPU 384-bit GDDR5接口)

6、显存总带宽达576 GB/s(每个GPU 144 GB/s)支持2颗32纳米英特尔至强处理器Westmere 5600系列，每处理器6内核,12线程，和12MB二级缓存

7、支持Trusted Execution, Advanced Encryption Security,以及新的指令集 (AESNI), Turbo Boost, Intel® Virtualization, Intel® QuickPath

8、Intel 5520芯片组，处理器集成内存控制器

9、Intel QuickPath总线架构，高达6.40 GT/s / 5.86 GT/s / 4.80 GT/s的总线带宽

10、最高 192GB 1333 / 1066 / 800MHz DDR3 ECC Registered 内存

11、8x 3.5"SAS/SATA热插拔硬盘位

12、两个额外的单插槽卡扩展槽

产品示例图：