NVIDIA GeForce GTX TITAN X

2021-02-18 21:10:23


NVIDIA 18 日正式发布「 Maxwell 」 GPU 微架构顶级型号「 GeForce GTX TITAN X 」绘图卡,採用全新「 GM200 」绘图核心内建高达 3072 个 CUDA Cores ,拥有 384Bit 记忆体介面、 12GB GDDR5 记忆体,其性能足以应付最新 3D 游戏大作在 4K 解析度下特效全开,并为即将上市的 DX12 游戏作好準备。



GM200 : 3072 个 CUDA Cores

去年 9 月, NVIDIA 正式推出採用「 GM204 」绘图核心的「 GeForce GTX 980 」高阶绘图卡,儘管「 GM204 」绘图核心并非 NVIDIA Maxwell GPU 微架构的完整设计,但时至今日其主要竞争对手 AMD 仍未有产品可作抗衡,面对 4K 显示器开始普加上下代 DirectX 12 游戏即将登场, NVIDIA 再向对手 AMD 投下震撼蛋, 正式推出具备完整 Maxwell GPU 微架构的「 GM200 」绘图核心的旗舰级绘图卡 —— 「 GeForce GTX TITAN X 」,在性能上进一步将对手抛离。

虽然「 GM200 」与早前推出的「 GM204 」及「 GM206 」同为 Maxwell GPU 微架构,但「 GM200 」在支援规格上进一步提升,「 GM204 」与「 GM206 」均为 DirectX 12 API 并支援 12.0 层级功能,但「 GM200 」则进一步支援 DirectX 12 API 最新的 12.1 层级功能,在 OpenGL 方面亦由 4.4 提升至 4.5 版本。

GM200
NVIDIA GM200 绘图核心 Block Diagram

全新「 GM200 」绘图核心採用 28nm 制程由 TSMC 代工,内建约 80 亿个电晶体, Die Size 约为 601mm² ,与「 GM204 」绘图核心一样,全新「 GM200 」绘图核心採用全新 Maxwell SMM 模组设计, GPC 图形处理群由 4 组提升至 6 组,同样地每组 GPC 图形处理群内拥有一个独立的 Raster Engine 光栅处理引擎及 4 组 Maxwell Streaming Multiprocessor(SMM) 模组,每一个 SMM 模组内共有 128 个 CUDA Cores 及 8 个 Texture Units ,整颗绘图核心合共有 3072 个 CUDA Cores 及 192 个 Texture Units ,相较「 GM204 」绘图核心多出 33% 。

如果与上代 Kelper 微架构的「 GK110 」绘图核心比较,「 GM200 」绘图核心的 CUDA Cores 数目只增加了 192 个,不过受惠于全新 Maxwell 微架构,其 SMM 模组再按照现今游戏对不同类别的数学及 Texture 运算比例作出改良,每组 SMM 模组的 CUDA Cores 数目由 192 个减至 128 个,模组会把 CUDA Cores 平均分割成 4 组,每组区块各自拥有独立的 Instruction Buffer 、 Warp Scheduler 、 Instruction Buffering 、 Dispatch Unit 及 Register File ,让指令有效填充模组内的 CUDA Cores 减少闲置。

SMM

此外,「 Maxwell 」 SMM 模组内的 Cache 结构亦作出重大改动, L1 Cache 与 Shared Memory 分割并结合了 Texture Cache 及 Uniform Cache 的功能,每个 SMM 单元内拥有 2 组 L1 Cache ,容量为 24KB (48KB per SMM) ,每组独立负责 2 个 CUDA Processing 区块及 4 个 Texture Unit ,令 Cache 的命中率得以提升。 SMM 模组设有一个 Shared Memory 单元,变成专注内部运算单元与外部 Interconnect 缓存,而且容量由 64KB 提升至 96KB ,整体缓存记忆体容量提升,有助提升模组内的运算效率及运算吞吐量。

整体来说,「 GM200 」绘图核心虽然只比「 GK110 」绘图核心多了 192 个 CUDA Cores ,但每颗 CUDA Cores 的运算效率相较上代大幅提升 40% ,而且所需功耗减少 1 倍, NVIDIA 在微架构层面上的改良,令绘图核心有效节省所需的电晶体数目与功耗需求。

GM200 : 384Bit 记忆体控制器


记忆体子系统方面,「 GM200 」绘图核心内建 6 组 64Bit 记忆体控制器,每组记忆体控制器紧连着 16 个 ROP 单元及 512KB L2 Cache ,因此整颗绘图核心拥有 384Bit 记忆体介面、 96 个 ROP 单元及 3MB L2 Cache ,相较「 GM204 」绘图核心多出 50% 。

与上代 Kelper 微架构的「 GK110 」绘图核心比较,「 GM200 」与前者同样为 384Bit 记忆体介面,但透过提升记忆体控制器的效率,基于 GPU 微架构改良优化记忆体子系统的性能,其中「 GM200 」在 L2 Cache 容量上相较「 GK110 」多出一倍,此举有效提升缓存资料数量及命中率,记忆体存取次数及记忆体频宽佔用因此减少,同时存取延迟大幅降低。

GM204

此外,「 GM200 」绘图核心不仅在 ROP 数目上相较「 GK110 」多出一倍,而且 ROP 模组亦重新设计,拥有更高的像素填充能力,在高解析度的性能表现、处理光线反射、 AA 反锯齿、烟雾、火焰等特效的运算能力,均较上代「 GK110 」的 ROP 运算单元有更高性能表现。

「 GM200 」採用了 Maxwell 微架构的第三代 Delta Color Compress 引擎,透过多层压缩机制选择最佳的压缩比, Texture 内的每一个 Pixel 将会与相邻的 Pixel 进行对比,透过数学运算提供更高压缩比。据 NVIDIA 指出, 「 Maxwell 」 GPU 微架构进一步新增不同形式的 Pixel Ordering 排序算式,让 ROP 运算单元拥有更多 Pixel Ordering 排序算式选择,从而令压缩性能大幅提升。

GM204

因此,虽然「 GM200 」与「 GK110 」同样为 384Bit 记忆体介面,但受惠于更大的 L2 Cache 、更先进的压缩引擎,「 GM200 」在记忆体性能上相较「 GK110 」进一步提升 33% ,「 GeForce GTX TITAN X 」记忆体时脉为 7GHz Data Rate ,其性能表现约等于上代「 GK110 」在相同记忆体介面下运作于 9.3GHz Data Rate 。

NVIDIA GK110NVIDIA GM200NVIDIA GM204Process28nm28nm28nmTransistors7.1 billion8.0 billion5.2 billionGPU ArchitectureKeplerMaxwellMaxwellCUDA Cores288030722048Texture240192128ROP489664L2 Cache1.5MB3MB1.5MBMemory Interface384Bit384Bit256BitDirectX API121212DX Feature Level111212.1OpenGL4.44.44.5
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。