当然,我们可以结合信息进行一个片面乐观的推测。

上图可以看出Orin S大约是Orin 1/3的规模,而Orin因为diephoto曝光的关系,其2048SP+12核的规模已经被数出来了。
所以,Orin S大概率是一个768SP+4核的结构。

从上图DLSS源代码的信息来看,Orin之外的另一个Tegra叫做Drake而不是Orin S,从GA10B、GA10F,和T234和T239的代号来看,Orin和Drake确实是同一代产品。
结合之前没有Orin和Orin S外该代Tegra芯片的消息,我就把Orin S和Drake视为同一个芯片。
同时也可以看出,所有的图灵GPU,所有的安培GPU各自都加载的是同一套DLSS设置,唯独Orin和Drake一个芯片自己一套单独的。
这似乎意味着RTX3000、Orin、Drake的管线差异其实不小。RTX3000和Tegra的差异很好解释,同样管线规模下,驾驶优化的Tegra 深度计算的性能大得多,但是Orin和Drake之间为何也有差异?

这里就出现了一个疑点,GA10F也就是Drake有12SMs,而标准安培管线是每SMs 128SP,换而言之,Drake它将有高达1536SP,和Orin的1/3规模不符。
考虑到前面已经出现了Drake的管线本来就和Orin不同的可能性,那用管线不同作为解释是最自然的,而具体的不同却又符合此前信息的,有两种解释:
A、同SP数量下,Drake的深度计算性能是Orin的一半,这就可以解释为啥只有36%的深度计算性能却有75%的管线规模。
B、同规模SMs下,Drake的SP只有标准安培的一半,也就是说虽然有Orin 3/4的SMs数量,但是只有3/8的计算单元。

而从上图这个消息来看,我更倾向于B解释,
你看,为什么安培反而比图灵对麦斯威尔的兼容性更好?从代际来看,图灵才是更接近的那一代。
而且麦斯威尔和帕斯卡是但浮点设计,整数单元提出在外;图灵是一个浮点一个整数的CO-OP设计;安培是一个浮点,一个整数+浮点的CO-OP设计。
从管线结构来看,也不见得安培比图灵更接近麦斯威尔。
这时候,我就可以提供一个额外信息,安培是实现了管线内的模块化的,这也是为什么图灵时期工作站的需要一个独立代号的伏特架构,而安培则是同一个架构代号包圆了GA102和A100。
既然是模块化的,这安培也可以改成单单元,去掉CO-OP,老老实实逐条指令执行的类麦斯威尔结构,来确保兼容性。
于是,NS加强型使用一个麦斯威尔化的安培,管线是非注水的12SMs,1.125T就是足量的1.125T,实际上考虑到安培相对于麦斯威尔在计算单元外其他部件也有改进,其性能应该是高于1.125T的麦斯威尔的。这就有可能出现综合性能大于X1的NS加强型了。
当然解释A直接1536SP糊脸,2.25T的安培,约等于1.7T的麦斯威尔,直接匹敌1.8T GCN的PS4了,更不用说大于X1的问题了。