Replies: 1 comment
-
举个例子,我们在做Conv2d的时候就会遇到layout的问题 (NCHW vs NHWC)。 我们知道在GPU上NHWC会比NCHW更快,所以通常我们会将NCHW的网络转换成NHWC来进行运算。但这件事情是专家知识,并不能够被编译器所分析出来(因为在high-level我们并不能去evaluate 不同layout的kernel的性能)。同样,NHWC也并不是“最好”的layout,比如TensorRT用的是packed layout (NCHWc)。 把high-level和low-level信息放在一起,就完全有可能把这种layout的信息传递给图优化 |
Beta Was this translation helpful? Give feedback.
0 replies
# for free
to join this conversation on GitHub.
Already have an account?
# to comment
-
請教一下, video 中提了很多 (how) 要把low-level destination passing跟high-level computation graph 透過call_tir 連接起來的方式.
但似乎沒有提到 (Why) 為什麼在做high-level optimization at graph level 需要知道 low-level 這些memory allocation 的資訊?
換句話說, 有這些資訊, 在high-level 能做什麼優化? 而且是降到low-level 所做不到的? 謝謝
Beta Was this translation helpful? Give feedback.
All reactions