把low-level destination passing 暴露給high-level computation graph 的原因? #49

pshung · 2022-07-12T03:03:45Z

pshung
Jul 12, 2022

請教一下, video 中提了很多 (how) 要把low-level destination passing跟high-level computation graph 透過call_tir 連接起來的方式.
但似乎沒有提到 (Why) 為什麼在做high-level optimization at graph level 需要知道 low-level 這些memory allocation 的資訊?
換句話說, 有這些資訊, 在high-level 能做什麼優化? 而且是降到low-level 所做不到的? 謝謝

Hzfengsy · 2022-07-12T06:02:25Z

Hzfengsy
Jul 12, 2022
Maintainer

举个例子，我们在做Conv2d的时候就会遇到layout的问题 (NCHW vs NHWC)。

我们知道在GPU上NHWC会比NCHW更快，所以通常我们会将NCHW的网络转换成NHWC来进行运算。但这件事情是专家知识，并不能够被编译器所分析出来（因为在high-level我们并不能去evaluate 不同layout的kernel的性能）。同样，NHWC也并不是“最好”的layout，比如TensorRT用的是packed layout (NCHWc)。

把high-level和low-level信息放在一起，就完全有可能把这种layout的信息传递给图优化

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

把low-level destination passing 暴露給high-level computation graph 的原因? #49

{{title}}

Replies: 1 comment

{{title}}

Select a reply

把low-level destination passing 暴露給high-level computation graph 的原因? #49

pshung Jul 12, 2022

Replies: 1 comment

Hzfengsy Jul 12, 2022 Maintainer

pshung
Jul 12, 2022

Hzfengsy
Jul 12, 2022
Maintainer