Saturday, December 11, 2021

OSCHINA 社区最新专区文章

OSCHINA 社区最新专区文章


CUDA优化之LayerNorm性能优化实践

Posted: 08 Dec 2021 07:50 PM PST

撰文 | 郭冉、姚迟、郑泽康、柳俊丞 2020年末,OneFlow 发布了《OneFlow 性能优化分享: 如何实现一个高效的 Softmax CUDA kernel?》 ,其中介绍了 OneFlow深度优化后的Softmax, 尤其对很多框架没有考虑的 half 类型做了充分优化,使得性能大幅超过了 cuDNN 的实现。 今天,奉上另一个重要算子 LayerNorm 的性能优化实...

No comments:

Post a Comment