有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
大家都知道360借条吧?一直挂的是360的品牌,在360集团...
我认为恰恰相反 你看这幅画,美的无可挑剔! 独特的构图、...
MacOS的流畅,像是你在五星级酒店洗了个澡,毛巾有熏香、镜...
他是毅力帝。 这是他应得的。 青鸾峰上老师的男神是天蚕土豆...
B站犯了一个相当大的错误。 他们用短***的逻辑来运营长*...
底下的评论把我看笑了。 在我看来底下评论一半以上就是蔡浩宇...