references.md
1 # 参考资料 2 3 按主题组织的外部文档、论文和工具。 4 5 ## 📚 文档 6 7 ### Apache TVM 8 9 | 资源 | 描述 | 10 |------|------| 11 | [TVM 文档](https://tvm.apache.org/docs/) | TVM 官方文档 | 12 | [TVM 教程](https://tvm.apache.org/docs/tutorial/) | 逐步学习材料 | 13 | [TVM GitHub](https://github.com/apache/tvm) | 源代码和问题 | 14 | [TensorIR 论文](https://arxiv.org/abs/2207.04296) | "TensorIR:自动张量化程序优化的抽象" | 15 | [Ansor 论文](https://arxiv.org/abs/2006.06762) | "Ansor:为深度学习生成高性能张量程序" | 16 17 ### ONNX Runtime 18 19 | 资源 | 描述 | 20 |------|------| 21 | [ORT 文档](https://onnxruntime.ai/docs/) | ONNX Runtime 官方文档 | 22 | [自定义算子指南](https://onnxruntime.ai/docs/reference/operators/add-custom-op.html) | 如何实现自定义算子 | 23 | [ORT GitHub](https://github.com/microsoft/onnxruntime) | 源代码 | 24 | [ONNX 规范](https://onnx.ai/onnx/intro/) | ONNX 规范 | 25 26 ### CUTLASS 27 28 | 资源 | 描述 | 29 |------|------| 30 | [CUTLASS GitHub](https://github.com/NVIDIA/cutlass) | 源代码和示例 | 31 | [CUTLASS 文档](https://github.com/NVIDIA/cutlass/tree/main/media/docs) | 综合文档 | 32 | [CUTLASS 快速开始](https://github.com/NVIDIA/cutlass/blob/main/media/docs/quickstart.md) | 入门指南 | 33 | [CuTe 教程](https://github.com/NVIDIA/cutlass/tree/main/media/docs/cute) | 布局抽象库 | 34 35 ### CUDA 编程 36 37 | 资源 | 描述 | 38 |------|------| 39 | [CUDA C++ 编程指南](https://docs.nvidia.com/cuda/cuda-c-programming-guide/) | 官方 CUDA 编程指南 | 40 | [CUDA 最佳实践](https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/) | 性能优化指南 | 41 | [PTX ISA](https://docs.nvidia.com/cuda/parallel-thread-execution/) | PTX 指令集架构 | 42 | [CUDA 示例](https://github.com/NVIDIA/cuda-samples) | 代码示例 | 43 44 --- 45 46 ## 🎓 学习资源 47 48 ### 书籍 49 50 | 书籍 | 作者 | 相关度 | 51 |------|------|--------| 52 | 大规模并行处理器编程 | Kirk & Hwu | CUDA 编程基础 | 53 | Professional CUDA C Programming | Cheng 等 | 综合 CUDA 指南 | 54 | 并行编程档案 | Tom Deakin | 现代 GPU 编程 | 55 56 ### 课程 57 58 | 课程 | 平台 | 描述 | 59 |------|------|------| 60 | [并行编程入门](https://developer.nvidia.com/educators/existing-courses) | NVIDIA/Udacity | CUDA 基础 | 61 | [深度学习系统](https://dlsyscourse.org/) | CMU | 包括编译器的 ML 系统 | 62 | [高效 ML 系统](https://efficientml.ai/) | 课程网站 | ML 推理优化 | 63 64 --- 65 66 ## 🔬 研究论文 67 68 ### 编译器和优化 69 70 | 论文 | 作者 | 摘要 | 71 |------|------|------| 72 | ["TVM:面向深度学习的端到端自动化优化编译器"](https://arxiv.org/abs/1802.04799) | Chen 等, 2018 | 原始 TVM 论文 | 73 | ["学习优化张量程序"](https://arxiv.org/abs/1805.08166) | Chen 等, 2018 | AutoTVM 论文 | 74 | ["Ansor:生成高性能张量程序"](https://arxiv.org/abs/2006.06762) | Zheng 等, 2020 | 自动调度方法 | 75 76 --- 77 78 ## 🛠️ 开发工具 79 80 ### NVIDIA 工具 81 82 | 工具 | 用途 | 文档 | 83 |------|------|------| 84 | [Nsight Systems](https://developer.nvidia.com/nsight-systems) | 系统级分析 | [用户指南](https://docs.nvidia.com/nsight-systems/) | 85 | [Nsight Compute](https://developer.nvidia.com/nsight-compute) | 内核级分析 | [用户指南](https://docs.nvidia.com/nsight-compute/) | 86 | [CUDA-GDB](https://developer.nvidia.com/cuda-gdb) | GPU 调试 | [文档](https://docs.nvidia.com/cuda/cuda-gdb/) | 87 88 ### Python 开发 89 90 | 工具 | 用途 | 链接 | 91 |------|------|------| 92 | [pytest](https://docs.pytest.org/) | 测试框架 | [文档](https://docs.pytest.org/) | 93 | [Hypothesis](https://hypothesis.readthedocs.io/) | 基于属性的测试 | [文档](https://hypothesis.readthedocs.io/) | 94 | [Ruff](https://docs.astral.sh/ruff/) | Python 代码检查 | [文档](https://docs.astral.sh/ruff/) | 95 96 --- 97 98 ## 🌐 相关项目 99 100 ### 互补库 101 102 | 项目 | 描述 | 链接 | 103 |------|------|------| 104 | Triton | OpenAI 的 GPU 内核 DSL | [GitHub](https://github.com/openai/triton) | 105 | XLA | Google 的 ML 编译器 | [GitHub](https://github.com/openxla/xla) | 106 | MLIR | LLVM 多级 IR | [网站](https://mlir.llvm.org/) | 107 108 --- 109 110 ## 🔗 快速链接 111 112 ### 必备日常资源 113 114 - [TVM 论坛](https://discuss.tvm.apache.org/) — 社区讨论 115 - [CUDA Reddit](https://reddit.com/r/CUDA) — 社区问答 116 - [Stack Overflow CUDA](https://stackoverflow.com/questions/tagged/cuda) — 技术问答 117 - [NVIDIA 开发者论坛](https://forums.developer.nvidia.com/) — 官方支持 118 119 --- 120 121 *最后更新:2026年4月* 122 123 *发现断链?请 [提交 Issue](https://github.com/LessUp/ai-system-optimization-series/issues)*