• 把FP32(32位浮点)变成FP16甚至INT8(8位整数)运行,且精度损失不大。Post-Training Quantization (PTQ)。了解对称/非对称量化。
  • 找一个开源的ResNet或者简单的Transformer模型,把它导出为ONNX格式,然后用TensorRT加速推理。记录加速前后的Latency(延迟)和Throughput(吞吐量)。
  • 把CUDA代码迁移到Ascend上,踩过哪些坑,最后怎么解决的