XLA TensorFlow编译器，如何优化你的TensorFlow模型性能？

XLA（Accelerated Linear Algebra）是TensorFlow的一个实验性编译器，用于优化计算图的执行效率。

XLA TensorFlow 编译器

XLA

XLA（加速线性代数）是用于优化TensorFlow计算的特定领域线性代数编译器，它通过将TensorFlow图编译成一系列专门为给定模型生成的计算内核，从而提高执行速度并改进内存使用率，XLA最初作为实验性开发项目，现在已经集成到TensorFlow中，成为其默认特性之一。

功能	描述
提高执行速度	通过融合操作减少短暂运算的执行时间，消除运行时开销。
改善内存使用	分析和安排内存使用，消除许多中间存储缓冲区。
减少自定义操作依赖	自动融合低级操作，匹配手工融合的性能水平。
提高可移植性	为新硬件编写新的后端相对容易，大部分程序能够在未经修改的情况下运行。

XLA的输入语言称为HLO IR（高级优化程序），它将TensorFlow计算图转化为HLO表示，再通过与目标无关的优化步骤和特定于目标的代码生成过程，最终生成可在目标硬件上执行的代码。

JIT编译

JIT（即时编译）是在TensorFlow运行时，从TensorFlow图中切割一部分子图交由XLA编译并运行，这种方法对用户负担小，只需打开一个开关即可享受加速收益。

AOT编译

AOT（超前编译）是在运行前将TensorFlow图编译成可执行代码，避免运行时的开销，这种方式适用于训练过程不常变化的AI模型，能够大大提高训练速度。

XLA相关的代码位于TensorFlow源代码树中的多个目录，包括aot、jit、tf2xla、xla/client和xla/service等模块，JIT编译方式更为普遍，通过向TensorFlow注册多个优化PASS来实现。