ai.onnx.preview.training - Adam¶

Adam - 1 (ai.onnx.preview.training)¶

此版本的运算符已在ai.onnx.preview.training 域的版本 1 开始可用。

计算 Adam（一种基于随机梯度的优化算法）的一次迭代。此运算符可以对多个张量变量进行优化。

我们来定义此运算符的行为。首先，Adam 需要一些参数

在每次 Adam 迭代中，优化的张量会沿着根据其指数平均历史梯度和指数平均历史平方梯度计算出的方向移动。假设只优化一个张量 “X”。其余所需信息是

其中一些参数作为输入张量传递给此运算符，而另一些则作为此运算符的属性存储。具体来说，此运算符的输入张量列表是 [“R”, “T”, “X”, “G”, “V”, “H”]。即，“R” 是第一个输入，“T” 是第二个输入，依此类推。其他参数作为属性给出，因为它们是常量。此外，相应的输出张量是

这些输出按照下面的伪代码计算。

设 “+”、“-”、“*” 和 “/” 都是具有 numpy 风格广播支持的逐元素算术运算。计算这些输出的伪代码是

// 添加 0.5 * norm_coefficient * ||X||_2^2 的梯度，其中 ||X||_2 是 2-范数。G_regularized = norm_coefficient * X + G

// 更新指数平均历史梯度。V_new = alpha * V + (1 - alpha) * G_regularized

// 更新指数平均历史平方梯度。H_new = beta * H + (1 - beta) * G_regularized * G_regularized

// 计算 H_new 的逐元素平方根。V_new 将被 H_sqrt 逐元素除以，以获得更好的更新方向。H_sqrt = Sqrt(H_new) + epsilon

// 计算学习率。注意 “alpha**T”/”beta**T” 是 alpha/beta 的 T 次方。R_adjusted = T > 0 ? R * Sqrt(1 - beta**T) / (1 - alpha**T) : R

// 计算 “X” 的新值。X_new = X - R_adjusted * V_new / H_sqrt

// 更新后正则化。X_final = (1 - norm_coefficient_post) * X_new

如果有多个输入要优化，伪代码将独立应用于每个输入。

alpha - FLOAT (默认值为 '0.9')

运行平均值中先前累积梯度的系数。默认为 0.9。
beta - FLOAT (默认值为 '0.999')

运行平均值中先前累积平方梯度的系数。默认为 0.999。
epsilon - FLOAT (默认值为 '0.0')

避免除以零的小标量。
norm_coefficient - FLOAT (默认值为 '0.0')

0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0，表示没有正则化。
norm_coefficient_post - FLOAT (默认值为 '0.0')

0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0，表示没有正则化。

3 到 2147483647 个输入之间。

R（异构）- T1

初始学习率。
T（异构）- T2

“X” 的更新计数。它应该是一个标量。
inputs（可变参数）- T3

要优化的张量，后跟它们各自的梯度，后跟它们各自的累积梯度（又称动量），后跟它们各自的累积平方梯度。例如，要优化张量 “X_1” 和 “X_2”，输入列表将是 [“X_1”, “X_2”, “X_1” 的梯度, “X_2” 的梯度, “X_1” 的累积梯度, “X_2” 的累积梯度, “X_1” 的累积平方梯度, “X_2” 的累积平方梯度]。

1 到 2147483647 个输出之间。

outputs（可变参数）- T3

优化张量的新值，后跟它们各自新的累积梯度，后跟它们各自新的累积平方梯度。例如，如果优化两个张量 “X_1” 和 “X_2”，输出列表将是 [“X_1” 的新值, “X_2” 的新值, “X_1” 的新累积梯度, “X_2” 的新累积梯度, “X_1” 的新累积平方梯度, “X_2” 的新累积平方梯度]。