模型结构

模型同时学习action value Q、state value V和policy π。

V中引入Target V，供Q学习时使用；Target Network使学习有章可循、效率更高。
Q有两个单独的网络，选取最小值供V和π学习时使用，希望减弱Q的过高估计。
π学习的是分布的参数：均值和标准差；这与DDPG不同，DDPG的π是Deterministic的，输出直接就是action，而SAC学习的是个分布，学习时action需要从分布中采样，是Stochastic的。

Soft

Soft，Smoothing，Stable。

原始的强化学习最大熵目标函数(maximum entropy objective)如下，比最初的累计奖赏，增加了policy π的信息熵。
A3C目标函数里的熵正则项和形式一样，只是作为正则项，系数很小。

在Soft Policy Iteration中，近似soft Q-value的迭代更新规则如下：

其中V(s)为soft state value function:

根据信息熵的定义：

soft state value function和maximum entropy objective在形式上还是一致的，系数α能通过调节Q-value消掉，可忽略。

TD3的soft state value function V形式与Soft Policy Iteration中类似，但是SAC的action是通过对policy π采样确定地得到，每条数据数据的信息熵就是其不确定性-logπ(a|s)；但考虑整个批量batch数据，其整体还是π的信息熵，与maximum entropy方向一致。

信息熵越大，分布越均匀，所以最大化信息熵，有利于增加模型的探索能力。