在強化學(xué)習(xí)中,策略梯度算法通過直接優(yōu)化什么來改進策略?

A.狀態(tài)價值函數(shù)
B.動作價值函數(shù)
C.策略的概率分布
D.獎勵函數(shù)
正確答案:C
答案解析:策略梯度算法直接優(yōu)化策略的概率分布。