以下哪種技術在強化學習中常用于解決探索與利用的平衡問題?
A.蒙特卡羅方法
B.策略梯度算法
C.ε-貪心策略
D.以上都不是
正確答案:C
答案解析:ε-貪心策略可以在一定程度上平衡強化學習中的探索與利用。
B.策略梯度算法
C.ε-貪心策略
D.以上都不是
正確答案:C
答案解析:ε-貪心策略可以在一定程度上平衡強化學習中的探索與利用。