在強(qiáng)化學(xué)習(xí)中,Q-learning算法通過(guò)估計(jì)什么來(lái)選擇動(dòng)作?

A.狀態(tài)價(jià)值函數(shù)
B.動(dòng)作價(jià)值函數(shù)
C.策略函數(shù)
D.獎(jiǎng)勵(lì)函數(shù)
正確答案:B
答案解析:Q-learning算法通過(guò)估計(jì)動(dòng)作價(jià)值函數(shù)來(lái)選擇動(dòng)作。