A.強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)最主要的區(qū)別在于其收到的反饋是:評估性和指導(dǎo)性
B.監(jiān)督學(xué)習(xí)給出的指導(dǎo)性反饋將會通過監(jiān)督信號告知學(xué)習(xí)者應(yīng)該要做出什么樣的行為而獲取更高的收益
C.強(qiáng)化學(xué)習(xí)的評估性反饋意味著該學(xué)習(xí)系統(tǒng)只會告訴學(xué)習(xí)者當(dāng)前的做法是好還是壞的
D.強(qiáng)化學(xué)習(xí)的目的就是找到一個(gè)最佳的策略,從而使得主體發(fā)出一系列的動作后,收到的累積回報(bào)最多
E.策略(Policy)指的是主體的行為,是一個(gè)從狀態(tài)集合到動作集合的映像
您可能感興趣的試卷
你可能感興趣的試題
A.方差
B.變異
C.機(jī)率
D.方向
E.平均值
A.愛德華・費(fèi)根鮑姆(EdwardFeigenbaum)
B.約翰・霍普非爾德(JohnHopfield)
C.艾倫・圖靈(AlanTuring)
D.馬文・閩斯基(MarvinMinsky)
E.克理夫・肖(CliffShaw)
A.Artificial Information
B.AutomaticInte lligence
C.ArtificialInte lligence
D.Automatic Information
E.Automatic Inspection
A.統(tǒng)計(jì)詞頻率
B.刪除停止詞與低頻詞
C.中文分詞
D.潛在語義分析
E.計(jì)算詞頻率-逆文文件頻率
A.停止詞、低頻詞
B.主題模型、詞袋模型
C.文分詞、英文分詞
D.詞頻率、逆文文件頻率
E.詞頻率向量、逆頻率向量
最新試題
反向傳播算法和梯度下降算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的主要區(qū)別是什么()?
在深度學(xué)習(xí)模型訓(xùn)練中,哪些技術(shù)有助于防止過擬合并提高模型在多任務(wù)學(xué)習(xí)上的表現(xiàn)()?
在強(qiáng)化學(xué)習(xí)中,什么是“動態(tài)規(guī)劃”(DynamicProgramming)()?
在深度學(xué)習(xí)中,哪些技術(shù)可以用于加速模型訓(xùn)練并提高模型在圖像分類和文本處理任務(wù)上的精確度()?
反向傳播算法的主要目的是什么()?
在深度學(xué)習(xí)模型訓(xùn)練中,"早停法"(EarlyStopping)策略的應(yīng)用目的是什么()?
在自然語言處理中,哪些技術(shù)可以用于改善實(shí)體識別和文本生成任務(wù)的性能()?
模型微調(diào)中的提示學(xué)習(xí)是指:()。
在機(jī)器學(xué)習(xí)中,核技巧(KernelTrick)主要用于解決什么問題()?
在自然語言處理任務(wù)中,哪些技術(shù)適用于提升文本分類的性能()?