單項選擇題強化學習中近端策略優(yōu)化(ProximalPolicyOptimization-PPO)的目的是:()。

A.減少學習過程中的方差
B.加速模型的收斂速度
C.優(yōu)化策略的穩(wěn)定性
D.提高策略的探索能力


您可能感興趣的試卷

你可能感興趣的試題

1.單項選擇題層次聚類方法中,凝聚的層次聚類是從什么開始()?

A.將每個數(shù)據(jù)點視為一個單獨的簇
B.將所有數(shù)據(jù)點視為一個簇
C.隨機選擇數(shù)據(jù)點作為簇
D.根據(jù)數(shù)據(jù)的分布選擇簇

2.單項選擇題下列不屬于Keras 的核心模塊的是()。

A.有激活函數(shù)
B.損失函數(shù)
C.濾波器
D.正則化器

3.單項選擇題在深度學習中,哪個層通常用于減少特征圖的維度并增加感受野()?

A.卷積層
B.池化層
C.全連接層
D.激活層

4.單項選擇題在機器學習中,提升方法(Boosting)的主要目的是什么()?

A.降低模型的偏差。
B.減少模型的方差。
C.增加模型的復雜度。
D.提高模型的泛化能力。

5.單項選擇題目標檢測中的FPN(FeaturePyramidNetwork)用于:()。

A.生成候選目標框
B.預測目標的類別
C.定位目標的精確位置
D.提高目標分辨率