大規模強化學習 pdf epub mobi txt 電子書 下載 2024

圖書介紹


大規模強化學習


劉全,傅啓明,鍾珊,黃蔚 著



點擊這裡下載
    


想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

发表于2024-12-22

類似圖書 點擊查看全場最低價

齣版社: 科學齣版社
ISBN:9787030477477
版次:1
商品編碼:11900024
包裝:平裝
開本:16開
齣版時間:2016-03-01
用紙:膠版紙
頁數:277
字數:352000
正文語種:中文

大規模強化學習 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

相關圖書



大規模強化學習 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

大規模強化學習 pdf epub mobi txt 電子書 下載 2024



具體描述

內容簡介

  《大規模強化學習》討論大規模強化學習的理論及方法,介紹強化學習在大狀態空間任務中的應用。該研究已成為近年來計算機科學與技術領域*活躍的研究分支之一。
  《大規模強化學習》共分六部分21章。第一部分是強化學習基礎。第二部分是用於強化學習的值函數逼近方法。第三部分是*小二乘策略迭代方法。第四部分是模糊近似強化學習方法。第五部分是並行強化學習方法。第六部分是離策略強化學習方法。
  《大規模強化學習》可以作為高等院校計算機專業和自動控製專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。

內頁插圖

目錄

前言
第1章 強化學習概述
1.1 簡介
1.2 形式框架
1.2.1 馬爾可夫決策過程
1.2.2 策略
1.2.3 迴報
1.3 值函數
1.4 解決強化學習問題
1.4.1 動態規劃:基於模型的解決技術
1.4.2 強化學習:模型無關的解決技術
1.5 本章小結
參考文獻

第2章 大規模或連續狀態空間的強化學習
2.1 簡介
2.2 近似錶示
2.2.1 帶參數化值函數逼近
2.2.2 非參數化值函數逼近
2.3 值函數逼近求解方法
2.3.1 梯度下降方法
2.3.2 最小二乘迴歸
2.4 本章小結
參考文獻

第3章 梯度下降值函數逼近模型的改進
3.1 改進的梯度下降值函數逼近模型
3.1.1 勢函數塑造奬賞機製
3.1.2 基於勢函數塑造奬賞機製的值函數逼近模型
3.2 NRBF-GD-Sarsa(λ)算法
3.2.1 算法描述
3.2.2 算法收斂性分析
3.3 仿真實驗
3.3.1 實驗描述
3.3.2 實驗設置
3.3.3 實驗分析
3.4 本章小結
參考文獻

第4章 基於LSSVR的Q-值函數分片逼近模型
4.1 LSSVR-Q-值函數分片逼近模型
4.2 在綫稀疏化樣本池構建方法
4.3 LSSVR-Q算法
4.4 仿真實驗
4.4.1 實驗1:MountainCar問題
4.4.2 實驗2:DCMotor問題
4.5 本章小結
參考文獻

第5章 基於ANRBF網絡的Q-V值函數協同逼近模型
5.1 Q-V值函數協同機製
5.2 Q-V值函數協同逼近模型
5.3 Q-V值函數協同逼近算法
5.3.1 QV(λ)算法
5.3.2 算法收斂性分析
5.4 仿真實驗
5.4.1 實驗描述
5.4.2 實驗設置
5.4.3 實驗分析
5.5 本章小結
參考文獻

第6章 基於高斯過程的快速Sarsa算法
6.1 新的值函數概率生成模型
6.2 利用高斯過程對綫性帶參值函數建模
6.3 FL-GPSarsa算法
6.4 仿真實驗
6.4.1 帶風的格子世界問題
6.4.2 MountainCar問題
6.5 本章小結
參考文獻

第7章 基於高斯過程的Q學習算法
7.1 值迭代方法
7.2 用於值迭代的值函數概率生成模型
7.3 GP-QL算法
7.4 仿真實驗
7.4.1 實驗1:帶懸崖的格子世界問題
7.4.2 實驗2:MountainCar問題
7.5 本章小結
參考文獻

第8章 最小二乘策略迭代算法
8.1 馬爾可夫決策過程
8.2 最小二乘策略迭代
8.2.1 投影貝爾曼等式的矩陣形式
8.2.2 最小二乘策略迭代
8.2.3 在綫最小二乘策略迭代
8.3 本章小結
參考文獻

第9章 批量最小二乘策略迭代算法
9.1 批量強化學習算法
9.2 批量最小二乘策略迭代算法
9.3 算法分析
9.3.1 收斂性分析
9.3.2 復雜度分析
9.4 仿真實驗
9.4.1 實驗描述
9.4.2 實驗設置
9.4.3 實驗分析
9.5 本章小結
參考文獻

第10章 自動批量最小二乘策略迭代算法
10.1 定點步長參數評估方法
10.2 自動批量最小二乘策略迭代算法
10.3 仿真實驗
10.3.1 實驗描述
10.3.2 實驗分析
10.4 本章小結
參考文獻

第11章 連續動作空間的批量最小二乘策略迭代算法
11.1 二值動作搜索
11.2 快速特徵選擇
11.3 連續動作空間的快速特徵選擇批量最小二乘策略迭代算法
11.4 仿真實驗
11.4.1 實驗描述
11.4.2 實驗設置
11.4.3 實驗分析
11.5 本章小結
參考文獻

第12章 一種基於雙層模糊推理的Sarsa(λ)算法
12.1 Q-值函數的計算和FIS的參數更新
12.2 DFR-Sarsa(λ)算法
12.2.1 DFR-Sarsa(λ)算法的學習過程
12.2.2 算法收斂性分析
12.3 仿真實驗
12.3.1 MountainCar
12.3.2 平衡杆
12.4 本章小結
參考文獻

第13章 一種基於區間型二型模糊推理的Sarsa(λ)算法
13.1 近似Q-值函數的計算和參數的更新
13.2 IT2FI-Sarsa(λ)算法的學習過程
13.3 算法收斂性分析
13.4 仿真實驗
13.4.1 實驗設置
13.4.2 實驗分析
13.5 本章小結
參考文獻
……
第14章 一種帶有自適應基函數的模糊值迭代算法
第15章 基於狀態空間分解和智能調度的並行強化學習
第16章 基於資格跡的並行時間信度分配強化學習算法
第17章 基於並行采樣和學習經驗復用的E3算法
第18章 基於綫性函數逼近的離策略Q(λ)算法
第19章 基於二階TDError的Q(λ)算法
第20章 基於值函數遷移的快速Q-Learning算法
第21章 離策略帶參貝葉斯強化學習算法

前言/序言


大規模強化學習 下載 mobi epub pdf txt 電子書
大規模強化學習 pdf epub mobi txt 電子書 下載
想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

劉全老師的團隊近年來齣瞭不少強化學習方麵的文章,這本書算是一個集閤,很不錯。

評分

討論大規模強化學習的理論及方法,介紹強化學習在大狀態空間任務中的應用。該研究已成為近年來計算機科學與技術領域*活躍的研究分支之一。

評分

還沒仔細看,封麵簡潔,希望內容豐富。

評分

很好的書

評分

high還好還好哈high哈high哈嗬嗬嗬還好還好哈

評分

還可以吧,供參考。

評分

好好好好好好好好好好好好好好好好好好好好

評分

還是很不錯的,夠理論!

評分

很喜歡,非常好!

類似圖書 點擊查看全場最低價

大規模強化學習 pdf epub mobi txt 電子書 下載





相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有