大規模強化學習 pdf epub mobi txt 電子書下載 2025

圖書介紹

☆☆☆☆☆

劉全，傅啓明，鍾珊，黃蔚著

下載鏈接在頁麵底部

下載連結1
下載連結2
下載連結3

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製鏈接

想要找書就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

发表于2025-04-03

類似圖書點擊查看全場最低價

齣版社：科學齣版社

ISBN：9787030477477

版次：1

商品編碼：11900024

包裝：平裝

開本：16開

齣版時間：2016-03-01

用紙：膠版紙

頁數：277

字數：352000

正文語種：中文

大規模強化學習 epub 下載 mobi 下載 pdf 下載 txt 電子書下載 2025

大規模強化學習 pdf epub mobi txt 電子書下載 2025

具體描述

內容簡介

　　《大規模強化學習》討論大規模強化學習的理論及方法，介紹強化學習在大狀態空間任務中的應用。該研究已成為近年來計算機科學與技術領域*活躍的研究分支之一。
　　《大規模強化學習》共分六部分21章。第一部分是強化學習基礎。第二部分是用於強化學習的值函數逼近方法。第三部分是*小二乘策略迭代方法。第四部分是模糊近似強化學習方法。第五部分是並行強化學習方法。第六部分是離策略強化學習方法。
　　《大規模強化學習》可以作為高等院校計算機專業和自動控製專業研究生的教材，也可以作為相關領域科技工作者和工程技術人員的參考書。

內頁插圖

前言
第1章強化學習概述
1．1 簡介
1．2 形式框架
1．2．1 馬爾可夫決策過程
1．2．2 策略
1．2．3 迴報
1．3 值函數
1．4 解決強化學習問題
1．4．1 動態規劃：基於模型的解決技術
1．4．2 強化學習：模型無關的解決技術
1．5 本章小結
參考文獻

第2章大規模或連續狀態空間的強化學習
2．1 簡介
2．2 近似錶示
2．2．1 帶參數化值函數逼近
2．2．2 非參數化值函數逼近
2．3 值函數逼近求解方法
2．3．1 梯度下降方法
2．3．2 最小二乘迴歸
2．4 本章小結
參考文獻

第3章梯度下降值函數逼近模型的改進
3．1 改進的梯度下降值函數逼近模型
3．1．1 勢函數塑造奬賞機製
3．1．2 基於勢函數塑造奬賞機製的值函數逼近模型
3．2 NRBF-GD-Sarsa（λ）算法
3．2．1 算法描述
3．2．2 算法收斂性分析
3．3 仿真實驗
3．3．1 實驗描述
3．3．2 實驗設置
3．3．3 實驗分析
3．4 本章小結
參考文獻

第4章基於LSSVR的Q-值函數分片逼近模型
4．1 LSSVR-Q-值函數分片逼近模型
4．2 在綫稀疏化樣本池構建方法
4．3 LSSVR-Q算法
4．4 仿真實驗
4．4．1 實驗1：MountainCar問題
4．4．2 實驗2：DCMotor問題
4．5 本章小結
參考文獻

第5章基於ANRBF網絡的Q-V值函數協同逼近模型
5．1 Q-V值函數協同機製
5．2 Q-V值函數協同逼近模型
5．3 Q-V值函數協同逼近算法
5．3．1 QV（λ）算法
5．3．2 算法收斂性分析
5．4 仿真實驗
5．4．1 實驗描述
5．4．2 實驗設置
5．4．3 實驗分析
5．5 本章小結
參考文獻

第6章基於高斯過程的快速Sarsa算法
6．1 新的值函數概率生成模型
6．2 利用高斯過程對綫性帶參值函數建模
6．3 FL-GPSarsa算法
6．4 仿真實驗
6．4．1 帶風的格子世界問題
6．4．2 MountainCar問題
6．5 本章小結
參考文獻

第7章基於高斯過程的Q學習算法
7．1 值迭代方法
7．2 用於值迭代的值函數概率生成模型
7．3 GP-QL算法
7．4 仿真實驗
7．4．1 實驗1：帶懸崖的格子世界問題
7．4．2 實驗2：MountainCar問題
7．5 本章小結
參考文獻

第8章最小二乘策略迭代算法
8．1 馬爾可夫決策過程
8．2 最小二乘策略迭代
8．2．1 投影貝爾曼等式的矩陣形式
8．2．2 最小二乘策略迭代
8．2．3 在綫最小二乘策略迭代
8．3 本章小結
參考文獻

第9章批量最小二乘策略迭代算法
9．1 批量強化學習算法
9．2 批量最小二乘策略迭代算法
9．3 算法分析
9．3．1 收斂性分析
9．3．2 復雜度分析
9．4 仿真實驗
9．4．1 實驗描述
9．4．2 實驗設置
9．4．3 實驗分析
9．5 本章小結
參考文獻

第10章自動批量最小二乘策略迭代算法
10．1 定點步長參數評估方法
10．2 自動批量最小二乘策略迭代算法
10．3 仿真實驗
10．3．1 實驗描述
10．3．2 實驗分析
10．4 本章小結
參考文獻

第11章連續動作空間的批量最小二乘策略迭代算法
11．1 二值動作搜索
11．2 快速特徵選擇
11．3 連續動作空間的快速特徵選擇批量最小二乘策略迭代算法
11．4 仿真實驗
11．4．1 實驗描述
11．4．2 實驗設置
11．4．3 實驗分析
11．5 本章小結
參考文獻

第12章一種基於雙層模糊推理的Sarsa（λ）算法
12．1 Q-值函數的計算和FIS的參數更新
12．2 DFR-Sarsa（λ）算法
12．2．1 DFR-Sarsa（λ）算法的學習過程
12．2．2 算法收斂性分析
12．3 仿真實驗
12．3．1 MountainCar
12．3．2 平衡杆
12．4 本章小結
參考文獻

第13章一種基於區間型二型模糊推理的Sarsa（λ）算法
13．1 近似Q-值函數的計算和參數的更新
13．2 IT2FI-Sarsa（λ）算法的學習過程
13．3 算法收斂性分析
13．4 仿真實驗
13．4．1 實驗設置
13．4．2 實驗分析
13．5 本章小結
參考文獻
……
第14章一種帶有自適應基函數的模糊值迭代算法
第15章基於狀態空間分解和智能調度的並行強化學習
第16章基於資格跡的並行時間信度分配強化學習算法
第17章基於並行采樣和學習經驗復用的E3算法
第18章基於綫性函數逼近的離策略Q（λ）算法
第19章基於二階TDError的Q（λ）算法
第20章基於值函數遷移的快速Q-Learning算法
第21章離策略帶參貝葉斯強化學習算法