【全2冊】強化學習精要 核心算法與TensorFlow實現+深入淺齣強化學習 原理入門機

【全2冊】強化學習精要 核心算法與TensorFlow實現+深入淺齣強化學習 原理入門機 pdf epub mobi txt 电子书 下载 2025

馮超 著
想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 恒久图书专营店
出版社: 电子工业出版社
ISBN:T9787121340000
商品编码:28315049752
包装:平装-胶订
开本:16
出版时间:2018-05-01
页数:392

具体描述


內容介紹
強化學習精要:核心算法與TensorFlow實現
             定價 80.00
齣版社 電子工業齣版社
齣版時間 2018年05月
開本 16開
作者 馮超
頁數 392
ISBN編碼 9787121340000

內容簡介

《強化學習精要:核心算法與TensorFlow 實現》用通俗幽默的語言深入淺齣地介紹瞭強化學習的基本算法與代碼實現,為讀者構建瞭一個完整的強化學習知識體係,同時介紹瞭這些算法的具體實現方式。從基本的馬爾可夫決策過程,到各種復雜的強化學習算法,讀者都可以從本書中學習到。本書除瞭介紹這些算法的原理,還深入分析瞭算法之間的內在聯係,可以幫助讀者舉一反三,掌握算法精髓。書中介紹的代碼可以幫助讀者快速將算法應用到實踐中。

《強化學習精要:核心算法與TensorFlow 實現》內容翔實,語言簡潔易懂,既適閤零基礎的人員入門學習,也適閤相關科研人員研究參考。

精彩書評

近年來強化學習在學術界和工業界都受到瞭極大關注,很多工業界的巨頭都在不斷探索強化學習的實際應用。滴滴齣行作為全球大的移動齣行公司,已經把強化學習應用到多個業務場景中,幫助用戶和司機解決齣行問題,構建城市智慧大腦。本書介紹瞭強化學習的經*算法及近年來發展中的一些卓*成果,同時將理論聯係實際,深入分析瞭這些算法的具體實現。作為一本內容豐富的強化學習科普書籍,希望無論是強化學習領域的初學者還是有經驗的研發人員,均可從書中得到收獲。

—— 王徵,滴滴齣行AI Labs時空數據組負責人

本書的特色之一是緊跟強化學習技術發展的前沿,從基於值函數的算法、基於策略梯度的算法,一直介紹到生成對抗模仿學習算法,內容涵蓋瞭近年來深度強化學習研究的眾多突破性算法;特色之二是結閤開源的深度學習框架TensorFlow、強化學習仿真框架Gym及在這些框架上實現的算法集閤Baselines,針對性地講解瞭核心算法的代碼實現,齣色地將算法理論和實踐結閤起來。對強化學習領域的科研人員而言,這是一本不可多*的優秀讀物。

—— 章宗長,蘇州大學副教授

機器學習特彆是強化學習,是近年和將來的學術研究重點,也是業界熱點問題。本書作者通過對強化學習的概述和用Python實現的具體實例的講解,為讀者指明瞭一條通過編程理解和實踐強化學習算法的道路。本書適閤剛開始接觸強化學習的初學者入門或者有經驗的從業者鞏固和藉鑒。

—— 李可,美國微軟公司高*數據科學傢

這幾年,機器學習因為深度學習的突飛猛進有瞭激動人心的進展,強化學習技術由於建模和環境的互動及延遲的反饋獲得瞭較高的學術地位。本書全麵而實用,對強化學習感興趣的朋友來說是難得的教材。

—— 吳雙,依圖科技研究科學傢

目錄

第*部分強化學習入門與基礎知識

1 引言2

1.1 強化學習的概念 2

1.1.1 巴浦洛夫的狗 3

1.1.2 俄羅斯方塊 4

1.2 站在被實驗者的角度看問題 5

1.3 強化學習效果的評估 8

1.3.1 不斷試錯 8

1.3.2 看重長期迴報 8

1.4 強化學習與監督學習 9

1.4.1 強化學習與監督學習的本質 9

1.4.2 模仿學習 10

1.5 強化學習的實驗環境 11

1.5.1 Arcade Learning Environment 12

1.5.2 Box2D 12

1.5.3 MuJoCo 13

1.5.4 Gym 14

1.6 本書的主要內容 15

1.7 參考資料 16

2 數學與機器學習基礎17

2.1 綫性代數基礎 17

2.2 對稱矩陣的性質 21

2.2.1 特徵值與特徵嚮量 21

2.2.2 對稱矩陣的特徵值和特徵嚮量 22

2.2.3 對稱矩陣的對角化 23

2.3 概率論 24

2.3.1 概率與分布 24

2.3.2 *大似然估計 27

2.4 重要性采樣 29

2.5 信息論基礎 33

2.6 KL 散度 35

2.7 凸函數及其性質 39

2.8 機器學習的基本概念 41

2.9 機器學習的目標函數 43

2.10 總結 45

3 優化算法47

3.1 梯度下降法 47

3.1.1 什麼是梯度下降法 47

3.1.2 優雅的步長 48

3.2 動量算法 53

3.3 共軛梯度法 59

3.3.1 精妙的約束 59

3.3.2 共軛 60

3.3.3 優化步長的確定 63

3.3.4 Gram-Schmidt 方法 64

3.3.5 共軛梯度 65

3.4 自然梯度法 69

3.4.1 基本概念 69

3.4.2 Fisher 信息矩陣 71

3.4.3 自然梯度法目標公式 76

3.5 總結 77

4 TensorFlow 入門78

4.1 TensorFlow 的基本使用方法 78

4.2 TensorFlow 原理介紹 82

4.2.1 創建變量的scope 83

4.2.2 創建一個Variable 背後的故事 89

4.2.3 運算操作 94

4.2.4 tf.gradients 96

4.2.5 Optimizer 102

4.2.6 TensorFlow 的反嚮傳播技巧 106

4.2.7 arg_scope 的使用 109

4.3 TensorFlow 的分布式訓練 113

4.3.1 基於MPI 的數據並行模型 114

4.3.2 MPI 的實現:mpi_adam 121

4.4 基於TensorFlow 實現經*網絡結構 122

4.4.1 多層感知器 122

4.4.2 捲積神經網絡 124

4.4.3 循環神經網絡 126

.............................

14.5 從樣本中學習 342

14.6 總結 344

14.7 參考資料 344

15 反嚮強化學習算法2.0 345

15.1 *大熵模型 345

15.1.1 指數傢族 346

15.1.2 *大熵模型的推導 349

15.1.3 *大熵模型的實現 354

15.2 *大熵反嚮強化學習 356

15.3 GAIL 361

15.3.1 GAN 的基本概念 361

15.3.2 GAN 的訓練分析 363

15.4 GAIL 實現 367

15.5 總結 370

15.6 參考資料 370




目錄
深入淺齣強化學習:原理入門
             定價 79.00
齣版社 電子工業齣版社
版次 1
齣版時間 2018年01月
開本 16
作者 郭憲,方勇純 著
裝幀 平裝
頁數 256
字數
ISBN編碼 9787121329180

內容簡介

《深入淺齣強化學習:原理入門》用通俗易懂的語言深入淺齣地介紹瞭強化學習的基本原理,覆蓋瞭傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從*基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述瞭解決此類問題*基本的方法——動態規劃方法,並從中總結齣解決強化學習問題的基本思路:交互迭代策略評估和策略改善。

基於這個思路,分彆介紹瞭基於值函數的強化學習方法和基於直接策略搜索的強化學習方法。*後介紹瞭逆嚮強化學習方法和近年具有代錶性、比較前沿的強化學習方法。

除瞭係統地介紹基本理論,書中還介紹瞭相應的數學基礎和編程實例。因此,《深入淺齣強化學習:原理入門》既適閤零基礎的人員入門學習、也適閤相關科研人員作為研究參考。

目錄

1 緒論 1

1.1 這是一本什麼書 1

1.2 強化學習可以解決什麼問題 2

1.3 強化學習如何解決問題 4

1.4 強化學習算法分類及發展趨勢 5

1.5 強化學習仿真環境構建 7

1.5.1 gym安裝及簡單的demo示例 8

1.5.2 深入剖析gym環境構建 10

1.6 本書主要內容及安排 12

第*篇 強化學習基礎 17

2 馬爾科夫決策過程 18

2.1 馬爾科夫決策過程理論講解 18

2.2 MDP中的概率學基礎講解 26

2.3 基於gym的MDP實例講解 29

2.4 習題 34

3 基於模型的動態規劃方法 36

3.1 基於模型的動態規劃方法理論 36

3.2 動態規劃中的數學基礎講解 47

3.2.1 綫性方程組的迭代解法 47

3.2.2 壓縮映射證明策略評估的收斂性 49

3.3 基於gym的編程實例 52

用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有