商品描述
本書是對強化學習演算法 的綜合性講解書籍,內容包 括主要的強化學習演算法的實 現思路講解,以及主要的優 化方法的原理講解。本書介 紹的每個演算法都分為原理講 解和代碼實現兩部分,代碼 實現是為了通過實驗驗證原 理部分的可行性。通過本書 的學習,讀者可以快速地了 解強化學習演算法的設計原理 ,掌握強化學習演算法的實現 過程,並能研發屬於自己的 強化學習演算法,瞭解各個算 法的優缺點,以及各個演算法 適用的場景。 本書共18章,分為強化 學習基礎篇(第1章和第2章 )介紹了強化學習中的基本 概念。強化學習基礎演算法篇 (第3~6章)介紹了Q Learning演算法、SARSA演算法 、DQN演算法、Reniforce算 法。強化學習高級演算法篇( 第7~12章)介紹了AC演員 評委演算法、A2C優勢演員評 委演算法、PPO近端策略優化 演算法、DDPG深度確定性策 略梯度演算法、TD3雙延遲深 度確定性策略梯度演算法、 SAC柔性演員評委演算法、模 仿學習演算法。多智慧體篇( 第13章和第14章),介紹 了在一個系統中存在多智慧 體時,各個智慧體之間的合 作、對抗等關係,以及各個 智慧體之間的通信策略。擴 展演算法篇(第15~17章) 介紹了CQL離線學習演算法、 MPC環境學習演算法、HER目 標導向演算法。SB3強化學習 框架篇(第18章),介紹了 強化學習框架SB3的使用方 法。 本書將使用最簡單淺顯 的語言,帶領讀者快速地了 解各個主要的強化學習演算法 的設計思路,以及實現過程 。通過本書各個章節的學習 ,讀者可以掌握主流的強化 學習演算法的原理和實現方法 ,能夠讓讀者知其然也知其 所以然,做到融會貫通。