動手做深度強化學習[二手書_良好]11315855796 TAAZE讀冊生活網路書店

Name: 動手做深度強化學習[二手書_良好]11315855796 TAAZE讀冊生活網路書店
Price: 498 TWD

蝦皮商城-指定商店

1. 透過LINE購物進入蝦皮後禁止再透過蝦皮直播下單，避免訂單認列異常 2. 請務必「清空」蝦皮購物車，再透過LINE購物連結至蝦皮商店進行購買；先把商品加入購物車，再從LINE購物連結至蝦皮結帳，將無法獲得點數回饋。 3. 請避免連續下單，若您完成交易後，想下第二張訂單，請重新從LINE購物連結至蝦皮商店進行購買 4. 電子票券及繳費服務類別：回饋０％。 5. 請留意，蝦皮超市內的商品（蝦皮超市、蝦皮直送美妝、蝦皮免運直送）不隸屬於蝦皮商城，點數回饋請依照「蝦皮超市」商店頁為主。 6. 蝦皮商城之訂單適用於部分點數紅包，規範請依該紅包頁說明為主。 7. 點數回饋將依照蝦皮提供扣除折價券、運費與蝦幣後之最終金額進行計算。 8. 同一商品品項(即便不同尺寸規格)，皆會計入同一筆返點上限進行計算 9. 用戶需於同一瀏覽器進行交易（若自動跳轉 APP，請在 APP交易）。 10. 若使用不同物流或付款方式，將拆分成不同筆訂單編號發送通知。 11. 若使用折價券折抵，可能會有攤提折抵導致訂單金額些微落差 12. 蝦皮會將LINE的導購跳轉紀錄與蝦皮的會員ID進行綁定，若後續七天內未透過其他媒體來源導入蝦皮官網，則七天內於該蝦皮帳號下訂的首筆訂單會被蝦皮認列為該LINE用戶導購跳轉時所成立之訂單。 13. 若同一用戶使用一個以上蝦皮帳號透過LINE購物進行導購，將可能導致無法收到導購通知，亦可能無法收到點數，再請留意。 [注意事項] 1.如導購途中用戶由網頁版(電腦版/手機版網頁)切換為 App 會造成追蹤中斷而無法進行 LINE Points 回饋 2.若購買過程中關閉蝦皮APP，則需重新透過LINE購物前往蝦皮商城，否則無法進行LINE POINTS 回饋。 / 3.如用戶先前往蝦皮商城將商品加入購物車，後續透過LINE購物前往至蝦皮商城將購物車結清，此方案將不列入 LINE Points 回饋 4.若因系統異常無法追蹤訂單，致使消費者無接收到點數回饋，蝦皮保有更改條款與法律追訴之權利 5. LINE購物商品價格若與蝦皮賣場實際價格有異，以蝦皮賣場價格為準

商品描述

商品資料作者：Maxim Lapan 出版社：博碩文化股份有限公司出版日期：2019/11/11 ISBN/ISSN：9789864344307 語言：繁體/中文裝訂方式：平裝頁數：528 原價：690 ------------------------------------------------------------------------ 內容簡介實作現代強化學習方法：深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero… 強化學習（RL）的最新發展，結合使用深度學習（DL），在訓練代理人「像人類一樣地」解決複雜問題這方面，取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲，並擊敗了它們，這可以說是讓RL領域發光發熱的重要推手，而世界各地的研究人員正馬不停蹄地研發各種新的想法。《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法，再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外，作者亦詳述如何製作智慧型學習代理人等專業知識，讓讀者在面對一系列艱鉅的真實世界挑戰時，能游刃有餘。本書也會說明如何在網格世界（grid world）環境中實作Q學習、如何讓代理人學會買賣和交易股票，並學習聊天機器人是如何使用自然語言模型與人類對話的。在這本書中，你將學到：・了解結合了RL的DL內容，並實作複雜的DL模型・學習RL的基礎：馬可夫決策過程・評估RL方法，包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等・了解如何在各種環境中處理離散行動空間和連續行動空間・使用值迭代法來擊敗Atari街機遊戲・建立屬於自己的OpenAI Gym環境，來訓練股票交易代理人・使用AlphaGo Zero演算法，教你的代理人玩Connect4 ・探索最新的深度RL研究主題，包括AI驅動的聊天機器人等等下載範例程式檔案：本書的程式碼是由 GitHub 託管，可以在如下網址找到：。下載本書的彩色圖片：我們還提供您一個PDF檔案，其中包含本書使用的彩色螢幕截圖／彩色圖表，可以在此下載：。作者簡介 Maxim Lapan是一位深度學習的愛好者，也是一位獨立研究人員。他有15 年的工作經驗，身分是「軟體開發人員」與「系統架構師」，參與的專案從低階的Linux 核心驅動程式開發，到在數千台伺服器上執行的「分散式應用程式」的「設計」與「性能優化」。憑藉著在大數據、機器學習以及大型平行分散式HPC 和非HPC 系統方面的豐富工作經驗，他能用「簡單的句子」與「生動的範例」來解釋複雜事物的關鍵重點。目前他最感興趣的領域是深度學習的實務應用，例如：「深度自然語言處理」和「深度強化學習」。 Maxim 和他的家人住在莫斯科，俄羅斯聯邦，他在以色列新創公司擔任資深NLP 開發人員。目錄前言第1章：什麼是強化學習？第2章： OpenAI Gym 第3章：使用PyTorch來做深度學習第4章：交叉熵法第5章：表格學習與貝爾曼方程式第6章：深度Q網路第7章：DQN擴充第8章：以強化學習法來做股票交易第9章：策略梯度－另一個選項第10章：行動－評論者方法第11章：非同步優勢行動－評論者第12章：以強化學習法訓練聊天機器人第13章：Web導航第14章：連續行動空間第15章：信賴域策略－TRPO、PPO與ACKTR 第16章：強化學習中的黑箱優化第17章：超越無模型方法－想像第18章：AlphaGo Zero 二手書購物須知 1. 購買二手書時，請檢視商品書況或書況影片。商品名稱後方編號為賣家來源。 2. 商品版權法律說明：TAAZE 讀冊生活單純提供網路二手書託售平台予消費者，並不涉入書本作者與原出版商間之任何糾紛；敬請各界鑒察。 3. 二手商品無法提供換貨服務，僅能辦理退貨。如須退貨，請保持該商品及其附件的完整性(包含書籍封底之TAAZE物流條碼)。若退回商品無法回復原狀者，可能影響退換貨權利之行使或須負擔部分費用。 4. 退換貨說明：二手書籍商品享有15天的商品猶豫期（含例假日）。若您欲辦理退貨，請於取得該商品15日內寄回。但以下幾種狀況不得辦理退貨： a. 與書況影片相較有差異(撞損..) b. 附件不符(原有含CD) c. 物流條碼被撕除訂購本商品前請務必詳閱退換貨原則。 5. 書況標定 : 二手書「書況」由讀冊生活統一標定，標準如下，下單前請先確認該商品書況，若下單則視為確認及同意書況。 a. 全新：膠膜未拆，無瑕疵。 b. 近全新：未包膜，翻閱痕跡不明顯，如實體賣場陳列販售之書籍。 c. 良好：有使用痕跡，不如新書潔白、小範圍瑕疵，如摺角、碰撞、汙點或泛黃等。 d. 普通：有明顯使用痕跡或黃褐色、黑斑等。

加入購物車

設定到價通知

商品已停售