심층 강화학습 인 액션
도서 + 잡지 / 만화 / :K컬렉션을 함께 1만 원 이상 구매 시 무료배송
1만원 미만 시 2,000원 배송비 부과
2만원 미만 시 2,000원 배송비 부과
1만원 미만 시 2,000원 배송비 부과
중고장터 상품
1Box 기준 : 도서 10권
알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.
작가정보
저자(글) 알렉스 짜이
심화 코딩 부트캠프인 Codesmith의 CTO를 역임했고, 현재는 기술 자문으로 일한다. 또한 그는 우버의 소프트웨어 기술자이자 Banjo와 아마존의 기계학습 공학자이며, 오픈소스 심층 강화학습 프레임워크인 아파치 MXNet에도 기여한다. 그리고 두 개의 기업을 공동 창업하기도 했는데, 그중 한 회사는 Y Combinator에 참여했다.
저자(글) 브랜던 브라운
1996년부터 활동해 온 프로그래밍 서적 전문 번역가로, Game Programming Gems 시리즈와 컴퓨터 프로그래밍의 예술(The Art of Computer Programming) 제1~4A권, UNIX 고급 프로그래밍(Advanced Programming in UNIX Environment) 제2판과 제3판을 포함하여 60여 권의 다양한 프로그래밍 서적을 번역했다. C++ 관련 번역서로는 일반적 프로그래밍과 STL, C++ Template Metaprogramming, (C++로 배우는) 프로그래밍의 원리와 실제 등이 있다. 수학 관련 번역서로는 《구체 수학》, 《3D 게임 프로그래밍 & 컴퓨터 그래픽을 위한 수학》 제1판·제2판 등이 있고, 심층학습 관련 번역서로는 《인공지능: 현대적 접근방식》 제4판, 《심층학습》, 《신경망과 심층 학습》 등이 있다. 번역과 프로그래밍 외에 소프트웨어 문서화에도 많은 관심이 있으며, 수많은 오픈소스 프로젝트들의 표준 문서 형식으로 쓰이는 DocBook의 국내 사용자 모임인 닥북 한국(http://docbook.kr)의 일원이다. 현재 번역서 정보 사이트 occam’s Razor(http://occamsrazr.net)와 게임 개발 및 개발서 관련 사이트 GpgStudy(http://www.gpgstudy.com)를 운영하고 있다.
목차
- PART I 기초 1
CHAPTER 1 강화학습이란? 3
1.1 심층 강화학습에서 ‘심층’의 의미 4
1.2 강화학습 6
1.3 동적 계획법과 몬테카를로 방법 9
1.4 강화학습의 틀 12
1.5 강화학습으로 할 수 있는 일 16
1.6 왜 심층 강화학습인가? 18
1.7 이 책의 주요 설명 수단: 끈 그림 21
1.8 앞으로의 여정 22
요약 24
CHAPTER 2 강화학습 문제의 모형화: 마르코프 결정 과정 25
2.1 끈 그림과 이 책의 교육 방식 25
2.2 여러 팔 강도 문제의 해법 30
2.3 여러 팔 강도 문제를 광고 배치 최적화에 적용 41
2.4 PyTorch로 신경망 만들기 43
2.5 문맥적 강도 문제의 해법 47
2.6 마르코프 성질 52
2.7 향후 보상의 예측: 가치와 정책 함수 55
요약 59
CHAPTER 3 가장 나은 동작의 선택: 심층 Q 신경망(DQN) 61
3.1 Q 함수 62
3.2 Q 학습 개요 64
3.3 파국적 망각 방지: 경험 재현 85
3.4 목표망을 이용한 안정성 개선 92
3.5 정리 99
요약 102
CHAPTER 4 정책 기울기 방법 103
4.1 신경망을 이용한 정책 함수 구현 104
4.2 좋은 동작의 강화: 정책 기울기 알고리즘 108
4.3 OpenAI Gym 다루기 114
4.4 REINFORCE 알고리즘 117
요약 125
CHAPTER 5 좀 더 어려운 문제 풀기: 행위자-비평자 모형 127
5.1 가치 함수와 정책 함수의 결합 129
5.2 분산 훈련 135
5.3 이익 행위자-비평자 141
5.4 N-단계 행위자-비평자 151
요약 157
PART I I 더 높은 곳을 향하여 159
CHAPTER 6 또 다른 최적화 방법: 진화 알고리즘 161
6.1 강화학습의 또 다른 접근 방식 162
6.2 진화를 이용한 강화학습 163
6.3 CartPole을 위한 유전 알고리즘 172
6.4 진화 알고리즘의 장단점 180
6.5 규모가변적 대안으로서의 진화 알고리즘 182
6.5.6 기울기 기반 접근 방식의 규모 확장 189
요약 189
CHAPTER 7 모든 가능성의 탐색: 분포 심층 Q 신경망 191
7.1 기댓값 Q 학습의 문제점 192
7.2 다시 살펴보는 확률과 통계 197
7.3 벨먼 방정식 204
7.4 분포 Q 학습 206
7.5 확률분포의 비교 219
7.6 가상의 데이터에 대한 분포 DQN 225
7.7 분포 DQN을 이용한 아타리 프리웨이 학습 231
요약 237
CHAPTER 8 호기심 주도 탐험 239
8.1 예측 부호화를 이용한 희소 보상 문제 해결 241
8.2 역방향 동역학 예측 244
8.3 슈퍼 마리오브라더스 환경 설정 247
8.4 Q 신경망 전처리 250
8.5 Q 신경망과 정책 함수 설정 253
8.6 ICM(내재적 호기심 모듈) 257
8.7 그 밖의 내재적 보상 메커니즘들 271
요약 274
CHAPTER 9 다중 에이전트 강화학습 277
9.1 단일 에이전트에서 다중 에이전트로 278
9.2 이웃 Q 학습 282
9.3 1차원 이징 모형 286
9.4 평균장 Q 학습과 2차원 이징 모형 298
9.5 혼합 협조-경쟁 게임 309
요약 323
CHAPTER 10 해석 가능한 강화학습: 주의 모형과 관계 모형 325
10.1 주의와 관계 편향을 이용한 기계학습 해석성 개선 326
10.2 주의 메커니즘을 이용한 관계 추론 330
10.3 MNIST 이미지 분류를 위한 자가 주의 모형 구현 342
10.4 다중 헤드 주의 모형과 관계 DQN 356
10.5 이중 Q 학습 365
10.6 훈련과 주의 시각화 367
요약 376
CHAPTER 11 결론: 돌아보기와 내다보기 379
11.1 핵심 정리 380
11.2 심층 강화학습 분야의 미개척 주제들 382
11.3 마치며 386
APPENDIX A 수학, 심층학습, PyTorch 387
A.1 선형대수 388
A.2 미적분 390
A.3 심층학습 396A.4 PyTorch 397
참고문헌 402
찾아보기 406
추천사
-
“상세한 강화학습 입문서. 재미있을 뿐만 아니라 현업의 주요 내용을 망라한다.”
-
“심층 강화학습을 마스터하려는 모든 이의 필독서!”
-
“AI/ML과 강화학습에 깔린 이론이 궁금하다면, 그리고 그런 기법을 여러분의 프로젝트에 적용하는 방법을 알고 싶다면 이 책이 적격이다.”
-
“DRL의 기초에 숙달하고자 하는, 그리고 이 흥미로운 분야에서 연구자나 개발자로 일하고자 하는 모든 이에게 이 책을 강력히 추천한다.”
책 속으로
이 책을 출간하는 시점에서 본문에 수록된 모든 예제 코드는 잘 작동함이 확인된 것이다. 그러나 심층학습 분야와 관련 라이브러리들이 빠르게 발전하는 만큼, 언제까지라도 예제 코드가 의도대로 작동하리라는 보장은 없다. 본문의 예제 코드는 또한 프로젝트가 돌아가는 데 필요한 최소한의 형태로만 작성된 것일 뿐이므로, 원서 깃허브 저장소 http://mng.bz/JzKp에 있는 좀 더 완전한(그리고 갱신된) 소스 코드를 참고하길 강력히 권한다. _xvi쪽
이 책은 독자가 심층학습에 관한 기본 지식을 어느 정도 갖추고 있다고 가정하지만, 재미있고 유익한 강화학습 기법들을 배우는 과정에서 여러분의 심층학습 관련 기술도 더욱 제련될 것이다. 좀 더 어려운 프로젝트들을 해결하기 위해서는 심층학습의 최신 성과 몇 가지도 동원할 필요가 있다. 이를테면 GAN(생성 대립 신경망 또는 생성적 적대 신경망), 진화적 방법들, 메타 학습, 전이학습이 그런 예이다. 물론 이들은 모두 독자의 추후 학습 능력을 증진한다는 기본적인 목적하에서 언급되는 것일 뿐, 그런 최신 성과의 기술적인 세부 사항에 초점들을 두지는 않는다. _23쪽
실망스럽지만 흥미로운 결과이다. 신경망이 선택한 이동 동작들을 자세히 살펴보기 바란다. 플레이어는 목표에서 오른 쪽으로 몇 타일 떨어진 곳에서 출발한다. 플레이어가 게임 플레이 방법을 정말로 알고 있다면 그냥 왼쪽으로 직진해서 목표에 도달했을 것이다. 그러나 플레이어는 정적 모드에서처럼 아래로 내려가기 시작한다. 이 결과를 보면 신경망이 훈련에 사용한 정적 모드의 게임 플레이를 그냥 암기했을 뿐, 배운 것을 일반화하지는 못했다고 봐야 할 것이다. _84쪽
그림 5.10은 행위자-비평자 알고리즘의 개요이다. 행위자-비평자 모형은 상태 가치와 동작 확률분포를 산출해야 한다. 동작 확률분포로 동작을 선택해서 보상을 받고, 그것을 상태 가치와 비교해서 이익을 계산한다. 궁극적으로 동작을 강화하고 모형을 훈련하는 데 사용하는 것은 바로 그 이익이다. _143쪽
그림 7.14에서 보듯이 균등분포가 분산이 훨씬 작은, 5를 중심으로 한 정규분포 비슷한 분포로 바뀌었다. 이상의 실험으로 볼 때 update_dist 함수는 의도한 대로 잘 작동하는 것으로 보인다. 이번 예제에서 이 함수는 분포 DQN이 근사하고자 하는 목표 분포를 생성하는 데 쓰인다. 그럼 프리웨이 게임을 위한 분포 DQN을 구현해 보자. _215쪽
1차원 이징 모형은 아주 간단하기 때문에, PyTorch의 내장 신경망 층들을 사용하는 대신 관련된 모든 행렬 곱셈 연산을 직접 지정해서 신경망을 작성해도 별로 어렵지 않다. 목록 9.5는 Q 신경망(Q 함수)을 구현하는 파이썬 함수이다. 이 함수는 상태 벡터 하나와 매개변수 벡터를 받고, 매개변수 벡터에 담긴 매개변수들을 여러 개의 행렬로 만들어서 각각의 신경망 층으로 사용한다. _292쪽
출판사 서평
프로젝트로 배우는 심층 강화학습의 이론과 실제!
심층 강화학습 시스템은 새로운 환경에 빠르게 적응한다. 이러한 능력은 기존의 표준적인 신경망에 비해 커다란 진보에 해당한다. 사람이 뭔가를 배우는 과정과 비슷하게, 심층 강화학습 에이전트는 감각 정보에 해당하는 원본 데이터를 입력받고 시행착오를 거쳐서 자신의 반응과 예측을 정련해 나간다.
이 책 《심층 강화학습 인 액션》은 환경이 제공하는 직접적인 피드백에 기반해서 환경에 적응하고 자신을 개선해 나가는 에이전트의 구현 방법을 설명한다. 흐름이 있는 하나의 강좌 형태로 구성된 이 책에서 여러분은 심층 강화학습의 기본 기법과 고급 기법을 미로 탈출이나 비디오 게임 플레이 같은 흥미로운 예제를 통해서 배우게 된다. 그 과정에서 심층 Q 신경망과 정책 기울기 방법을 포함한 여러 핵심 알고리즘을 익힐 수 있고, PyTorch와 OpenAI Gym 같은 업계 표준에 해당하는 라이브러리에도 익숙해질 것이다.
이 책의 주요 내용
■ 심층 강화학습 에이전트의 구축과 훈련
■ 학습과 문제 해결에 가장 널리 쓰이는 심층 강화학습 알고리즘
■ 진화 알고리즘, 호기심 기반 학습, 다중 에이전트 학습 등의 고급 주제
■ 실행 가능한 파이썬 예제 코드
기본정보
ISBN | 9791190665612 ( 1190665611 ) | ||
---|---|---|---|
발행(출시)일자 | 2020년 11월 17일 | ||
쪽수 | 440쪽 | ||
크기 |
189 * 245
* 31
mm
/ 930 g
|
||
총권수 | 1권 | ||
시리즈명 |
제이펍의 인공지능 시리즈
|
||
원서명/저자명 | Deep Reinforcement Learning in Action/Brown, Brandon |
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립