수학으로 이해하는 기초강화학습
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)
15,000원 미만 시 2,500원 배송비 부과
20,000원 미만 시 2,500원 배송비 부과
15,000원 미만 시 2,500원 배송비 부과
1Box 기준 : 도서 10권
로그아웃 : '서울시 종로구 종로1' 주소 기준
이달의 꽃과 함께 책을 받아보세요!
1권 구매 시 결제 단계에서 적용 가능합니다.
알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.
작가정보
목차
- 1. 마르코프 의사결정과정 (Markov decision process)
1-1. 마르코프 의사결정과정 (Markov decision process)
1-2. 상태전이분포 (state transition probability)
1-3. 정책 (policy)
1-4. 보상 (reward)
1-5. 상태전이도표 (state transition diagram)
1-6. 에피소드 (episode)
1-7. 반환값 (return)
1-8. 목적함수 (objective function) 및 정책의 순위
1-9. 최적정책 (optimal policy)
1-10. 마르코프 의사결정문제 (Markov decision problem)
1-11. 정상상태분포 (stationary state distribution)
1-12 온폴리시 분포 (on-policy distribution)
2. 가치함수와 Q함수 (value function and Q-function)
2-1. 가치함수 (value function)
2-2. Q함수 (Q-function)
2-3. 여러가지 중요한 관계식들
2-4. 이점함수 (advantage function)
2-5. 정책의 순위와 가치함수의 관계
3. 벨만등식과 벨만연산자 (Bellman equation and Bellman operator)
3-1. 연산자 (operator)
3-2. 벨만등식 (Bellman equation)
3-3. V-벨만등식 (V-Bellman equation)
3-4. Q-벨만등식 (Q-Bellman equation)
3-5. 최적 V-벨만등식 (optimal V-Bellman equation)
3-6. 최적 Q-벨만등식 (optimal Q -Bellman equation)
4. 동적계획법 (dynamic programming, DP)
4-1. 정책반복 (policy iteration, PI)
4-2. 최적 가치함수와 최적정책의 관계
4-3. 가치반복 (value iteration, VI)
5. 수학적 배경지식
5-1. 최적화 (optimization)
5-2. 경사하강법 또는 그레디언트 디센트 (gradient descent method)
5-3. 확률적 경사하강법 또는 확률적 그레디언트 디센트 (stochastic gradient descent method, SGD)
5-4. 회기문제 (regression problem)
6. 몬테카를로 학습 (Monte Calro learning, MC learning)
6-1. 강화학습이란?
6-2. 확률적 근사 (stochastic approximation)
6-3. 일괄처리방식 MC추정 (batch Monte Calro prediction, batch MC prediction)
6-4. MC추정에서 탐색문제 (exploration issue in MC prediction)
6-5. 순차처리방식 MC추정 (recursive Monte Calro prediction, recursive MC prediction)
6-6. 순차처리방식 MC추정의 회기문제 및 그레디언트 (regression and gradient)관점
6-7. Q함수 추정을 위한MC추정 (MC prediction for Q-function estimation)
6-8. MC추정에서 Q함수 추정시 발생하는 탐색문제
6-9. 함수 근사화기반 MC추정
6-10. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (정책평가시)
6-11. MC제어 알고리즘 (MC control)
6-12. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (최적정책설계시)
7. TD학습 (temporal difference learning, TD learning)
7-1. TD학습 개요 (introduction to TD learning)
7-2. TD추정 (temporal difference prediction, TD prediction)
7-3. TD추정의 직관적 이해
7-4. TD추정의 회기문제 및 확률적 그레디언트 관점
7-5. TD추정의 동적계획법 관점
7-6. 함수근사를 사용한 TD추정
7-7. 오프폴리시 TD추정
7-8. TD추정의 탐색문제
7-9. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
7-10. Q함수를 위한 TD추정 (SARSA)
7-11. 함수근사화 기반 SARSA 및 오프폴리시 SARSA
7-12. 기대값 SARSA (expected SARSA)
7-13. SARSA 제어 (SARSA control)
7-14 기대값 SARSA 제어 (expected SARSA control)
8. Q학습 (Q-learning)
8-1. Q학습 개요 (introduction to Q-learning)
8-2. Q학습의 MC학습기반 해석
8-3. Q학습의 회귀문제 관점
8-4. Q학습의 동적계획법 관점
8-5. 함수근사화를 이용한 Q학습
8-6. Q학습의 과대평가문제 (overestimation issue)
8-7. 더블 Q학습 (double Q-learning)
8-8. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
8-9. 심층 Q학습 (deep Q-learning 또는 deep Q-network, DQN)
8-10. 심층 더블 Q학습 (deep double Q-learning 또는 deep double Q-network, D2QN)
9. 정책 그레디언트 (Policy gradient, PG)
9-1. 정책 그레디언트 정리 (policy gradient theorem)
9-2. 정책 그레디언트의 확률적 근사화기법
9-3. 정책 그레디언트 알고리즘 (policy gradient algorithm)
9-4. 정책함수 매개변수화 (policy parameterization)
9-5. 정책 그레디언트 알고리즘의 직관적 이해
9-6. 기준선 (baseline) 기법
10. 행위자-비평자 (actor-critic) 알고리즘
10-1. Q함수 기반 행위자-비평자 (Q actor-critic) 알고리즘
10-2. 이점함수 기반 행위자-비평자 (advantage actor-critic) 알고리즘
10-3. 연속적인 행동공간에서 정책 그레디언트 (policy gradient with continuous action-space)
10-4. 확정적 정책 그레디언트 (deterministic policy gradient, DPG)
10-5. 심층 확정적 정책 그레디언트 (deep deterministic policy gradient, DDPG)
출판사 서평
이 책은 강화학습의 기초부터 탄탄한 수학적 원리를 통해 알고리즘의 핵심을 깊이 있게 파헤치는 작품입니다. 강화학습에 처음 입문하는 독자부터 수학적 배경을 갖춘 이공계 학생 및 실무 엔지니어에 이르기까지, 다양한 계층의 독자들이 체계적인 이론과 실습을 통해 인공지능의 근간을 다질 수 있도록 돕습니다.
저자는 최신 기법보다도 본질적인 고전 이론에 집중하여, 독자들이 강화학습의 기반 원리를 명확히 이해할 수 있도록 안내합니다. 복잡한 수학적 개념들을 친절한 해설과 예제를 통해 풀어내며, 이를 통해 단순 암기가 아닌 원리의 체득을 유도합니다. 또한, 독자만의 독창적인 시각을 제시하여 기존의 틀을 벗어난 새로운 통찰력을 제공합니다.
이 책은 단순한 기술서적을 넘어, 인공지능 분야에서 필수적인 수학적 사고와 논리적 분석 능력을 기르고자 하는 이들에게 꼭 필요한 길잡이 역할을 할 것입니다. 강력한 이론적 토대와 함께 실전 적용 능력을 높이고자 하는 모든 분들께 자신 있게 추천합니다.
기본정보
ISBN | 9791199117105 |
---|---|
발행(출시)일자 | 2025년 03월 31일 |
쪽수 | 315쪽 |
크기 |
188 * 240
mm
|
총권수 | 1권 |
Klover 리뷰 (0)
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집 (0)
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)
구매 후 리뷰 작성 시, e교환권 100원 적립
-
반품/교환방법
* 오픈마켓, 해외배송 주문, 기프트 주문시 [1:1 상담>반품/교환/환불] 또는 고객센터 (1544-1900) -
반품/교환가능 기간
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내 -
반품/교환비용
-
반품/교환 불가 사유
(단지 확인을 위한 포장 훼손은 제외)
2) 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
3) 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
4) 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
5) 디지털 컨텐츠인 ebook, 오디오북 등을 1회이상 ‘다운로드’를 받았거나 '바로보기'로 열람한 경우
6) 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
7) 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
8) 세트상품 일부만 반품 불가 (필요시 세트상품 반품 후 낱권 재구매)
9) 기타 반품 불가 품목 - 잡지, 테이프, 대학입시자료, 사진집, 방통대 교재, 교과서, 만화, 미디어전품목, 악보집, 정부간행물, 지도, 각종 수험서, 적성검사자료, 성경, 사전, 법령집, 지류, 필기구류, 시즌상품, 개봉한 상품 등 -
상품 품절
-
소비자 피해보상 환불 지연에 따른 배상
2) 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함
상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)
기분 좋은 발견
이 분야의 베스트
이 분야의 신간
-
구글 코랩으로 배우는 인공지능 기술10% 37,080 원
-
미드저니 마스터 바이블10% 29,700 원
-
AI 낙관론과 비관론(큰글자책)10% 22,500 원
-
AI 낙관론과 비관론10% 10,800 원
-
진짜 챗GPT 활용법10% 18,000 원