본문 바로가기

추천 검색어

실시간 인기 검색어

수학으로 이해하는 기초강화학습

이동환 저자(글)
가우스출판 · 2025년 03월 31일
0.0
10점 중 0점
(0개의 리뷰)
평가된 감성태그가
없습니다
  • 기초강화학습 대표 이미지
    기초강화학습 대표 이미지
  • 기초강화학습 부가 이미지1
    기초강화학습 부가 이미지1
  • 기초강화학습 부가 이미지2
    기초강화학습 부가 이미지2
  • A4
    사이즈 비교
    210x297
    기초강화학습 사이즈 비교 188x240
    단위 : mm
01 / 04
무료배송 소득공제
10% 31,500 35,000
적립/혜택
1,750P

기본적립

5% 적립 1,750P

추가적립

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 1,750P
  • 리뷰 작성 시, e교환권 추가 최대 300원
배송안내
무료배송
배송비 안내
국내도서/외국도서
도서 포함 15,000원 이상 구매 시 무료배송
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)

15,000원 미만 시 2,500원 배송비 부과

교보Only(교보배송)
각각 구매하거나 함께 20,000원 이상 구매 시 무료배송

20,000원 미만 시 2,500원 배송비 부과

해외주문 서양도서/해외주문 일본도서(교보배송)
각각 구매하거나 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

업체배송 상품(전집, GIFT, 음반/DVD 등)
해당 상품 상세페이지 "배송비" 참고 (업체 별/판매자 별 무료배송 기준 다름)
바로드림 오늘배송
업체에서 별도 배송하여 1Box당 배송비 2,500원 부과

1Box 기준 : 도서 10권

그 외 무료배송 기준
바로드림, eBook 상품을 주문한 경우, 플래티넘/골드/실버회원 무료배송쿠폰 이용하여 주문한 경우, 무료배송 등록 상품을 주문한 경우
새벽배송 내일(4/12,토 오전 7시 전) 도착
기본배송지 기준
배송일자 기준 안내
로그인 : 회원정보에 등록된 기본배송지
로그아웃 : '서울시 종로구 종로1' 주소 기준
로그인정확한 배송 안내를 받아보세요!

이달의 꽃과 함께 책을 받아보세요!

1권 구매 시 결제 단계에서 적용 가능합니다.

알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.

이 책은 수학을 바탕으로 강화학습의 기초와 원리를 체계적으로 설명하며, 수학적 기반을 통해 강화학습을 깊이 이해하고자 하는 독자를 위한 입문서입니다. 대상 독자는 수학에 관심이 있는 이공계 학부생 및 대학원생, 그리고 강화학습을 활용하려는 수학적 소양을 갖춘 실무 엔지니어입니다. 최신 기법보다는 이를 이해하기 위한 고전적인 내용을 중심으로 하며, 저자만의 독창적인 해석과 설명이 담겨 있습니다.

작가정보

저자(글) 이동환

이동환

저자는 현재 한국과학기술원 전기 및 전자공학과 교수이며 강화학습 및 인공지능 분야를 연구하고 있습니다. 미국 Purdue에서 수학과 석사 및 전기 및 컴퓨터공학과에서 박사학위를 받고 박사후에는 University of Illinois, Urbana-Champaign에서 포스트닥 연구원으로 일했습니다.

목차

  • 1. 마르코프 의사결정과정 (Markov decision process)
    1-1. 마르코프 의사결정과정 (Markov decision process)
    1-2. 상태전이분포 (state transition probability)
    1-3. 정책 (policy)
    1-4. 보상 (reward)
    1-5. 상태전이도표 (state transition diagram)
    1-6. 에피소드 (episode)
    1-7. 반환값 (return)
    1-8. 목적함수 (objective function) 및 정책의 순위
    1-9. 최적정책 (optimal policy)
    1-10. 마르코프 의사결정문제 (Markov decision problem)
    1-11. 정상상태분포 (stationary state distribution)
    1-12 온폴리시 분포 (on-policy distribution)
    2. 가치함수와 Q함수 (value function and Q-function)
    2-1. 가치함수 (value function)
    2-2. Q함수 (Q-function)
    2-3. 여러가지 중요한 관계식들
    2-4. 이점함수 (advantage function)
    2-5. 정책의 순위와 가치함수의 관계
    3. 벨만등식과 벨만연산자 (Bellman equation and Bellman operator)
    3-1. 연산자 (operator)
    3-2. 벨만등식 (Bellman equation)
    3-3. V-벨만등식 (V-Bellman equation)
    3-4. Q-벨만등식 (Q-Bellman equation)
    3-5. 최적 V-벨만등식 (optimal V-Bellman equation)
    3-6. 최적 Q-벨만등식 (optimal Q -Bellman equation)
    4. 동적계획법 (dynamic programming, DP)
    4-1. 정책반복 (policy iteration, PI)
    4-2. 최적 가치함수와 최적정책의 관계
    4-3. 가치반복 (value iteration, VI)
    5. 수학적 배경지식
    5-1. 최적화 (optimization)
    5-2. 경사하강법 또는 그레디언트 디센트 (gradient descent method)
    5-3. 확률적 경사하강법 또는 확률적 그레디언트 디센트 (stochastic gradient descent method, SGD)
    5-4. 회기문제 (regression problem)
    6. 몬테카를로 학습 (Monte Calro learning, MC learning)
    6-1. 강화학습이란?
    6-2. 확률적 근사 (stochastic approximation)
    6-3. 일괄처리방식 MC추정 (batch Monte Calro prediction, batch MC prediction)
    6-4. MC추정에서 탐색문제 (exploration issue in MC prediction)
    6-5. 순차처리방식 MC추정 (recursive Monte Calro prediction, recursive MC prediction)
    6-6. 순차처리방식 MC추정의 회기문제 및 그레디언트 (regression and gradient)관점
    6-7. Q함수 추정을 위한MC추정 (MC prediction for Q-function estimation)
    6-8. MC추정에서 Q함수 추정시 발생하는 탐색문제
    6-9. 함수 근사화기반 MC추정
    6-10. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (정책평가시)
    6-11. MC제어 알고리즘 (MC control)
    6-12. 온폴리시 (on-policy) vs 오프폴리시 (off-policy) 학습 (최적정책설계시)
    7. TD학습 (temporal difference learning, TD learning)
    7-1. TD학습 개요 (introduction to TD learning)
    7-2. TD추정 (temporal difference prediction, TD prediction)
    7-3. TD추정의 직관적 이해
    7-4. TD추정의 회기문제 및 확률적 그레디언트 관점
    7-5. TD추정의 동적계획법 관점
    7-6. 함수근사를 사용한 TD추정
    7-7. 오프폴리시 TD추정
    7-8. TD추정의 탐색문제
    7-9. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
    7-10. Q함수를 위한 TD추정 (SARSA)
    7-11. 함수근사화 기반 SARSA 및 오프폴리시 SARSA
    7-12. 기대값 SARSA (expected SARSA)
    7-13. SARSA 제어 (SARSA control)
    7-14 기대값 SARSA 제어 (expected SARSA control)
    8. Q학습 (Q-learning)
    8-1. Q학습 개요 (introduction to Q-learning)
    8-2. Q학습의 MC학습기반 해석
    8-3. Q학습의 회귀문제 관점
    8-4. Q학습의 동적계획법 관점
    8-5. 함수근사화를 이용한 Q학습
    8-6. Q학습의 과대평가문제 (overestimation issue)
    8-7. 더블 Q학습 (double Q-learning)
    8-8. 잔차 학습법 (residual method)과 중복 샘플링 문제 (double sampling issue)
    8-9. 심층 Q학습 (deep Q-learning 또는 deep Q-network, DQN)
    8-10. 심층 더블 Q학습 (deep double Q-learning 또는 deep double Q-network, D2QN)
    9. 정책 그레디언트 (Policy gradient, PG)
    9-1. 정책 그레디언트 정리 (policy gradient theorem)
    9-2. 정책 그레디언트의 확률적 근사화기법
    9-3. 정책 그레디언트 알고리즘 (policy gradient algorithm)
    9-4. 정책함수 매개변수화 (policy parameterization)
    9-5. 정책 그레디언트 알고리즘의 직관적 이해
    9-6. 기준선 (baseline) 기법
    10. 행위자-비평자 (actor-critic) 알고리즘
    10-1. Q함수 기반 행위자-비평자 (Q actor-critic) 알고리즘
    10-2. 이점함수 기반 행위자-비평자 (advantage actor-critic) 알고리즘
    10-3. 연속적인 행동공간에서 정책 그레디언트 (policy gradient with continuous action-space)
    10-4. 확정적 정책 그레디언트 (deterministic policy gradient, DPG)
    10-5. 심층 확정적 정책 그레디언트 (deep deterministic policy gradient, DDPG)

출판사 서평

이 책은 강화학습의 기초부터 탄탄한 수학적 원리를 통해 알고리즘의 핵심을 깊이 있게 파헤치는 작품입니다. 강화학습에 처음 입문하는 독자부터 수학적 배경을 갖춘 이공계 학생 및 실무 엔지니어에 이르기까지, 다양한 계층의 독자들이 체계적인 이론과 실습을 통해 인공지능의 근간을 다질 수 있도록 돕습니다.
저자는 최신 기법보다도 본질적인 고전 이론에 집중하여, 독자들이 강화학습의 기반 원리를 명확히 이해할 수 있도록 안내합니다. 복잡한 수학적 개념들을 친절한 해설과 예제를 통해 풀어내며, 이를 통해 단순 암기가 아닌 원리의 체득을 유도합니다. 또한, 독자만의 독창적인 시각을 제시하여 기존의 틀을 벗어난 새로운 통찰력을 제공합니다.
이 책은 단순한 기술서적을 넘어, 인공지능 분야에서 필수적인 수학적 사고와 논리적 분석 능력을 기르고자 하는 이들에게 꼭 필요한 길잡이 역할을 할 것입니다. 강력한 이론적 토대와 함께 실전 적용 능력을 높이고자 하는 모든 분들께 자신 있게 추천합니다.

기본정보

상품정보 테이블로 ISBN, 발행(출시)일자 , 쪽수, 크기, 총권수을(를) 나타낸 표입니다.
ISBN 9791199117105
발행(출시)일자 2025년 03월 31일
쪽수 315쪽
크기
188 * 240 mm
총권수 1권

Klover 리뷰 (0)

구매 후 리뷰 작성 시, e교환권 200원 적립

Klover리뷰를 작성해 보세요.

문장수집 (0)

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 "좋아요“ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다.
리워드 안내
구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)

구매 후 리뷰 작성 시, e교환권 100원 적립

이 책의 첫 기록을 남겨주세요.

교환/반품/품절 안내

  • 반품/교환방법

    마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환 신청, [1:1 상담 > 반품/교환/환불] 또는 고객센터 (1544-1900)
    * 오픈마켓, 해외배송 주문, 기프트 주문시 [1:1 상담>반품/교환/환불] 또는 고객센터 (1544-1900)
  • 반품/교환가능 기간

    변심반품의 경우 수령 후 7일 이내,
    상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
  • 반품/교환비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
  • 반품/교환 불가 사유

    1) 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
    2) 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
    3) 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
    4) 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
    5) 디지털 컨텐츠인 ebook, 오디오북 등을 1회이상 ‘다운로드’를 받았거나 '바로보기'로 열람한 경우
    6) 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
    7) 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
    8) 세트상품 일부만 반품 불가 (필요시 세트상품 반품 후 낱권 재구매)
    9) 기타 반품 불가 품목 - 잡지, 테이프, 대학입시자료, 사진집, 방통대 교재, 교과서, 만화, 미디어전품목, 악보집, 정부간행물, 지도, 각종 수험서, 적성검사자료, 성경, 사전, 법령집, 지류, 필기구류, 시즌상품, 개봉한 상품 등
  • 상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
  • 소비자 피해보상 환불 지연에 따른 배상

    1) 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁 해결 기준 (공정거래위원회 고시)에 준하여 처리됨
    2) 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

기분 좋은 발견

이 분야의 신간

삶의 실력, 장자
이벤트
  • 교보 오리지널 오디오북 할인
  • 소설 할인 스테이션
01 / 02
TOP