바닥부터 배우는 강화 학습
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)
15,000원 미만 시 2,500원 배송비 부과
20,000원 미만 시 2,500원 배송비 부과
15,000원 미만 시 2,500원 배송비 부과
1Box 기준 : 도서 10권
로그아웃 : '서울시 종로구 종로1' 주소 기준
이달의 꽃과 함께 책을 받아보세요!
1권 구매 시 결제 단계에서 적용 가능합니다.
이 책의 이벤트
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

이 책은 강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서입니다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장 기본이 되는 개념 설명부터 실무 사례까지 한 권으로 정리했습니다.
강화 학습의 뼈대가 되는 MDP부터 딥러닝과 강화 학습이 만나는 지점 및 학습 방법론, 알파고, 알파고 제로까지 다룹니다. 나아가 유명 게임인 블레이드&소울 비무에 실제로 강화 학습을 적용하며 실무에서 얻은 팁과 노하우를 배워봅니다.
작가정보
저자(글) 노승은
민족사관고등학교 졸업
서울대학교 자유전공학부 컴퓨터공학/경제학 전공
서울대학교 융합과학기술대학원 석사
현) 엔씨소프트 GameAI랩 강화 학습 연구원
현) 강화 학습 유튜브 채널 “팡요랩” 운영
목차
- Chapter 1. 강화 학습이란
Chapter 2. 마르코프 결정 프로세스
Chapter 3. 벨만 방정식
Chapter 4. MDP를 알 때의 플래닝
Chapter 5. MDP를 모를 때 밸류 평가하기
Chapter 6. MDP를 모를 때 최고의 정책 찾기
Chapter 7. Deep RL 첫걸음
Chapter 8. 가치 기반 에이전트
Chapter 9. 정책 기반 에이전트
Chapter 10. 알파고와 MCTS
Chapter 11. 블레이드&소울 비무 AI 만들기
추천사
-
강화 학습은 고전적인 이론들이 바탕이 되면서도 문제마다 적절한 해결 방안이 다른 매우 재미있는 분야입니다. 딥러닝과 접목된 이후 방대한 분야에서 활용되고 있는 현 시점에, ‘바닥부터 배우는 강화 학습’은 많은 분들에게 기초 이론과 그 응용을 위한 최고의 입문서가 될 것입니다
-
현업의 강화 학습 전문가가 전하는 강화 학습의 생생한 이야기. 친절한 설명과 자세한 디테일을 동시에 겸비한 책. 강화 학습의 이론적인 기초부터 실무적인 사례까지 폭넓게 다루고 있습니다.
-
아주 직관적인 말과 예시로 강화 학습의 핵심 기초를 촘촘히 모아두었습니다. 유행하는 최신 기법들은 언제나 빠르게 생겨나지만 근간이 되는 기초는 결코 쉽게 변하지 않는다는 점에서, 이 책은 오랜 시간이 흘러도 그 가치를 잃지 않을 소중한 책이 될 것입니다. 강화 학습을 꿈꾸는 이들에게 가히 최고의 책이 아닐 수 없습니다.
출판사 서평
[구성 소개]
Chapter 1. 강화 학습이란
바둑에서 시작하여 게임, 금융, 로봇까지 수많은 분야에서 강화학습을 통해 전례 없는 수준의 AI가 만들어졌습니다. 기존 학습 방법론과 어떤 차이가 있었기에 이런 도약이 가능했을까요? 그에 대한 답은 강화 학습이 무엇인가라는 작은 이야기부터 시작합니다.
Chapter 2. 마르코프 결정 프로세스
문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 합니다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP(Markov Decision Process)의 형태로 만들어야 합니다. MDP에 대해 속속들이 알아봅니다.
Chapter 3. 벨만 방정식
대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발합니다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식입니다. 벨만 기대 방정식과 벨만 최적 방정식이라는 두 종류의 방정식을 배워봅니다.
Chapter 4. MDP를 알 때의 플래닝
벨만 방정식 학습으로 간단한 MDP를 풀 수 있습니다. 벨만 방정식을 반복적으로 적용하는 방법론을 통해 아주 간단한 MDP를 직접 풀어봅니다.
Chapter 5. MDP를 모를 때 밸류 평가하기
MDP의 전이 확률과 보상 함수를 모를 때에 대한 이야기가 시작됩니다. 주어진 수식을 이용해 정확한 값을 계산하는 대신, 수많은 샘플을 통해 근사하는 “샘플 기반 방법론”을 배워봅니다.
Chapter 6. MDP를 모를 때 최고의 정책 찾기
Control 문제를 해결할 차례입니다. 밸류를 계산할 수 있기 때문에 이를 이용해 정책을 찾는 것은 한결 쉽습니다. 그 유명한 Q러닝을 배워봅니다.
Chapter 7. Deep RL 첫걸음
커다란 MDP의 세계를 항해하기 위해서 우리에게는 또 다른 무기가 하나 필요합니다. 바로 “딥러닝” 입니다. 딥러닝과 강화 학습이 만나 Deep RL이라는 유연하고도 범용적인 방법론이 탄생합니다. 먼저 딥러닝에 대한 이야기부터 시작합니다.
Chapter 8. 가치 기반 에이전트
신경망을 이용해 액션 밸류 네트워크를 학습하면 그게 곧 하나의 에이전트가 될 수 있습니다. 아타리 게임을 플레이 하던 DQN이 바로 이 방식입니다. 가치 함수만을 가지고 움직이는 에이전트, 즉 가치 기반 에이전트에 대해 알아보겠습니다.
Chapter 9. 정책 기반 에이전트
딥러닝과 정책 함수가 결합하면 강력한 정책 네트워크를 만들어 냅니다. 보상 및 밸류 네트워크를 이용해 직접적으로 정책 네트워크를 학습하는 방법에 대해 알아보겠습니다. 이는 수많은 최신 강화 학습 알고리즘의 뿌리가 되는 방법론입니다.
Chapter 10. 알파고와 MCTS
인류 최고의 바둑 기사를 이긴 AI를 만드는 과정도 분해해서 생각하면 간단한 방법론들의 조합입니다. 이제 한 걸음만 더 가면 알파고를 완전히 이해할 수 있습니다. 그 마지막 한 조각인 MCTS를 소개하고, 이를 통해 알파고를 낱낱이 분해합니다.
Chapter 11. 블레이드&소울 비무 AI 만들기
복잡한 실시간 격투 게임에 강화 학습을 적용하는 일은 어떤 과정을 거칠까요? 블레이드&소울에 강화 학습을 적용하여 에이전트를 학습시키는 과정과 시행착오에 대해 소개합니다.
기본정보
ISBN | 9788931463170 |
---|---|
발행(출시)일자 | 2020년 09월 15일 |
쪽수 | 304쪽 |
크기 |
153 * 225
* 20
mm
/ 571 g
|
총권수 | 1권 |
Klover 리뷰 (17)
구매 후 리뷰 작성 시, e교환권 200원 적립
사용자 총점
38%의 구매자가
집중돼요 라고 응답했어요
집중돼요
도움돼요
쉬웠어요
최고예요
추천해요
문장수집 (1)
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)
구매 후 리뷰 작성 시, e교환권 100원 적립
-
반품/교환방법
* 오픈마켓, 해외배송 주문, 기프트 주문시 [1:1 상담>반품/교환/환불] 또는 고객센터 (1544-1900) -
반품/교환가능 기간
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내 -
반품/교환비용
-
반품/교환 불가 사유
(단지 확인을 위한 포장 훼손은 제외)
2) 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
3) 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
4) 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
5) 디지털 컨텐츠인 ebook, 오디오북 등을 1회이상 ‘다운로드’를 받았거나 '바로보기'로 열람한 경우
6) 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
7) 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
8) 세트상품 일부만 반품 불가 (필요시 세트상품 반품 후 낱권 재구매)
9) 기타 반품 불가 품목 - 잡지, 테이프, 대학입시자료, 사진집, 방통대 교재, 교과서, 만화, 미디어전품목, 악보집, 정부간행물, 지도, 각종 수험서, 적성검사자료, 성경, 사전, 법령집, 지류, 필기구류, 시즌상품, 개봉한 상품 등 -
상품 품절
-
소비자 피해보상 환불 지연에 따른 배상
2) 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함
상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)
기분 좋은 발견
이 분야의 베스트
이 분야의 신간
-
구글 코랩으로 배우는 인공지능 기술10% 37,080 원
-
미드저니 마스터 바이블10% 29,700 원
-
AI 낙관론과 비관론(큰글자책)10% 22,500 원
-
AI 낙관론과 비관론10% 10,800 원
-
진짜 챗GPT 활용법10% 18,000 원