주머니 속의 머신러닝
도서 + 잡지 / 만화 / :K컬렉션을 함께 1만 원 이상 구매 시 무료배송
1만원 미만 시 2,000원 배송비 부과
2만원 미만 시 2,000원 배송비 부과
1만원 미만 시 2,000원 배송비 부과
중고장터 상품
1Box 기준 : 도서 10권
알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

인공지능을 구현하는 방법론 중 하나인 머신러닝에 대해 알아야 할 수학 공식이나 통계 지식이 너무 많아 압도될 때가 있습니다.
이 책은 이런 고민을 해결해 주는 책입니다. 너무 복잡하고 어려운 과정을 추상화해서 쉽게 사용하고 싶다거나, 알고리즘의 복잡한 내부를 바닥까지 이해하지는 못하더라도 머신러닝 알고리즘을 가져와 내 데이터에 바로 적용해 보고 싶을 때 사용할 수 있는 도구들을 소개하고 그 활용 방법을 알려줍니다.
다양한 데이터 분석기법 및 시각화 방법을 함축적 내용으로 소개하여, 옆에 두고 보면서 궁금한 것이 생겼을 때 찾아보는 용도로도 좋습니다.
작가정보
맷 해리슨은 파이썬과 데이터 과학을 위한 교육 및 컨설팅 회사인 MetaSnake를 운영 중이다. 2000년부터 데이터 과학, BI, 스토리지, 테스트 및 자동화, 오픈소스 스택 관리, 금융, 검색 등 다양한 도메인에서 파이썬을 활용한 경험이 많다.
인제대학교와 워싱턴 주립대학교에서 컴퓨터 공학을 전공했으며, 현재는 한국전자통신 연구원에서 컴퓨터 네트워크 분야를 연구 및 개발하고 있다. 《나만의 스마트워크 환경만들기》(비제이퍼블릭, 2020)를 집필하고, 《실전 시계열 분석》(한빛미디어, 2021)을 번역하였으며, 제이펍 출판사의 인공지능 시리즈의 디렉터로도 활동하는 등 글 쓰는 일에 관심이 많다. 또한 구글이 공인한 머신러닝 분야의 개발 전문가(Google Developers Experts for Machine Learning, ML GDE)로서 다양한 머신러닝 관련 프로젝트 및 교육자료를 만들고 있으며, 텐서플로 코리아 및 fast.ai KR 커뮤니티의 운영진 중 한 명으로 커뮤니티 발전에도 기여하고 있다.
목차
- CHAPTER 1 소개
1.1 사용된 라이브러리 2
1.2 Pip을 이용한 설치 5
1.3 Conda를 이용한 설치 7
CHAPTER 2 머신러닝 과정에 대한 개요
CHAPTER 3 분류 문제 둘러보기: 타이타닉 데이터셋
3.1 프로젝트 구조의 제안 11
3.2 필요한 패키지 12
3.3 질문을 하자 13
3.4 데이터에 관한 용어 14
3.5 데이터의 수집 15
3.6 데이터의 정리 16
3.7 특징의 생성 24
3.8 샘플 데이터 27
3.9 데이터의 대치 27
3.10 데이터의 표준화 29
3.11 리팩터링 30
3.12 베이스라인 모델 31
3.13 다양한 알고리즘 32
3.14 스태킹 34
3.15 모델 만들기 35
3.16 모델의 평가 36
3.17 모델의 최적화 37
3.18 오차 행렬 38
3.19 ROC 곡선 40
3.20 학습 곡선 41
3.21 모델의 배포 42
CHAPTER 4 누락된 데이터
4.1 누락된 데이터의 분석 46
4.2 누락된 데이터의 삭제 50
4.3 데이터의 대치 51
4.4 지시자 열의 추가 52
CHAPTER 5 데이터의 정리
5.1 열의 이름 53
5.2 누락된 값의 교체 54
CHAPTER 6 탐색
6.1 데이터의 크기 57
6.2 요약 통계 58
6.3 히스토그램 59
6.4 산점도 60
6.5 조인트 플롯 61
6.6 쌍 격자 63
6.7 박스 플롯과 바이올린 플롯 65
6.8 두 순서형 값의 비교 66
6.9 상관관계 68
6.10 라드비즈 72
6.11 평행 좌표 74
CHAPTER 7 데이터 전처리
7.1 표준화 77
7.2 범위 조정 79
7.3 더미 변수 80
7.4 레이블 인코더 82
7.5 프리퀀시 인코딩 83
7.6 문자열에서 범주 가져오기 83
7.7 그 밖의 범주형 인코딩 85
7.8 날짜형 데이터의 특징 공학 88
7.9 col_na 특징의 추가 89
7.10 수동적 특징 공학 90
CHAPTER 8 특징의 선택
8.1 공선성을 가진 열 94
8.2 라소 회귀 97
8.3 재귀적 특징 제거 99
8.4 상호 정보량 100
8.5 주성분 분석 102
8.6 특징 중요도 102
CHAPTER 9 불균형 범주의 문제
9.1 다른 평가 지표 사용하기 103
9.2 트리 기반 알고리즘과 앙상블 103
9.3 모델에 페널티 부과하기 104
9.4 소수집단 데이터 업샘플링하기 105
9.5 소수집단 데이터 생성하기 106
9.6 과반수집단 데이터를 다운샘플링하기 106
9.7 업샘플링 후 다운샘플링하기 108
CHAPTER 10 분류
10.1 로지스틱 회귀 111
10.2 나이브 베이즈 116
10.3 서포트 벡터 머신 118
10.4 K-최근접 이웃 122
10.5 디시전 트리 125
10.6 랜덤 포레스트 134
10.7 XGBoost 139
10.8 LightGBM을 사용한 그래디언트 부스팅 150
10.9 TPOT 156
CHAPTER 11 모델 선택
11.1 검증 곡선 161
11.2 학습 곡선 163
CHAPTER 12 분류용 평가 지표로 평가하기
12.1 오차 행렬 165
12.2 평가 지표 168
12.3 정확도 170
12.4 재현율 171
12.5 정밀도 171
12.6 F1 171
12.7 분류 보고서 172
12.8 ROC 173
12.9 정밀도-재현율 곡선 174
12.10 누적 이득 도표 175
12.11 리프트 곡선 177
12.12 범주의 균형 179
12.13 범주 예측 오류 180
12.14 차별 임계치 181
CHAPTER 13 모델 설명
13.1 회귀 계수 183
13.2 특징 중요도 184
13.3 LIME 184
13.4 트리 기반 모델의 해석 186
13.5 부분 의존성 도표 187
13.6 대리 모델 191
13.7 SHAP 192
CHAPTER 14 회귀
14.1 베이스라인 모델 200
14.2 선형 회귀 200
14.3 SVM 204
14.4 K-최근접 이웃 207
14.5 디시전 트리 209
14.6 랜덤 포레스트 216
14.7 XGBoost 회귀 220
14.8 LightGBM 회귀 분석 227
CHAPTER 15 회귀용 평가 지표로 평가하기
15.1 평가 지표 233
15.2 잔차 도표 236
15.3 이분산성 237
15.4 정규 잔차 238
15.5 예측 오차 도표 240
CHAPTER 16 회귀 모델의 해석
16.1 SHAP 243
CHAPTER 17 차원성 감소
17.1 PCA 250
17.2 UMAP 269
17.3 t-SNE 275
17.4 PHATE 279
CHAPTER 18 클러스터링
18.1 K-평균 285
18.2 응집 클러스터링 293
18.3 클러스터의 이해 296
CHAPTER 19 파이프라인
19.1 분류 파이프라인 303
19.2 회귀 파이프라인 306
19.3 PCA 파이프라인 307
책 속으로
이 책에서는 다양한 라이브러리를 사용한다. 이는 장점인 동시에 단점일 수 있다. 이들 중 일부는 설치가 까다롭거나 다른 라이브러리 버전과 충돌 문제가 발생할 수 있다. 모든 라이브러리를 설치해야 하는 것은 아니며, 필요한 라이브러리를 상황에 맞게 ‘그때그때 설치’하면 된다. _2p
이번에 다룰 예제에서는 질문에 대답을 하는 예측 모델을 만들고자 한다. 타이타닉호 참사에서의 생존 여부는 탑승객 및 여행의 특징으로 분류할 것이다. 간단한 프로젝트이지만, 여러 모델링 단계를 보여 주는 교육적인 도구로서의 역할을 할 것이다. 우리가 만들 모델은 탑승객의 정보를 입력받아 해당 탑승객이 타이타닉에서 생존했을지를 예측할 수 있어야 한다. 생존했는지 사망했는지, 생존이라는 레이블을 예측하기 때문에 이는 분류 문제다. _13p
이 시점에서 코드를 리팩터링한다. 보통 2개의 함수를 만드는데, 하나는 데이터 정리 작업에 대한 것이고, 다른 하나는 데이터를 학습용과 테스트용으로 분리한 다음 각 데이터셋마다 필요한 다른 변환 처리 작업을 수행하기 위한 것이다. _30p
라드비즈(RadViz) 도표는 각 표본을 원 속에 표현하는데, 원의 둘레 부분에 특징을 표시한다(그림 6-12). 값들은 정규화되어 표현된다. 각 특징마다 표본 값들에 연결된 가상의 실이 있다고 상상해 보자. 그러면 표본들은 값을 기준으로 서로의 특징 방향으로 당겨지는 형태가 된다. 이 도표는 타깃들 사이의 분리 가능성을 시각화하는 한 가지 기법이다. _72p
차원의 저주(curse of dimensionality)는 고려되어야 할 또 다른 문제다. 차원을 증가시키면 증가시킬수록 데이터의 밀도는 점점 더 희박해지며, 근접 계산(neighbor calculation)은 그 유용성을 상실하게 된다. 따라서 밀도의 빈 공간을 채워 넣기 위해서는 더 많은 데이터가 필요하고, 만약 충분한 데이터가 없다면 데이터로부터 신호(signal)을 끄집어내기가 어려워진다. _93p
클러스터링은 그룹을 여러 집단으로 분리하는 데 사용되는 비지도 머신러닝 기법이다. 비지도인 이유는 모델에 주입될 레이블이 없기 때문이다. 단지 특징들의 검사를 통해, 같은 클러스터에 속할 유사한 샘플들을 선별한다. 18장에서는 K-평균(K-means) 및 계층적 클러스터링(hierarchical clustering) 방법을 알아보고, 다양한 기법을 사용하여 타이타닉 데이터셋을 살펴본다. _285p
출판사 서평
이 책의 특징
머신러닝을 배울 때 참고하며 읽기 좋은 책
도구의 종류, 사용 방법, 각종 파라미터 등을 빠르게 훑으며 기억을 상기할 수 있는 좋은 레퍼런스 자료
머신러닝 모델의 구성 요소, 데이터와 모델의 평가 및 분석을 다양한 도구로 접근해 다각적으로 바라보는 방법을 제시
이 책의 대상 독자
머신러닝에 관심 있는 프로그래머
머신러닝의 방법론을 정립하고 싶은 분
머신러닝의 개념을 다시 한번 정리하고 싶은 분
머신러닝의 다양한 라이브러리와 시각화 방법을 알고 싶은 분
기본정보
ISBN | 9791191600001 ( 1191600009 ) | ||
---|---|---|---|
발행(출시)일자 | 2021년 04월 30일 | ||
쪽수 | 332쪽 | ||
크기 |
129 * 188
* 20
mm
/ 329 g
|
||
총권수 | 1권 | ||
시리즈명 |
제이펍의 인공지능 시리즈
|
||
원서명/저자명 | Machine Learning Pocket Reference/Matt Harrison |
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립