본문 바로가기

추천 검색어

실시간 인기 검색어

R을 활용한 머신러닝

데이터 준비부터 모델 조정, 평가, 빅데이터 작업까지 | 4 판
데이터 과학
브레트 란츠 저자(글) · 이병욱 번역
에이콘출판 · 2024년 01월 24일
가장 최근에 출시된 개정판입니다. 구판보기
10.0
10점 중 10점
(1개의 리뷰)
최고예요 (100%의 구매자)
  • R을 활용한 머신러닝 대표 이미지
    R을 활용한 머신러닝 대표 이미지
  • A4
    사이즈 비교
    210x297
    R을 활용한 머신러닝 사이즈 비교 188x236
    단위 : mm
01 / 02
무료배송 소득공제
10% 43,200 48,000
적립/혜택
2,400P

기본적립

5% 적립 2,400P

추가적립

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 2,400P
  • 리뷰 작성 시, e교환권 추가 최대 300원
배송안내
무료배송
배송비 안내
국내도서/외국도서
도서 포함 15,000원 이상 구매 시 무료배송
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)

15,000원 미만 시 2,500원 배송비 부과

교보Only(교보배송)
각각 구매하거나 함께 20,000원 이상 구매 시 무료배송

20,000원 미만 시 2,500원 배송비 부과

해외주문 서양도서/해외주문 일본도서(교보배송)
각각 구매하거나 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

업체배송 상품(전집, GIFT, 음반/DVD 등)
해당 상품 상세페이지 "배송비" 참고 (업체 별/판매자 별 무료배송 기준 다름)
바로드림 오늘배송
업체에서 별도 배송하여 1Box당 배송비 2,500원 부과

1Box 기준 : 도서 10권

그 외 무료배송 기준
바로드림, eBook 상품을 주문한 경우, 플래티넘/골드/실버회원 무료배송쿠폰 이용하여 주문한 경우, 무료배송 등록 상품을 주문한 경우
주문정보를 불러오는 중입니다.
기본배송지 기준
배송일자 기준 안내
로그인 : 회원정보에 등록된 기본배송지
로그아웃 : '서울시 종로구 종로1' 주소 기준
로그인정확한 배송 안내를 받아보세요!

이달의 꽃과 함께 책을 받아보세요!

1권 구매 시 결제 단계에서 적용 가능합니다.

알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

북카드

키워드 Pick

키워드 Pick 안내

관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

이 책은 모두 15개의 장으로 구성돼 머신러닝의 각종 개념의 설명과 함께 실제로 데이터를 다룰 때 발생하는 여러 문제점과 그 문제점을 해결할 수 있는 실질적 방안을 제공하고 있다.
1장은 머신러닝의 전체 개념을 설명해 주고, 2장부터 9장까지는 최근접 이웃, 나이브 베이즈, 회귀기법, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신, 연관 규칙을 사용한 시장 바스켓 분석, 신경망, K-평균화를 사용한 군집화 등 머신러닝에서 보편적으로 사용되는 반드시 알아야 하는 여러 개념들을 자세히 그러나 비유를 통해 친절하게 설명하고 있다.

모든 장에서 설명한 개념을 실제로 수행해 볼 수 있는 예제가 R로 제공되며, 심화학습을 위한 참고 도서를 알려 준다.
한편 각종 예제는 3판에 비해 예제 자체가 신설 혹은 보강되거나 설명이 대폭 보강됐다.

10장은 특히 모델의 성능을 평가하는 여러 방법과 그 장단점을 설명하며 구축된 모델을 현업에 배포하는 것이 적절한지에 대해 이야기한다.
11장부터는 모델을 실세계에 배포하기 위해 고려해야 하는 여러 사항과 함께 데이터를 준비하고 그 무결성 여부에 따라 처리해야 하는 여러 기법을 설명한다.
특히 15장에서는 빅데이터란 무엇인지 빅데이터를 다룰 때 발생할 수 있는 여러 고려 사항들과 함께 그를 극복하기 위해서는 어떤 점을 유념해야 하는지에 대해 다루고 있다.

작가정보

저자(글) 브레트 란츠

(Brett Lantz)
혁신적인 데이터 방법을 사용해 인간 행동을 이해하는 데 15년 이상을 보냈다. 사회학자 출신으로 처음에는 대학생들의 소셜 네트워크 프로필의 대규모 데이터베이스를 연구하는 동안 머신러닝에 매료됐다. DataCamp 강사로, 전 세계에서 머신러닝 워크숍에 참여했다. 스포츠, 비디오 게임, 자율주행차량, 외국어 학습 등 다양한 주제에 대한 데이터 과학 애플리케이션에 열중하며 이와 관련해 dataspelunking.com에서 블로그를 작성하기를 원하고 있다.

번역 이병욱

서울과학종합대학교 AI첨단대학원 주임교수
한국과학기술원(KAIST) 겸직교수
한국금융연수원 겸임교수
인공지능연구원(AIRI) 부사장
금융위원회 금융규제혁신회의 위원
금융위원회 법령해석심의위원회 위원
금융위원회 적극행정위원회 위원
금융위원회 디지털자산 자문위원
한국산업기술진흥원(KIAT) ‘규제자유특구 분과위원회’ 위원
과기정통부 우정사업본부 정보센터 네트워크 & 블록체인 자문위원
한국과학기술원(KAIST) 전산학과
전) BNP 파리바 카디프 전무
전) 삼성생명 마케팅 개발 수석
전) 보험넷 Founder & CEO
전) LG전자 연구원

서울과학종합대학원 AI전략경영 주임교수와 카이스트 겸직교수 그리고 한국금융연수원 겸임교수를 맡고 있으며, 인공지능연구원(AIRI)의 부사장으로도 재직 중이다. 한국과학기술원KAIST 전산학과 계산 이론 연구실에서 공부했으며 공학을 전공한 금융 전문가로, 세계 최초의 핸드헬드-PC(Handheld-PC) 개발에 참여해 한글 윈도우 CE 1.0과 2.0을 미국 마이크로소프트 본사에서 공동 개발했다. 1999년에는 전 보험사 보험료 실시간 비교 서비스를 제공하는 핀테크 전문회사 ㈜보험넷을 창업했고 이후 삼성생명을 비롯한 생명보험사 및 손해보험사에서 CMO(마케팅총괄 상무), CSMO(영업 및 마케팅 총괄 전무) 등을 역임하면서 혁신적인 상품과 서비스를 개발, 총괄했다.
세계 최초로 파생상품인 ELS를 기초 자산으로 한 변액 보험을 개발해 단일 보험 상품으로 5천억 원 이상 판매되는 돌풍을 일으켰고, 매일 분산 투자하는 일 분산 투자(daily Averaging) 변액 보험을 세계 최초로 개발해 상품 판매 독점권을 획득했다. 인공지능 연구원에서 머신러닝 기반의 금융 솔루션 개발에 관련된 다양한 활동을 하고 있으며 금융위원회, 금융정보분석원 등에 다양한 자문을 하고 있다.
저서로는 『비트코인과 블록체인, 탐욕이 삼켜버린 기술』(에이콘, 2018)과 대한민국학술원이 2019 교육부 우수학술도서로 선정한 『블록체인 해설서』(에이콘, 2019)와 2022년 문체부의 세종도서로 선정된 『돈의 정체』(에이콘, 2019), 한국금융연수원의 핀테크 전문 교재인 『헬로, 핀테크!』(공저, 2020), 『헬로, 핀테크! - 인공지능 편』(2021)이 있다.

작가의 말

머신러닝은 핵심적으로 데이터를 실행 가능한 지능으로 변환하는 알고리듬을 기술한다. 이 사실은 머신러닝을 현대의 빅데이터 시대에 적합하게 만든다. 머신러닝이 없다면 우리 주변의 거대한 정보 스트림을 이해하는 것은 거의 불가능할 것이다.
R은 크로스플랫폼이며 비용이 들지 않는 통계 프로그래밍 환경을 제공해서 머신러닝을 시작하는 이상적인 방법을 구축해준다. R은 강력하지만 배우기 쉬운 도구를 제공해 데이터에서 통찰을 찾는 데 도움을 준다.
이 책은 이러한 알고리듬이 어떻게 작동하는지 이해하고자 필요한 필수 이론과 실전 사례 연구를 결합해 머신러닝을 시작하고 프로젝트에 이를 적용할 수 있는 모든 지식을 제공한다.

목차

  • 01장. 머신러닝 소개
    __머신러닝의 기원
    __머신러닝의 사용과 남용
    ____머신러닝 성공 사례
    ____머신러닝의 한계
    ____머신러닝의 윤리
    __기계의 학습 방법
    ____데이터 저장소
    ____추상화
    ____일반화
    ____평가
    __실전 머신러닝
    ____입력 데이터 타입
    ____머신러닝 알고리듬 형식
    ____입력 데이터와 알고리듬 매칭
    __R을 이용한 머신러닝
    ____R 패키지 설치
    ____패키지 로딩과 언로딩
    ____RStudio 설치
    ____왜 R인가 왜 지금 R인가?
    __요약


    02장. 데이터의 관리와 이해
    __R 데이터 구조
    ____벡터
    ____팩터
    ____리스트
    ____데이터 프레임
    ____행렬과 배열
    __R을 이용한 데이터 관리
    ____데이터 구조 저장, 로드, 제거
    ____CSV 파일에서 데이터 가져오기와 저장하기
    ____Rstudio를 이용한 일반적 데이터 세트 형식 가져오기
    __데이터 탐색과 이해
    ____데이터 구조 탐색
    ____수치 변수 탐색
    ______중심 경향 측정: 평균과 중앙값
    ______퍼짐 측정: 사분위수와 다섯 숫자 요약
    ______수치 변수 시각화: 상자그림
    ______수치 변수 시각화: 히스토그램
    ______수치 데이터의 이해: 균등 분포와 정규 분포
    ______퍼짐 측정: 분산과 표준 편차
    ____범주 특징 탐색
    ______중심 경향 측정: 최빈값
    ____특징 간의 관계 탐색
    ______관계 시각화: 산포도
    ______관계 관찰: 이원교차표
    __요약


    03장. 게으른 학습: 최근접 이웃을 사용한 분류
    __최근접 이웃 분류의 이해
    ____k-NN 알고리듬
    ______거리로 유사도 측정
    ______적절한 k 선택
    ______k-NN 사용을 위한 데이터 준비
    ____k-NN 알고리듬이 게으른 이유
    __예제: k-NN 알고리듬으로 유방암 진단
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______변환: 수치 데이터 정규화
    ______데이터 준비: 훈련 및 테스트 데이터 세트 생성
    ____단계 3: 데이터로 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    ______변환: z-점수 표준화
    ______K의 대체 값 테스트
    __요약


    04장. 확률적 학습: 나이브 베이즈 분류
    __나이브 베이즈 이해
    ____베이지안 기법의 기본 개념
    ______확률의 이해
    ______결합 확률의 이해
    ______베이즈 정리를 이용한 조건부 확률 계산
    ____나이브 베이즈 알고리듬
    ______나이브 베이즈를 이용한 분류
    ______라플라스 추정량
    ______나이브 베이즈에서 수치 특성 이용
    __예제: 나이브 베이즈 알고리듬을 이용한 휴대폰 스팸 필터링
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______데이터 준비: 텍스트 데이터 정리와 표준화
    ______데이터 준비: 텍스트 문서를 단어로 나누기
    ______데이터 준비: 훈련 및 테스트 데이터 세트 생성
    ______텍스트 데이터 시각화: 단어 구름
    ______데이터 준비: 자주 사용하는 단어의 지시자 특징 생성
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    __요약


    05장. 분할 정복: 의사결정 트리와 규칙 기반의 분류
    __의사결정 트리의 이해
    ____분할 정복
    ____C5.0 의사결정 트리 알고리듬
    ______최고의 분할 선택
    ______의사결정 트리 가지치기
    __예제: C5.0 의사결정 트리를 이용한 위험 은행 대출 식별
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______데이터 준비: 랜덤한 훈련 및 테스트 데이터 세트 생성
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    ____의사결정 트리의 정확도 향상
    ____더 비싼 실수
    __분류 규칙 이해
    ____분리 정복
    ____1R 알고리듬
    ____리퍼 알고리듬
    ____의사결정 트리에서 규칙 구성
    ____무엇이 트리와 규칙을 탐욕스럽게 만드는가?
    __예제: 규칙 학습자를 이용한 독버섯 식별
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    __요약


    06장. 수치 데이터 예측: 회귀 방법
    __회귀의 이해
    ____단순 선형 회귀
    ____일반 최소 제곱 추정
    ____상관관계
    ____다중 선형 회귀
    ____일반화 선형 모델과 로지스틱 회귀
    __예제: 선형 회귀를 사용한 자동차 보험금 청구 예측
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______특징 간의 관계 탐색: 상관관계 행렬
    ______특징 간 관계 시각화: 산포도 행렬
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    ______모델 명시: 비선형 관계 추가
    ______모델 명시: 상호작용 영향 추가
    ______모두 합치기: 개선된 회귀 모델
    ______회귀 모델로 예측하기
    ______심화: 로지스틱 회귀를 사용해 보험 가입자 이탈 예측하기
    __회귀 트리와 모델 트리의 이해
    ____트리에 회귀 추가
    __예제: 회귀 트리와 모델 트리로 와인 품질 평가
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ____단계 3: 데이터에 대한 모델 훈련
    ______의사결정 트리 시각화
    ____단계 4: 모델 성능 평가
    ______평균 절대 오차로 성능 측정
    ____단계 5: 모델 성능 개선
    __요약


    07장. 블랙박스 방법: 신경망과 서포트 벡터 머신
    __신경망의 이해
    ____생물학적 뉴런에서 인공 뉴런으로
    ____활성 함수
    ____네트워크 토폴로지
    ______계층 수
    ______정보 이동 방향
    ______계층별 노드 개수
    ____역전파로 신경망 훈련
    __예제: ANN으로 콘크리트 강도 모델링
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ____단계 3: 데이터 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    __서포트 벡터 머신의 이해
    ____초평면을 이용한 분류
    ______선형적으로 분리 가능한 데이터의 경우
    ______비선형적으로 분리 가능한 데이터의 경우
    ____비선형 공간을 위한 커널의 사용
    __예제: SVM으로 OCR 수행
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 향상
    ______SVM 커널 함수 변경
    ______최적 SVM 비용 파라미터 알아내기
    __요약


    08장. 패턴 찾기: 연관 규칙을 이용한 장바구니 분석
    __연관 규칙의 이해
    ____연관 규칙 학습을 위한 아프리오리 알고리듬
    ____규칙 흥미 측정: 지지도와 신뢰도
    ____아프리오리 원칙을 이용한 규칙 집합의 구축
    __예제: 연관 규칙으로 자주 구매되는 식료품 식별
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______데이터 준비: 거래 데이터를 위한 희소 행렬 생성
    ______아이템 지지도 시각화: 아이템 빈도 그래프
    ______거래 데이터 시각화: 희소 행렬 도표화
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    ______연관 규칙 집합 정렬
    ______연관 규칙의 부분집합 구하기
    ______연관 규칙을 파일이나 데이터 프레임에 저장하기
    ______더 효율적인 실행을 위해 Eclat 알고리듬을 사용하기
    __요약


    09장. 데이터 그룹 찾기: k-평균 군집화
    __군집화의 이해
    ____머신러닝 작업으로서 군집화
    ____군집화 알고리듬의 클러스터
    ____k-평균 군집화 알고리듬
    ______거리 이용해 클러스터 할당 및 수정
    ______적절한 클러스터 개수 선택
    __k-평균 군집화를 이용한 10대 시장 세분화 발굴
    ____단계 1: 데이터 수집
    ____단계 2: 데이터 탐색과 준비
    ______데이터 준비: 결측치 더미 코딩
    ______데이터 준비: 결측치 대체
    ____단계 3: 데이터에 대한 모델 훈련
    ____단계 4: 모델 성능 평가
    ____단계 5: 모델 성능 개선
    __요약


    10장. 모델 성능 평가
    __분류 성능 측정
    ____분류기의 예측 이해
    ____혼동 행렬 자세히 보기
    ____혼동 행렬을 사용한 성능 측정
    ____정확도를 넘어: 다른 상능 측도
    ______카파 통계량
    ______매튜의 상관 계수
    ______민감도와 특이도
    ______정밀도와 재현율
    ______F-측도
    __ROC 곡선으로 성능 트레이드오프 시각화
    ____ROC 곡선 비교
    ____ROC 곡선하 영역
    ____ROC 곡선의 생성과 R로 AUC 계산
    __미래의 성능 예측
    ____홀드아웃 방법
    ____교차 검증
    ____부트스트랩 샘플링
    __요약


    11장. 머신러닝으로 성공하기
    __성공적인 머신러닝 전문가를 만드는 것
    __성공적인 머신러닝 모델을 만드는 요소
    ____뻔한 예측 피하기
    ____공정한 평가 수행
    ____실세계 영향 고려
    ____모델에 신뢰 구축
    __데이터 과학에 과학을 담기
    ____R 노트북과 R 마크다운의 사용
    ____고급 데이터 탐색 수행
    ______데이터 탐색 로드맵 구축
    ______이상치 상대하기: 실세계 함정
    ______예제: 시각적 데이터 탐색에 ggplot2 사용
    __요약


    12장. 고급 데이터 준비
    __특징 공학 수행
    ____사람과 기계의 역할
    ____빅데이터와 딥러닝의 영향
    __특징 공학의 실제 적용
    ____힌트 1: 새로운 특징 브레인스토밍
    ____힌트 2: 문맥에 숨은 통찰력 찾기
    ____힌트 3: 수치 범위 변환
    ____힌트 4: 이웃의 행동 관찰
    ____힌트 5: 연계된 행 활용
    ____힌트 6: 시계열 분해
    ____힌트 7: 외부 데이터 첨부
    __R의 tidyverse 탐색
    ____tibble로 타이디 테이블 구조 만들기
    ____readr와 readxl을 사용해 사각형 파일을 더 빠르게 읽기
    ____dplyr로 데이터 준비하고 파이프하기
    ____stringr로 문자 변환
    ____lubridate를 사용한 데이터 정리
    __요약


    13장. 까다로운 데이터: 너무 많고, 너무 적고, 너무 복잡
    __고차원 데이터의 과제
    ____특징 선택 적용
    ______필터 기법
    ______래퍼 기법과 임베디드 기법
    ______예제: 특징 선택에 단계적 회귀 사용
    ______예제: Boruta를 사용한 특징 선택
    ____특징 추출 수행
    ______주성분 분석 이해
    ______예제: PCA를 사용해 고차원 소셜 미디어 데이터 축소
    __희소 데이터 사용
    ____희소 데이터 식별
    ____예제: 희소 범주형 데이터 재매핑
    ____예제: 희소 숫자 데이터 빈 만들기
    __누락된 데이터 처리
    ____누락된 데이터의 유형 이해
    ____결측값 대치 수행
    ______결측값 표시기가 있는 단순 대치
    ______결측값 패턴
    __불균형 데이터 문제
    ____데이터 군형 조정을 위한 간단한 전략
    ____SMOTE를 사용해 합성 균형 데이터 세트 생성
    ______예제: R에서 SMOTE 알고리듬 적용
    ____균형이 항상 더 나은지 고려
    __요약


    14장. 더 나은 학습자 구축
    __더 나은 성능을 위해 기본 모델 조정
    ____하이퍼파라미터 튜닝의 범위 결정
    ____예제: caret를 사용한 튜닝 자동화
    ____간단히 튜닝된 모델 만들기
    ____맞춤형 튜닝 프로세스
    __앙상블을 통한 모델 성능 개선
    ____앙상블 학습의 이해
    ____인기 있는 앙상블 기반 알고리듬
    ______배깅
    ______부스팅
    ______랜덤 포레스트
    ______그래디언트 부스팅
    ______XGBoost를 사용한 익스트림 그래디언트 부스팅
    ______트리 기반 앙상블이 인기 있는 이유
    __메타학습을 위한 모델 쌓기
    ____모델 쌓기와 혼합 이해
    ____R에서의 블렌딩 및 스태킹을 위한 실용적인 방법
    __요약


    15장. 빅데이터 활용
    __딥러닝의 실제 적용
    ____딥러닝으로 시작하기
    ______딥러닝을 위한 적절한 과제 선택
    ______텐서플로와 케라스 딥러닝 프레임워크
    ____컨볼루션 신경망의 이해
    ______전이 학습과 미세 튜닝
    ______예제: R에서 사전 훈련된 CNN을 사용한 이미지 분류
    __비지도학습과 빅데이터
    ____고차원적 개념을 임베딩으로 표현
    ______단어 임베딩 이해
    ______예제: R에서 텍스트를 이해하기 위한 word2vec 사용
    ____고차원 데이터 시각화
    ______빅데이터 시각화를 위한 PCA 사용의 한계
    ______t-SNE 알고리듬 이해
    ______예제: t-SNE로 데이터의 자연적 클러스터 시각화
    __대규모 데이터 세트 처리에 R 적용
    ____SQL 데이터베이스에서 데이터 쿼리
    ______데이터베이스 연결 관리를 위한 정돈된 접근 방식
    ______dbplyr와 함께 dplyr용 데이터베이스 백엔드 사용
    ____병렬 처리로 더 빠르게 작업 수행
    ______R의 실행 시간 측정
    ______R에서 병렬 처리 활성화
    ______foreach와 doParallel을 통한 병렬 활용
    ______caret을 사용해 병렬로 모델 훈련과 평가
    ____특수 하드웨어와 알고리듬 활용
    ______아파치 스파크를 통한 맵리듀스 개념의 병렬 컴퓨팅
    ______H2O로 분산되고 확장 가능한 알고리듬으로 학습
    ______GPU 컴퓨팅
    __요약

출판사 서평

◈ 이 책에서 다루는 내용 ◈

◆ 머신러닝의 원시 데이터에서 구현까지의 엔드-투-엔드 과정 학습
◆ 최근접 이웃과 베이지안 기법으로 주요 결과 분류
◆ 결정트리, 규칙, 서포트 벡터 머신을 사용해 미래의 사건 예측
◆ 회귀기법으로 수치 데이터를 예측하고 금융 수치 추정
◆ 인공신경망으로 복잡한 프로세스 모델링
◆ tidyverse를 사용해 데이터를 준비, 변환, 정제
◆ 모델을 평가하고 성능을 향상
◆ R을 SQL 데이터베이스와 Spark, Hadoop, H2O, TensorFlow 등의 떠오르는 빅데이터 기술과 연결

◈ 이 책의 대상 독자 ◈

데이터에 접근하고 그 데이터를 활용하고자 하는 사업 분석가, 사회 과학자 등의 응용 분야 종사자를 대상으로 하는 책이다. 이미 머신러닝에 대해 약간 알고 있지만 R을 사용한 경험이 없을 수도 있고, 반대로 R에 대해 약간 알고 있지만 머신러닝은 처음이거나 아예 둘 다 처음일 수도 있다. 어떤 경우에도 이 책은 여러분을 빠르게 시작하게 해줄 것이다. 기본 수학과 프로그래밍 개념에 약간이라도 익숙하다면 도움이 되겠지만 사전 경험은 필요하지 않다. 필요한 것은 호기심뿐이다.

◈ 이 책의 구성 ◈

1장, ‘머신러닝 소개’에서는 머신 학습자(machine learner)를 정의하고 구분해주는 용어와 개념을 살펴보고, 학습 작업을 적절한 알고리듬에 매칭하는 방법을 제시한다.
2장, ‘데이터의 관리와 이해’에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고, 탐색하고, 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다.
3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 단순하지만 강력한 머신러닝 알고리듬을 이해하고, 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다.
4장, ‘확률적 학습: 나이브 베이즈 분류’에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심적인 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마이닝의 기초를 배울 수 있다.
5장, ‘분할 정복: 의사결정 트리와 규칙 기반의 분류’에서는 예측을 정확하고 쉽게 설명하는 2가지 학습 알고리듬을 탐색한다. 이 방법은 투명성이 중요한 작업에 적용된다.
6장, ‘수치 데이터 예측: 회귀 방법에’서는 수치 예측에 사용되는 머신러닝 알고리듬을 소개한다. 이 기법은 통계 분야에 아주 많이 포함돼 있으므로 수치 관계를 이해하는 데 필요한 필수 척도도 함께 알아본다.
7장, ‘블랙박스 방법: 신경망과 서포트 벡터 머신’에서는 복잡하고 강력한 두 종류의 머신러닝 알고리듬을 다룬다. 수학이 위협적으로 보일 수 있겠지만 내부 작동을 보여주는 예제와 함께 간단한 용어로 진행한다.
8장, ‘패턴 찾기: 연관 규칙을 이용한 장바구니 분석’에서는 많은 소매업체가 채택한 추천 시스템의 알고리듬을 접할 수 있다. 소매업체가 나의 구매 습관을 나보다 더 잘 아는 이유가 궁금한 적이 있었다면 8장에서 그 비밀을 밝혀준다.
9장, ‘데이터 그룹 찾기: k-평균 군집화’에서는 관련 아이템을 군집화하는 절차를 알아본다. 이 알고리듬을 활용해 온라인 커뮤니티에서 프로필을 식별한다.
10장, ‘모델 성능 평가’에서는 머신러닝 프로젝트의 성공 여부를 측정하고 미래 데이터에 대한 학습자의 신뢰할 만한 성능 추정치를 얻는 방법에 대해 정보를 제공한다.
11장, ‘머신러닝으로 성공하기’에서는 교과서 데이터 세트에서 실세계 머신러닝 문제로 전환할 때 마주치는 흔한 함정과 이 문제를 극복하는 데 필요한 도구, 전략, 소프트 스킬을 알아본다.
12장, ‘고급 데이터 준비’에서는 머신러닝 프로세스를 도와 의미 있는 정보를 추출하고자 대용량 데이터 세트를 다루는 데 도움이 되는 tidyverse 패키지를 소개한다.
13장, ‘까다로운 데이터: 너무 많고, 너무 적고, 너무 복잡한 데이터’에서는 유용한 정보가 거대한 데이터 세트 속에서 바늘을 찾는 것과 유사하게 유실돼 머신러닝 프로젝트를 방해할 수 있는 여러 일반적인 문제에 대한 해결책을 고려한다.
14장, ‘더 나은 학습자 구축’에서는 머신러닝 대회 리더보드 상위 팀들이 사용하는 방법을 공개한다. 경쟁심을 갖고 있거나 데이터에서 최대한의 이점을 얻고자 하는 경우 이러한 기술을 여러분의 능력에 추가해야 할 것이다.
15장, ‘빅데이터 활용’에서는 머신러닝의 최전선을 탐구한다. 매우 큰 데이터 세트를 다루는 것부터 R의 작업 속도를 높이는 것까지, 다루는 주제는 여러분이 R로 가능한 범위의 한계를 넓히는 데 도움이 될 것이며, 구글과 같은 대규모 기관에서 이미지 인식 및 텍스트 데이터 이해를 위해 개발한 정교한 도구를 활용할 수 있게 해줄 것이다.

◈ 옮긴이의 말 ◈

머신러닝에 대한 기초부터 최신의 트렌드까지 ‘꼼꼼하게’ 소개한 책이다. 4판에서는 4개의 장을 새로 보강해 머신러닝에 있어 핵심인 데이터에서 발생하는 결측치 등의 여러 문제를 어떻게 다루는지에 대해 상세히 알려준다. 동시에 빅데이터를 다루는 방법을 설명한다.
머신러닝의 기본 기법을 설명하는 기존의 여러 장도 새로운 예제를 보강하거나 추가적인 설명을 통해 더 쉽고 편하게 머신러닝을 익힐 수 있게 배려하고 있다. 각 장에 있는 여러 예제를 따라 하다 보면 자연스럽게 머신러닝의 여러 개념을 익힐 수 있다. 머신러닝에 대한 여러 입문서가 있지만 이 책은 내용의 충실성과 함께 비유를 통한 쉬운 설명을 모두 겸비한 흔치 않은 책이다. 머신러닝을 처음으로 배우려 하거나 이미 머신러닝의 기초 개념을 알고 있지만 좀 더 깊은 원리와 예제를 직접 경험하고 싶다면 이 책이 좋은 가이드가 될 것이다.

기본정보

상품정보 테이블로 ISBN, 발행(출시)일자 , 쪽수, 크기, 총권수, 시리즈명을(를) 나타낸 표입니다.
ISBN 9791161758145
발행(출시)일자 2024년 01월 24일
쪽수 932쪽
크기
188 * 236 * 54 mm / 1821 g
총권수 1권
시리즈명
데이터 과학

Klover 리뷰 (1)

구매 후 리뷰 작성 시, e교환권 200원 적립

10점 중 10점
/최고예요
R로 머신러닝을 배워보려고 책을 찾다가 거의 유일하게 괜찮은 책 같아 보여서 샀는데 내용이 너무 좋아서 리뷰를 남깁니다. 머신러닝을 파이썬으로 어느정도 사용하는 사람으로써 R로도 머신러닝을 쓰고 싶었는데 대부분의 R로 머신러닝을 설명하는 책들은 랜덤포레스트까지 밖에 나오지않았는데 xgboost까지 설명이 되어있다는 점이 아주 좋습니다. 책 페이지가 많은 만큼 저자가 많은 내용을 담으려고 하고 있고 각 방법들에 대한 다양한 사유들이 너무 좋다고 생각합니다. R로 머신러닝을 하는 책으로는 islr이 유명한 바이블인것으로 알고있는데 번역본이 보기 힘든 것으로 알고있으며 이 책이 대안으로써 최고의 선택이될것같습니다. 실제로 islr내용보다 더 알차보여서...많은 분들에게 꼭 R로 머신러닝을 다루어보고싶은데 어떻게하지?라는 생각이든다면 이 책을 추천하고싶어서 살면서 처음으로 리뷰를 씁니다. 기초부터 중고급까지는 다 커버하고있고 특히 장단점설명이나 모델설명등을 너무 잘해서 술술읽히는게 장점인것같습니다. 단점은 내용을 다 담으려 하다보니 책이 너무 두꺼워서 들고다니기 진짜(?) 힘들다는 점입니다.

문장수집 (0)

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 "좋아요“ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다.
리워드 안내
구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)

구매 후 리뷰 작성 시, e교환권 100원 적립

이 책의 첫 기록을 남겨주세요.

교환/반품/품절 안내

상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

소스 코드: 더 비기닝
이벤트
  • sam x 한샘 [똑똑한sam]
  • 2025 1학기 대학교재전
01 / 02
TOP