본문 바로가기

추천 검색어

실시간 인기 검색어

러닝 스파크

아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘
I♥Cloud 제이펍의 클라우드 시리즈 24
제이펍 · 2022년 06월 24일
가장 최근에 출시된 개정판입니다. 구판보기
9.3
10점 중 9.3점
(14개의 리뷰)
도움돼요 (33%의 구매자)
  • 러닝 스파크 대표 이미지
    러닝 스파크 대표 이미지
  • 러닝 스파크 부가 이미지1
    러닝 스파크 부가 이미지1
  • 러닝 스파크 부가 이미지2
    러닝 스파크 부가 이미지2
  • A4
    사이즈 비교
    210x297
    러닝 스파크 사이즈 비교 188x246
    단위 : mm
01 / 04
MD의 선택 무료배송 이벤트 소득공제
10% 27,000 30,000
적립/혜택
1,500P

기본적립

5% 적립 1,500P

추가적립

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 1,500P
  • 리뷰 작성 시, e교환권 추가 최대 300원
배송안내
무료배송
배송비 안내
국내도서/외국도서
도서 포함 15,000원 이상 구매 시 무료배송
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)

15,000원 미만 시 2,500원 배송비 부과

교보Only(교보배송)
각각 구매하거나 함께 20,000원 이상 구매 시 무료배송

20,000원 미만 시 2,500원 배송비 부과

해외주문 서양도서/해외주문 일본도서(교보배송)
각각 구매하거나 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

업체배송 상품(전집, GIFT, 음반/DVD 등)
해당 상품 상세페이지 "배송비" 참고 (업체 별/판매자 별 무료배송 기준 다름)
바로드림 오늘배송
업체에서 별도 배송하여 1Box당 배송비 2,500원 부과

1Box 기준 : 도서 10권

그 외 무료배송 기준
바로드림, eBook 상품을 주문한 경우, 플래티넘/골드/실버회원 무료배송쿠폰 이용하여 주문한 경우, 무료배송 등록 상품을 주문한 경우
당일배송 오늘(2/18,화) 도착
기본배송지 기준
배송일자 기준 안내
로그인 : 회원정보에 등록된 기본배송지
로그아웃 : '서울시 종로구 종로1' 주소 기준
로그인정확한 배송 안내를 받아보세요!

이달의 꽃과 함께 책을 받아보세요!

1권 구매 시 결제 단계에서 적용 가능합니다.

알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.

북카드

키워드 Pick

키워드 Pick 안내

관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

러닝 스파크 상세 이미지

책 소개

이 책이 속한 분야

스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판!
《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 출간되었습니다.
데이터가 점점 더 커지고 점점 더 빨리 생성되며 다양한 형식으로 제공되면서, 분석이나 머신러닝을 위한 대규모 처리 또한 요구되고 있습니다. 이러한 대규모 워크로드를 효율적으로 처리할 수 있는 대안이 바로 아파치 스파크입니다.
스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여줍니다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명합니다.
단계별 연습, 코드 예제와 노트북 등을 통해 다음을 수행할 수 있습니다.

■ 파이썬, SQL, 스칼라, 자바를 이용한 고차원 정형 API 학습
■ 스파크 작업과 SQL 엔진의 이해
■ 스파크 설정 및 스파크 UI를 사용하여 스파크 작업을 검사, 튜닝, 디버깅
■ JSON, 파퀘이, CSV, 에이브로, ORC, 하이브, S3, 카프카와 같은 데이터 소스에 연결
■ 정형 스트리밍을 사용하여 배치 및 스트리밍 데이터에 대한 분석 수행
■ 오픈소스 델타 레이크 및 스파크로 안정적인 데이터 파이프라인 구축
■ MLlib을 사용하여 머신러닝 파이프라인을 개발하고 MLflow를 사용하여 모델 재생산 및 배포

이 책의 총서 (23)

작가정보

저자(글) 줄스 담지

Jules S. Damji
데이터브릭스(Databricks)의 선임 개발자 애드버킷이자 MLflow의 공헌자다.

저자(글) 브룩 웨닉

Brooke Wenig
데이터브릭스의 데이터 과학 수석 컨설턴트로 일하다가 현재는 머신러닝 실무 리더로 재직하고 있다.

저자(글) 타타가타 다스

Tathagata Das
데이터브릭스의 선임 소프트웨어 엔지니어이자 아파치 스파크 커미터이면서 스파크 프로젝트 관리 위원회(PMC) 멤버다.

저자(글) 데니 리

Denny Lee
데이터브릭스의 선임 개발자 애드버킷이며, 0.6 버전부터 아파치 스파크 관련 일을 해왔다.

번역 박종영

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있으며, 시애틀에 거주 중이다. 옮긴 책으로는 《도커: 설치부터 운영까지》, 《러닝 스파크》, 《하이 퍼포먼스 스파크》(이상 제이펍)가 있다.

번역 이성수

한국 테라데이타, 쿠팡에서 데이터 엔지니어로 근무하며 데이터 웨어하우스, 데이터 엔지니어링, 데이터 분석에 관한 많은 프로젝트를 수행했다. 현재는 쿠팡에서 웹로그를 정제, 가공하여 사용자에게 제공하고, 이에 기반한 고객 행동 데이터 분석 플랫폼을 개발 및 운영하고 있다. 공저로는 《Amazon Redshift: 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기》(에이콘출판사)가 있다.

목차

  • 옮긴이 머리말 x
    베타리더 후기 xii
    추천사 xiv
    시작하며 xv
    표지에 대하여 xxi

    CHAPTER 1 아파치 스파크 소개: 통합 분석 엔진 1
    스파크의 시작 1
    아파치 스파크란 무엇인가? 4
    통합된 분석 7
    개발자의 경험 15

    CHAPTER 2 아파치 스파크 다운로드 및 시작 19
    1단계: 아파치 스파크 다운로드 19
    2단계: 스칼라 혹은 파이스파크 셸 사용 22
    로컬 머신 사용하기 24
    3단계: 스파크 애플리케이션 개념의 이해 26
    트랜스포메이션, 액션, 지연 평가 29
    스파크 UI 31
    첫 번째 단독 애플리케이션 34
    요약 42
    CHAPTER 3 아파치 스파크의 정형화 API 43
    스파크: RDD의 아래에는 무엇이 있는가 44
    스파크의 구조 확립 45
    데이터 프레임 API 48
    데이터세트 API 71
    데이터 프레임 vs 데이터세트 77
    스파크 SQL과 하부의 엔진 79
    요약 85

    CHAPTER 4 스파크 SQL과 데이터 프레임: 내장 데이터 소스 소개 86
    스파크 애플리케이션에서 스파크 SQL 사용하기 87
    SQL 테이블과 뷰 93
    데이터 프레임 및 SQL 테이블을 위한 데이터 소스 98
    요약 119

    CHAPTER 5 스파크 SQL과 데이터 프레임: 외부 데이터 소스와 소통하기 120
    스파크 SQL과 아파치 하이브 120
    스파크 SQL 셸, 비라인 및 태블로로 쿼리하기 126
    외부 데이터 소스 134
    PostgreSQL 137
    데이터 프레임 및 스파크 SQL의 고차 함수 144
    일반적인 데이터 프레임 및 스파크 SQL 작업 150
    요약 163

    CHAPTER 6 스파크 SQL과 데이터세트 164
    자바와 스칼라를 위한 단일 API 164
    데이터세트 작업 167
    데이터세트 및 데이터 프레임을 위한 메모리 관리 175
    데이터 집합 인코더 176
    데이터세트 사용 비용 178
    요약 180

    CHAPTER 7 스파크 애플리케이션의 최적화 및 튜닝 181
    효율적으로 스파크를 최적화 및 튜닝하기 181
    데이터 캐싱과 영속화 191
    스파크 조인의 종류 196
    스파크 UI 들여다보기 206
    요약 213

    CHAPTER 8 정형화 스트리밍 214
    아파치 스파크의 스트림 처리 엔진의 진화 214
    정형화 스트리밍의 프로그래밍 모델 218
    정형화 스트리밍 쿼리의 기초 220
    실행 중인 스트리밍 쿼리의 내부 227
    스트리밍 데이터 소스와 싱크 233
    데이터 트랜스포메이션 243
    상태 정보 유지 스트리밍 집계 246
    스트리밍 조인 255
    임의의 상태 정보 유지 연산 263
    성능 튜닝 272
    요약 274

    CHAPTER 9 아파치 스파크를 통한 안정적인 데이터 레이크 구축 275
    최적의 스토리지 솔루션의 중요성 275
    데이터베이스 277
    데이터 레이크 279
    레이크하우스: 스토리지 솔루션 진화의 다음 단계 282
    아파치 스파크 및 델타 레이크로 레이크하우스 구축 285
    요약 296

    CHAPTER 10 MLlib을 사용한 머신러닝 298
    머신러닝이란 무엇인가? 299
    머신러닝 파이프라인 설계 302
    하이퍼파라미터 튜닝 322
    요약 338

    CHAPTER 11 아파치 스파크로 머신러닝 파이프라인 관리, 배포 및 확장 339
    모델 관리 339
    MLlib을 사용한 모델 배포 옵션 346
    비MLlib 모델에 스파크 활용 352
    요약 358

    CHAPTER 12 에필로그: 아파치 스파크 3.0 359
    스파크 코어와 스파크 SQL 359
    정형화 스트리밍 368
    파이스파크, 판다스 UDF, 판다스 함수 API 370
    변경된 기능들 373
    요약 376

    찾아보기 379

책 속으로

2013년까지 스파크는 널리 쓰이면서 원 저작자들과 연구원(마테이 자하리아, 알리 고시, 레이놀드 신, 패트릭 웬델, 아이온 스토이카, 앤디 콘빈스키)들은 스파크 프로젝트를 아파치 소프트웨어 재단(ASF)에 이관하고, 데이터브릭스(Databricks)라는 회사를 만들었다.
데이터브릭스와 오픈소스 커뮤니티의 개발자들은 2014년 5월 ASF의 주도 아래 아파치 스파크 1.010을 릴리스하였다. 이 첫 메이저 릴리스는 데이터브릭스 및 100여 개의 상용 업체로부터 앞으로 이어질 빈번한 릴리스와 주목할 만한 기능을 이끌어낼 변화의 계기가 되었다. _4쪽

여러분은 하나의 스파크 애플리케이션을 작성함으로써 모든 것이 실행 가능해지며 전혀 다른 작업을 위해 별도의 엔진을 돌릴 필요도, 별도의 API를 배울 필요도 없게 된다. 스파크를 쓴다면 자신의 워크로드를 처리하기 위한 하나의 통합된 처리 엔진을 갖게 되는 것이다. _5쪽

개발자가 겪는 모든 기쁨 중 가장 매력적인 것 중의 하나는 생산성을 늘려 주고, 사용하기 쉽거나 이해하기 쉬운, 잘 구성된 API 집합이다. 아파치 스파크의 원칙 중 하나는 데이터의 규모에 상관없이 스칼라, 자바, 파이썬, SQL, R 등 여러 언어에 걸쳐 사용하기 쉬운 API를 개발자에게 어필하는 것이다. _15쪽

이 책의 저자 중에는 M&M을 사용하여 쿠키를 굽는 것을 좋아하는 데이터 과학자가 있으며, 그녀는 머신러닝과 데이터 과학 과정을 수강하는 미국의 여러 주(state) 출신 학생들에게 상으로 이 쿠키들을 자주 주곤 한다. 하지만 그녀는 데이터 중심주의자이기 때문에 서로 다른 주에 사는 학생들에게 적절한 비율로 M&M의 색깔이 주어지는지 확인해 보고 싶어 한다. 10만 개 이상의 데이터를 갖고 있는 파일을 읽어 들여서(각 라인은 주, M&M 색깔, 개수를 갖고 있다) 색깔과 주별로 집계하는 스파크 프로그램을 작성해보자. 이 집계된 결과는 각 주별로 학생들이 어떤 색깔의 M&M을 좋아하는지 알려줄 것이다. 완전한 파이썬 프로그램은 예제 2-1에 있다. _35쪽

데이터 캐싱과 영속화(persistence)의 차이는 무엇일까? 스파크에서는 두 단어가 서로 동의어라고 볼 수 있다. cache()와 persist()의 두 가지 API 호출이 이 기능들을 제공한다. 후자는 데이터가 저장되는 위치와 방식에 대해 좀 더 세밀한 설정 - 메모리인지 디스크인지, 직렬화를 하는지 안 하는지 - 을 제공할 수 있다. _191쪽

기본정보

상품정보 테이블로 ISBN, 발행(출시)일자 , 쪽수, 크기, 총권수, 시리즈명, 원서(번역서)명/저자명을(를) 나타낸 표입니다.
ISBN 9791191600889
발행(출시)일자 2022년 06월 24일
쪽수 404쪽
크기
188 * 246 * 24 mm / 864 g
총권수 1권
시리즈명
I♥Cloud 제이펍의 클라우드 시리즈
원서(번역서)명/저자명 Learning Spark/Jules Damji

Klover 리뷰 (14)

구매 후 리뷰 작성 시, e교환권 200원 적립

사용자 총점

10점 중 9.3점
10점 중 10점
83%
10점 중 7.5점
8%
10점 중 5점
0%
10점 중 2.5점
8%

33%의 구매자가
도움돼요 라고 응답했어요

17%

집중돼요

33%

도움돼요

8%

쉬웠어요

25%

최고예요

17%

추천해요

10점 중 2.5점
/추천해요
책 내용은 좋으나 책 상태는 최악 입니다
새책이 맞는지가 의심 될 정도 입니다.
리뷰 썸네일2
10점 중 10점
/도움돼요
설명이 자세하고 좋아요
10점 중 10점
/쉬웠어요
이해하기 쉽게 잘 설명되어 있습니다
10점 중 10점
/도움돼요
입문용으로 좋습니다.
10점 중 10점
/쉬웠어요
빅데이터와 스파크를 뺄 수 없는 사이죠. 좋은 책입니다.
10점 중 10점
/도움돼요
업무에 필요해서 잘 보고 있습니다
10점 중 10점
/추천해요
내용이 마음에 들고 주변에 추천합니다.
10점 중 10점
/집중돼요
스파크 최신버전에 대한 사용법부터 적혀있어서 좋았습니다.
10점 중 10점
/최고예요
감사히 읽고있습니다
10점 중 10점
/최고예요
스파크의 정석같은 책이죠 깔금하고 너무 잘돼어 있네료

문장수집 (2)

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 "좋아요“ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다.
리워드 안내
구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)

구매 후 리뷰 작성 시, e교환권 100원 적립

모든 개발 언어와 프레임 워크가 그러하듯 기본기를 다지는것이 앞으로 발전하는데 있어서 중요하다
러닝 스파크
감사히 읽고있습니다
러닝 스파크

교환/반품/품절 안내

  • 반품/교환방법

    마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환 신청, [1:1 상담 > 반품/교환/환불] 또는 고객센터 (1544-1900)
    * 오픈마켓, 해외배송 주문, 기프트 주문시 [1:1 상담>반품/교환/환불] 또는 고객센터 (1544-1900)
  • 반품/교환가능 기간

    변심반품의 경우 수령 후 7일 이내,
    상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
  • 반품/교환비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
  • 반품/교환 불가 사유

    1) 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
    2) 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
    3) 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
    4) 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
    5) 디지털 컨텐츠인 ebook, 오디오북 등을 1회이상 ‘다운로드’를 받았거나 '바로보기'로 열람한 경우
    6) 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
    7) 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
    8) 세트상품 일부만 반품 불가 (필요시 세트상품 반품 후 낱권 재구매)
    9) 기타 반품 불가 품목 - 잡지, 테이프, 대학입시자료, 사진집, 방통대 교재, 교과서, 만화, 미디어전품목, 악보집, 정부간행물, 지도, 각종 수험서, 적성검사자료, 성경, 사전, 법령집, 지류, 필기구류, 시즌상품, 개봉한 상품 등
  • 상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
  • 소비자 피해보상 환불 지연에 따른 배상

    1) 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁 해결 기준 (공정거래위원회 고시)에 준하여 처리됨
    2) 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

기분 좋은 발견

이 분야의 신간

엄마의 얼굴
이벤트
  • 단말기_이규태에디션
  • EBS 겨울방학 특집 쿠폰이벤트
01 / 02
TOP