빅쿼리를 활용한 데이터 웨어하우스 구축
도서 + 잡지 / 만화 / :K컬렉션을 함께 1만 원 이상 구매 시 무료배송
1만원 미만 시 2,000원 배송비 부과
2만원 미만 시 2,000원 배송비 부과
1만원 미만 시 2,000원 배송비 부과
중고장터 상품
1Box 기준 : 도서 10권
알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.
작가정보
Mark Mucchetti
의료 및 전자 상거래 분야의 업계 기술 리더다. 인텔 8088에서 BASIC 및 터보 C를 시작으로 지금은 클라우드에서 Node.js를 사용하는 등 30년 이상 컴퓨터 작업과 소프트웨어를 작성해왔다. 그동안 기술에 대한 깊은 애정과 관리 기술로 세계적 수준의 플랫폼을 만드는 엔지니어링 그룹을 구축하고 성장시켜왔다. 데이터베이스, 릴리스 엔지니어링, 프론트엔드 및 백엔드 코딩, 프로젝트 관리 분야에서도 일했다. 로스앤젤레스 지역에서 기술 임원으로 일하면서 기술 팀원들이 최고의 잠재력을 갖고 업무 목표를 달성할 수 있도록 지도하고 있다.
작가의 말
데이터(data)와 정보(information)는 서로 다른 개념이다. 데이터 웨어하우스 기술로 방대한 양의 원시 데이터를 수집하고 변환해 조직이 사용할 수 있는 정보를 유추할 수 있다. 구글 BigQuery는 입문자도 사용할 수 있는 서버리스, 글로벌 접근성, 보안성까지 추가된 데이터 웨어하우스다. 이 책을 읽고 초기 디자인, 설치, 데이터 가져오기, 스트리밍, 유지 보수, 시각화와 혁신적 기능까지 경험할 수 있다. 이미 알고 있는 데이터베이스, 웨어하우스 혹은 분석에 도움을 주는 정보들도 얻을 수 있다. 어떤 방식으로 진행을 하더라도 BigQuery를 사용해 정보가 지식으로 변환하는 여정의 마지막 단계로 나아가는 데 도움을 줄 수 있다.
목차
- 1부. 웨어하우스 구축
1장. BigQuery 살펴보기
__구글 클라우드 플랫폼
__GCP 시작
__GCP 사용
____Cloud Console
____Command Line Interface
____프로그래밍 방식 액세스
__BigQuery Cloud Console
____SQL 쿼리
____유용한 정보
__웨어하우스 디자인
__데이터 저장소로서의 BigQuery
____행 지향 접근
____열 지향 접근
__데이터 웨어하우스로서의 BigQuery
__주요 질문
____기초
____확장성
__데이터 정규화
__요약
2장. 웨어하우스 프로젝트 시작
__시작에 앞서
__핵심 질문
____제한적인 리소스는 무엇인가?
____조직의 업무 분야는 무엇인가?
____조직의 차별점은 무엇인가?
____필요한 데이터를 알려줄 수 있는 사람은 누구인가?
____고객에게 필요한 데이터를 파악하고 있는 사람은 누구인가?
____핵심 객체는 무엇인가?
____핵심 관계는 무엇인가?
____시간은 어떤 역할을 하는가?
____비용은 어떤 역할을 하는가?
__일반적인 고려사항
__업무 승인
____관계자 인터뷰
____갈등 해결
____문서 산출물
____비즈니스 수용
____결정 기록
__설계 방식 선택
____트랜잭션 저장소
____스타/눈송이 스키마
____NoSQL
____BigQuery
__BigQuery 모델
____프로젝트
____데이터 세트
____테이블
__요약
3장. 데이터 모델
__데이터 모델
__수집 속도
__과거 데이터의 가치
__데이터 모델 생성
__데이터 세트 생성
__테이블 생성
____소스
____파일 형식
____대상
____스키마
____모드
____파티션 및 클러스터 설정
____고급 옵션
____파티셔닝
____클러스터링
__BigQuery 데이터 읽기
____BigQuery UI
____bq 커맨드 라인
____BigQuery API
____BigQuery Storage API
__요약
4장. BigQuery 비용 관리
__BigQuery 모델
__BigQuery 비용 모델
____스토리지 가격
____주문형 가격
____정액제
____BigQuery 예약
__비용 최적화
____연간 약정
____테이블 분할
____로딩 vs 스트리밍
____쿼리 작성
____쿼리 비용 확인
__GCP 예산 도구
____GCP 요금 계산기
____주문형 모델 제한 설정
____예약 할당량 설정
____BigQuery에 결제정보 로드
__요약
2부. 웨어하우스 채우기
5장. 웨어하우스 데이터 로드
__로딩과 마이그레이션
____파일
____Google Cloud Storage
____타사 이전 솔루션
____Java Database Connectivity
____Document-Based Storage/NoSQL
____외부 데이터 소스
__요약
6장. 데이터 웨어하우스 스트리밍
__장점과 단점
____데이터 일관성
____데이터 가용성
____스트리밍 사용 조건
__스트리밍 코드 작성
____Google App Engine
____발생할 수 있는 문제
__고급 스트리밍 기능
____시간순으로 분할
____수집순으로 분할
____템플릿 테이블
__요약
7장. Dataflow
__주요 개념
____Driver Program
____파이프라인
____Directed-Acyclic Graph
____PCollection
____PTransform
__파이프라인 구축
____준비
____튜토리얼
____Google Dataflow Runner
__Dataflow Templates
__Dataflow SQL
____주요 개념 확장
____Dataflow SQL 확장
____Dataflow SQL 파이프라인 작성
____Dataflow SQL 작업 배포
__요약
3부. 웨어하우스 사용
8장. 웨어하우스 관리
__질문과 계획
__회고
__로드맵
____제품 결함
____기술 부채
____유지보수
____범위 축소
____시스템화
____낙관적인 확장성
____우선순위
__푸시-풀 전략
__데이터 고객 유형
____데이터 분석가
____엔지니어
____임원 및 경영진
____영업직
__요약
9장. 웨어하우스 쿼리
__BigQuery SQL
____기본 문법
____추가 구문
____이전 데이터 액세스
__집합과 교차
____UNION ALL/DISTINCT
____INTERSECT
____EXCEPT
__조인
____CROSS JOIN
____INNER JOIN
____OUTER JOIN
____USING
____셀프 조인
__하위 쿼리
____WITH절
__중첩 데이터
____UNNEST
__파티션
____수집 시간 파티션 테이블
____날짜/타임스탬프 파티션 테이블
____정수 범위 파티션 테이블
__날짜 함수
____협정 세계시
____일반 사용 사례
__그룹핑
____ROLLUP
____HAVING
__집계 함수
__BigQuery GIS
____GEOGRAPHY의 개념
____GIS 함수
____시각화
__기타 함수들
__요약
10장. 예약 작업
__BigQuery의 예약 쿼리
____쿼리 예약하기
____쿼리 검토
__Cloud Scheduler
____이름
____빈도
____대상
____상태
____명령줄 사용
____스케줄링 모범 사례
__다른 예약 방법
____Cloud Tasks
____Cloud Composer
____BigQuery Transfer Service
__요약
11장. GCP의 서버리스 함수
__장점
____관리
____확장성
____비용
____가용성
__단점
____지연
____리소스 제한
____이식성
____관리
__BigQuery와 Cloud Functions
__함수 작성
____함수 이름
____리전
____트리거
____인증
____변수, 네트워킹, 고급 설정
____코드
____소스코드
____Cloud Functions 배포
__Cloud Functions 호출
____HTTP 트리거
____Cloud Pub/Sub 트리거
____Cloud Storage 트리거
____Cloud Firestore
____직접 트리거
____Firebase 트리거
__Cloud Scheduler
__실제 애플리케이션 예제
____제안하는 디자인
__요약
12장. Cloud Logging
__로그와 분석의 연관성
____Abigail’s Flowers 예제
__Cloud Logging
____로그 탐색기
____Cloud Logging 쿼리
__BigQuery 로그 싱크
____싱크
____싱크 생성
__측정항목과 알림
____측정항목 생성
____로그 기반 측정항목
____측정항목 내보내기
____알림
__피드백 루프
__요약
4부. 웨어하우스 유지 및 관리
13장. 고급 BigQuery 기능
__분석 함수
____정의
____윈도우 프레임
____파티션
____실행 순서
____숫자 함수
____윈도우 프레임 문법
____탐색 함수
____집계 분석 함수
__BigQuery 스크립팅
____블록
____변수
____Comments 주석
____IF/THEN/ELSEIF/ELSE/END IF
____제어 흐름
__저장 프로시저, 사용자 정의 함수, 뷰
____저장 프로시저
____사용자 정의 함수
____자바스크립트 사용자 정의 함수
____뷰
____구체화된 뷰
__요약
14장. 데이터 거버넌스
__데이터 거버넌스 정의
____가용성
____컴플라이언스
____일관성
____비용 관리
____의사 결정
____성능
____품질
____보안
____사용성
__거버넌스 전략
__책임과 역할
____고위 경영진
____거버넌스 위원회
____주제 전문가
____데이터 분석가
____데이터 엔지니어
__기록 시스템
____Golden Record
____단방향 데이터 흐름
__보안
____인증
____권한
____암호화
____분류
____데이터 손실 방지
____감사
__데이터 수명 주기
____수집에서 사용 가능 상태까지
____활성 데이터 및 품질 측정
____폐기
__거버넌스 정책 수정
__로드맵
__승인
__Google Cloud Data Catalog
____개요
____BigQuery
____외부 연결
____개인 식별 정보
__요약
15장. 장기적인 전략 수립
__비즈니스 변화
____큰 비즈니스 변화
____핵심 성과 지표
____타임라인
____접근 방법
____데이터 프로그램 품의서
__자연적인 성장
____변화 제어
____소스 제어 관리
____데이터 보존 고려사항
____개인 정보 보호법
____비용 관리
____만료 기간
____장기 스토리지
__데이터 조작 언어
__중단 시간
____코드 프리즈
____단계적 성능 저하
__BigQuery 생태계
__요약
5부. 데이터 리포팅과 시각화
16장. 리포팅
__리포팅
__리포팅과 데이터 대중화
____역사
____회색시장 데이터
____리포팅을 통한 대중화
____역사는 반복된다
__제품 관점의 리포팅
____B2B의 관점
____리포팅 시스템 품의
____제품 관리
__요구사항 정의
____플랫폼
____보고서
____로드맵
__솔루션 분포
____Google Cloud Platform
____서드 파티
____그 외의 방법
__요약
17장. 대시보드와 시각화
__시각화
____시각화 기능
__대시보드
____시각화와 대시보드
____대시보드 계층
____사용 사례
____접근성
____신선함
____관련 측정항목
____주요 비즈니스 변화
____커뮤니티
__대시보드 구축
____하드웨어
____소프트웨어
____유지보수
__요약
18장. Google Data Studio
__데이터 스튜디오 보고서와 BigQuery
____데이터 소스
____BigQuery 커넥터
____보고서 준비
____보고서 생성
____차트 작성
____보고서 보기 옵션
__추가 기능
____데이터 스튜디오 탐색기
____데이터 혼합
____계산된 필드
____커뮤니티 추가 기능
____Google 애널리틱스
__BigQuery BI Engine
__요약
6부. 데이터의 잠재력 향상
19장. BigQuery ML
__배경 지식
____인공지능
____머신러닝
____통계와의 관계
____윤리
__BigQuery ML 개념
____비용
____지도 학습과 비지도 학습
____모델 유형
____수행 절차
__예제
____k-평균 군집화
____분류
__요약
20장. Jupyter Notebook과 공개 데이터 세트
__심연의 가장자리
__Jupyter Notebook
____노트북 설정
____노트북 인터페이스
____Python 데이터 분석
__BigQuery 연결
____커널에 데이터 추가하기
____BigQuery 데이터 추가
__dataframe 탐색
____둘러보기
____개별 값 탐색
____다중 값 탐색
____다음 단계
____매직 명령어
__AutoML Tables
____데이터 세트 가져오기
____학습 설정
____모델 학습
____모델 평가
____예측
____추가 분석
__데이터 인사이트 퍼널
__요약
21장. 결론
부록 A. Cloud Shell과 Cloud SDK
부록 B. 데이터 프로젝트 품의서 샘플
출판사 서평
◈ 이 책에서 다루는 내용 ◈
◆ 프로젝트와 조직을 위한 데이터 웨어하우스 설계
◆ 다양한 외부 및 내부 소스에서의 데이터 로드
◆ 복잡한 워크플로를 위한 구글 클라우드 플랫폼 서비스 통합
◆ 조직 성장에 대응하는 데이터 웨어하우스 유지 및 확장
◆ 웨어하우스 데이터 분석, 리포팅 및 대시보드 생성
◈ 이 책의 구성 ◈
1부, ‘웨어하우스 구축’에서는 백지상태에서 데이터 저장소에 대한 요구 사항을 정하고 구성하는 방법을 설명한다. 몇 가지 예제로 데이터 웨어하우스나 SQL 저장소 없이 BigQuery에서 바로 데이터에 접근하는 방법을 알려준다. 이미 사용하는 데이터 저장소가 있다면 어떤 전략을 채용할지 설명한다. 마지막으로 비용 측면에서 예산과 데이터의 가용성 사이의 절충안을 논의한다.
2부, ‘웨어하우스 채우기’에서는 기존 데이터 소스에서 데이터 웨어하우스로 옮기는 방법인 로딩(loading), 스트리밍(Streaming) 그리고 데이터플로우(Dataflow)를 설명한다. BigQuery에서 바로 로딩과 스트리밍을 관리할 수 있다. 데이터플로우에 한 장을 할애해 확장 가능한 커스텀 데이터 파이프라인을 구성하는 기술을 설명한다.
3부, ‘웨어하우스 사용’에서는 데이터 웨어하우스를 구축한 후 가능한 작업을 기술한다. 8장에서는 처음 BigQuery를 실행한 후 데이터를 다루는 방법에 있어 기초를 세우는 방법을 설명하고 9장에서는 BigQuery에서 SQL을 어떻게 사용하는지를 알려준다.
4부, ‘웨어하우스 유지 및 관리’에서는 데이터 웨어하우스에서 회사에 가치를 부여할 수 있는 데이터를 운영할 수 있다. 다만 데이터도 주기적인 관리가 필요하다. 문제 발생을 예방하기 위한 데이터 관리 전략을 설명한다. 14장에서는 조직에서 큰 스케일의 변화가 있을 때 데이터 웨어하우스에 어떤 변화가 있을지 설명한다.
5부, ‘데이터 리포팅과 시각화’에서는 부가적인 부분을 다룬다. 정보를 리포트로 만들거나 실시간 대시보드를 만들고 분석을 위해 데이터를 어떻게 조직에게 전달하는지를 다룬다.
6부, ‘데이터의 잠재력 향상’에서는 BigQuery의 획기적인 기능인 머신러닝(ML, machine learning) 기능을 설명하고 우리가 다루는 데이터에서 어떻게 사용하는지 설명한다. 공개 데이터 세트를 사용해 기존 데이터와 연동하는 방법도 설명한다.
◈ 옮긴이의 말 ◈
데이터는 어디에나 존재한다. 이제 데이터 분석은 비즈니스에 있어 필수적인 요소다. 대부분의 회사는 분석 스택을 만들면서 많은 시행착오를 겪는다. 그중 가장 먼저 맞닥뜨리는 것은 어떻게 데이터 웨어하우스(Data Warehouse)를 구축할 것인지에 관한 고민이다.
대부분의 데이터 분석 스택은 데이터 웨어하우스와 같은 중앙저장소에 데이터를 저장한 후 데이터를 변환해 BI 도구 혹은 보고서를 만드는 식으로 구성한다. 데이터 웨어하우스가 대두되기 전에는 프로덕션 DB를 직접 쿼리하는 방식으로 구현했다. 하지만 이런 방법은 프로덕션 성능에 부담을 주게 돼 읽기 전용 복제본을 사용하게 됐다. NoSQL 데이터베이스를 사용할 경우 지원되는 도구와 표준이 부족하기 때문에 SQL 데이터베이스에 로드한 후 분석했다. 최근에는 다양한 데이터 소스를 통합해서 인사이트를 얻어야 하는 복잡한 요구사항의 수용을 위해 데이터 웨어하우스의 존재가 부각됐다. 데이터 웨어하우스를 구축하면 다양한 이벤트, 애플리케이션 데이터, 마케팅 데이터, CRM 데이터, API로 얻을 수 있는 모든 데이터를 한곳에 모아 정제한 다음, 분석과 모델링을 할 수 있게 된다. 하지만 이런 기술은 기업 수준의 투자가 아니면 불가능했다. 그리고 기업들에도 데이터 웨어하우스 운영 및 워크플로 유지보수는 쉬운 일이 아니었다. 하지만 데이터 웨어하우스가 클라우드로 옮겨가면서 개발자들도 손쉽게 접할 수 있는 기술이 됐다.
데이터 웨어하우스는 중앙 분석 데이터 저장소로 분석 쿼리에 최적화된 데이터베이스라고 생각하면 된다. 다음과 같은 이유로 데이터 웨어하우스 사용을 고려하게 된다. 다수의 데이터 소스의 데이터를 결합해 분석이 필요할 때, 분석용 데이터와 트랜잭션 데이터를 분리해야 할 때, NoSQL과 같이 분석 쿼리에 적합하지 않을 때, 자주 쓰이는 분석 쿼리를 최적화할 때다.
하지만 저장소만으로 데이터 웨어하우스는 혼자 분석 스택을 감당할 수 없다. 데이터 웨어하우스를 구축하려면 워크플로와 운영을 포함해 스토리지(추출과 로드), 프로세스(변환과 모델), 접근(시각화와 전달)의 세 가지 기능을 충족해야 한다.
Amazon Redshift, google BigQuery, snowflake, presto와 같은 여러 가지 데이터 웨어하우스가 떠오르고 있다. 하지만 BigQuery는 완전 관리형 서버리스 서비스로 누구나 약정 없이 바로 시작할 수 있다.
이 책을 통해 BigQuery의 기술뿐만 아니라 데이터 엔지니어링에 필요한 여러 가지 GCP 기술들을 접할 수 있다. Cloud Functions, Dataflow, DLP 등 여러 가지 GCP 서비스들을 사용해 데이터 웨어하우스를 구축, 유지, 관리하는 방법을 배울 것이다. 시간이 지남에 따라 퇴색되고 더 나은 도구가 나오더라도 데이터 웨어하우스를 구축하는 방법론과 유지보수를 위한 기초지식을 다루기 때문에 두고두고 여러 번 참고할 수 있을 것이다.
이 책은 기술보다는 사람과의 관계를 강조한다. 데이터 전략 및 수행에 있어 BigQuery는 단순한 도구일 뿐이다. 데이터 웨어하우스 구축을 통해 인사이트를 얻고 비즈니스 예측까지 할 수 있는 기회를 갖고 데이터 주도적인 결정을 할 수 있길 바란다.
기본정보
ISBN | 9791161755755 ( 1161755756 ) | ||
---|---|---|---|
발행(출시)일자 | 2021년 10월 19일 | ||
쪽수 | 548쪽 | ||
크기 |
189 * 236
* 29
mm
/ 998 g
|
||
총권수 | 1권 | ||
시리즈명 |
데이터 과학
|
||
원서명/저자명 | Bigquery for Data Warehousing/Mucchetti, Mark |
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립