본문 바로가기

추천 검색어

실시간 인기 검색어

자연어 처리를 위한 허깅페이스 트랜스포머 하드 트레이닝

코드와 결과물로 이해하는 언어 모델과 트랜스포머
박성환 , 남승우 저자(글)
비제이퍼블릭 · 2025년 01월 13일
10.0
10점 중 10점
(6개의 리뷰)
도움돼요 (67%의 구매자)
  • 허깅페이스 트랜스포머 하드 트레이닝 대표 이미지
    허깅페이스 트랜스포머 하드 트레이닝 대표 이미지
  • 허깅페이스 트랜스포머 하드 트레이닝 부가 이미지1
    허깅페이스 트랜스포머 하드 트레이닝 부가 이미지1
  • 허깅페이스 트랜스포머 하드 트레이닝 부가 이미지2
    허깅페이스 트랜스포머 하드 트레이닝 부가 이미지2
  • A4
    사이즈 비교
    210x297
    허깅페이스 트랜스포머 하드 트레이닝 사이즈 비교 190x245
    단위 : mm
01 / 04
무료배송 소득공제
10% 24,750 27,500
적립/혜택
1,370P

기본적립

5% 적립 1,370P

추가적립

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 1,370P
  • 리뷰 작성 시, e교환권 추가 최대 300원
배송안내
무료배송
배송비 안내
국내도서/외국도서
도서 포함 15,000원 이상 구매 시 무료배송
도서+사은품 또는 도서+사은품+교보Only(교보굿즈)

15,000원 미만 시 2,500원 배송비 부과

교보Only(교보배송)
각각 구매하거나 함께 20,000원 이상 구매 시 무료배송

20,000원 미만 시 2,500원 배송비 부과

해외주문 서양도서/해외주문 일본도서(교보배송)
각각 구매하거나 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

업체배송 상품(전집, GIFT, 음반/DVD 등)
해당 상품 상세페이지 "배송비" 참고 (업체 별/판매자 별 무료배송 기준 다름)
바로드림 오늘배송
업체에서 별도 배송하여 1Box당 배송비 2,500원 부과

1Box 기준 : 도서 10권

그 외 무료배송 기준
바로드림, eBook 상품을 주문한 경우, 플래티넘/골드/실버회원 무료배송쿠폰 이용하여 주문한 경우, 무료배송 등록 상품을 주문한 경우
새벽배송 내일(2/18,화 오전 7시 전) 도착
기본배송지 기준
배송일자 기준 안내
로그인 : 회원정보에 등록된 기본배송지
로그아웃 : '서울시 종로구 종로1' 주소 기준
로그인정확한 배송 안내를 받아보세요!

이달의 꽃과 함께 책을 받아보세요!

1권 구매 시 결제 단계에서 적용 가능합니다.

알림 신청하시면 원하시는 정보를
받아 보실 수 있습니다.

키워드 Pick

키워드 Pick 안내

관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

허깅페이스 트랜스포머 하드 트레이닝 상세 이미지

책 소개

이 책이 속한 분야

자연어 처리의 기본부터
허깅페이스 모델 경량화, 정렬 조정, 강화 학습까지
챗GPT와 같은 대화형 인공지능 챗봇과 다수의 오픈소스 생성형 언어 모델은 대규모 언어 모델(LLM)에 해당합니다. 허깅페이스는 각종 생성형 인공지능을 위한 모델과 데이터셋을 개발자들이 자유롭게 공유하고 쉽게 활용할 수 있도록 API 및 도구를 제공하는데, 『자연어 처리를 위한 허깅페이스 트랜스포머 하드 트레이닝』에서는 다양한 생성형 인공지능 기술 중 자연어 처리를 위한 언어 모델에 집중합니다.

Transformers 라이브러리를 기준으로 토크나이저 및 모델 준비, 한국어 자연어 이해 평가(KLUE) 데이터셋 전처리, 학습 파라미터 선정 및 학습 진행과 성능 평가를 실습해봅니다. 이후 사전학습 단계부터 직접 진행해야 하는 경우를 대비하여 Tokenizers 라이브러리에 대해 살펴보고 정확도, f1 스코어, 정밀도, 재현율을 기준으로 모델을 평가하는 Evaluate 라이브러리에 대해서 알아봅니다. PEFT, 양자화, QLoRA 미세조정과 같이 모델의 메모리 사용량은 줄이고 추론 속도는 높이는 경량화 기법에 대해 코드와 결과물로 꼼꼼하게 확인해본 후 RLHF, SFT, PPO, Best-of-N 샘플링 등 정렬 조정에 해당하는 다양한 방법론과 이를 강화학습을 위한 트랜스포머(TRL)를 통해 활용하는 방식까지 차근차근 학습합니다.

작가정보

저자(글) 박성환

통계학을 전공하였으며 DB 관리 및 솔루션 개발 3년 9개월, 스타트업 자연어 처리(Natural Language Processing, NLP) 개발 2년 8개월 경력을 쌓은 후 현재는 국내 식품 관련 기업 풀무원의 Data&AI 팀에서 대규모 언어 모델(Large Language Model, LLM)을 활용한 HR 어시스턴트, AICC 콜봇 개발을 하고 있습니다.
최근에는 자연어 처리 관련 모델과 LLM에 관해 주로 공부 중이며 항상 아는 지식을 공유하고 모르는 지식은 배우려는 자세로 임하고 있습니다.

現) 풀무원 Data&AI 팀 NLP 개발
前) AI 관련 스타트업 NLP 개발
前) 퓨쳐누리 DB 관리 및 솔루션 개발

- 깃허브 github.com/hipster4020
- 블로그 hipster4020.tistory.com
- 링크드인 linkedin.com/in/sunghwanpark4020

저자(글) 남승우

소프트웨어마이스터고등학교 소프트웨어개발과를 졸업했습니다. 2020년도에 디스코드 챗봇 개발 팀 ‘팀 크레센도’에서 활동하며 여러 챗봇 개발에 기여했고, 졸업 직후 취업해 5년 차 NLP 엔지니어로 재직 중이며 한국방송통신대학교 통계ㆍ데이터과학과 이수를 병행하고 있습니다.
현재는 sLM 사전학습, 프롬프트 엔지니어링 등의 자연어 처리 기술과 더불어 음성 인식 및 음성 합성에도 많은 관심을 가지고 공부하고 있습니다.

現) AI 관련 스타트업 NLP 개발
前) 디스코드 챗봇 개발팀 ‘팀 크레센도’ 활동

- 깃허브 github.com/Nam-SW

목차

  • 1 자연어 처리와 허깅페이스
    _1.1 허깅페이스 소개
    __1.1.1 Datasets
    __1.1.2 Models
    __1.1.3 Spaces
    __1.1.4 Docs
    _1.2 자연어 처리와 허깅페이스의 관계

    2 환경 구축
    _2.1 구글 코랩 환경 구축
    __2.1.1 계정 생성
    __2.1.2 새 노트북 만들기
    __2.1.3 코드 실행
    __2.1.4 파일 저장
    __2.1.5 깃 코드 열기
    _2.2 구글 드라이브 마운트

    3 허깅페이스 주요 라이브러리
    _3.1 Datasets 라이브러리
    __3.1.1 Datasets 설치
    __3.1.2 Datasets 실습
    _3.2 Transformers 라이브러리
    __3.2.1 Transformers 설치
    __3.2.2 Tokenizer
    __3.2.3 DataCollator
    __3.2.4 Model
    __3.2.5 AutoClass
    __3.2.6 Trainer, TrainingArguments
    __3.2.7 Pipeline
    _3.3 미세조정
    __3.3.1 토크나이저와 모델 준비
    __3.3.2 데이터 준비 및 전처리
    __3.3.3 학습 파라미터 선정
    __3.3.4 학습 진행
    __3.3.5 성능 평가
    __3.3.6 모델 저장
    _3.4 허깅페이스 허브 등록
    __3.4.1 push_to_hub()
    __3.4.2 CLI
    __3.4.3 huggingface-hub

    4 보조 라이브러리
    _4.1 Tokenizers 라이브러리
    __4.1.1 Tokenizer 학습
    __4.1.2 모델 초기화 후 학습
    _4.2 Evaluate 라이브러리
    __4.2.1 Evaluate 평가
    __4.2.2 커스텀 메트릭 만들기
    __4.2.3 Trainer 적용

    5 언어 모델 구조 및 학습
    _5.1 트랜스포머 모델
    _5.2 인코더 기반 모델
    __5.2.1 기본 구조
    __5.2.2 Sequence Classification
    __5.2.3 Multiple Choice
    __5.2.4 Token Classification
    __5.2.5 Question Answering
    _5.3 디코더 기반 모델
    __5.3.1 기본 구조
    __5.3.2 Causal LM
    __5.3.3 Question Answering
    __5.3.4 Sequence Classification
    _5.4 인코더-디코더 기반 모델
    __5.4.1 기본 구조
    __5.4.2 Conditional Generation
    __5.4.3 Sequence Classification
    __5.4.4 Question Answering

    6 모델 활용
    _6.1 모델 미세조정
    __6.1.1 인코더 - Sequence Classification
    __6.1.2 디코더 - Causal LM
    __6.1.3 인코더-디코더 - Conditional Generation
    __6.1.4 언어 모델 문장 생성
    _6.2 모델 서빙

    7 모델 경량화
    _7.1 모델 경량화 개요
    _7.2 PEFT
    _7.3 양자화
    _7.4 QLoRA 미세조정

    8 TRL
    _8.1 TRL 라이브러리 개요
    _8.2 RLHF
    _8.3 보상 모델 트레이닝
    _8.4 SFT
    _8.5 PPO
    _8.6 Best-of-N 샘플링
    _8.7 DPO
    _8.8 KTO
    _8.9 CPO
    _8.10 ORPO

출판사 서평

추론 속도를 높이고 성능을 발전시키는
허깅페이스 라이브러리 하드 트레이닝

1장에서는 허깅페이스 허브에 등록된 모델 및 데이터셋을 확인해보고 자연어 처리와 허깅페이스의 관계에 대해 알아봅니다.

2장에서는 허깅페이스를 하드 트레이닝해보기에 앞서 구글 코랩 환경을 구축하고 구글 드라이브를 마운트합니다.

3장에서는 Datasets 라이브러리와 Transformers 라이브러리를 활용하여 토크나이저 및 모델 준비, KLUE 데이터셋 전처리, 학습 파라미터 선정 및 학습 진행과 성능 평가를 실습해봅니다.

4장에서는 사전학습 단계부터 직접 진행해야 하는 경우를 대비하여 Tokenizers 라이브러리에 대해 살펴봅니다. 그리고 정확도, f1 스코어, 정밀도, 재현율을 기준으로 모델을 평가하는 Evaluate 라이브러리에 대해 알아봅니다.

5장에서는 트랜스포머 모델, 인코더 기반 모델, 디코더 기반 모델, 인코더-디코더 기반 모델의 기본 구조를 살펴보고 문장 분류, 다중 선택, 토큰 분류, 질의 응답, 조건부 생성, 인과적 언어 모델(Causal LM) 태스크의 코드와 결과를 확인해봅니다.

6장에서는 모델 구조별 대표 태스크에 대해 미세조정(파인튜닝, fine-tuning)을 진행합니다. 확률적 특징의 이해를 돕는 수식과 꼭 필요한 메서드의 파라미터까지 함께 살펴볼 수 있습니다.

7장에서는 PEFT, 양자화, QLoRA 미세조정과 같이 모델의 메모리 사용량은 줄이고 추론 속도는 높이는 경량화 기법에 대해 알아봅니다.

8장에서는 RLHF, SFT, PPO, DPO, KTO, CPO, ORPO, Best-of-N 샘플링, 보상 모델 트레이닝 등 정렬 조정에 해당하는 최신 방법론과 이를 강화학습을 위한 트랜스포머(TRL)를 통해 활용하는 방식에 대해 알아봅니다.


이 책이 필요한 독자
- 자연어 처리 분야에서의 인공지능에 대해 알고 싶은 분
- 언어 모델을 처음 접하는 대학생 또는 대학원생
- 허깅페이스 코드를 실습해보고 싶은 자연어 처리 초보자
- 언어 모델의 구조와 다양한 태스크를 샅샅이 살펴보고 싶은 분
- 허깅페이스에 대한 이해도는 있지만, 직접 부딪혀가며 코드로 기술을 레벨업하고 싶은 분
- 경량화 기법과 강화학습을 위한 트랜스포머에 대해 궁금한 분

기본정보

상품정보 테이블로 ISBN, 발행(출시)일자 , 쪽수, 크기, 총권수을(를) 나타낸 표입니다.
ISBN 9791165923150
발행(출시)일자 2025년 01월 13일
쪽수 320쪽
크기
190 * 245 * 23 mm / 917 g
총권수 1권

Klover 리뷰 (6)

구매 후 리뷰 작성 시, e교환권 200원 적립

사용자 총점

10점 중 10점
10점 중 10점
100%
10점 중 7.5점
0%
10점 중 5점
0%
10점 중 2.5점
0%

67%의 구매자가
도움돼요 라고 응답했어요

0%

집중돼요

67%

도움돼요

0%

쉬웠어요

0%

최고예요

33%

추천해요

10점 중 10점
/추천해요
실제 현업에서 바로 활용할 수 있는 자연어 처리 기술들이 알차게 담겨 있습니다. 허깅페이스 라이브러리를 다뤄본 사람이라면, 모델 경량화나 최적화 작업에서 바로 적용 가능한 실용적인 내용에 공감할 겁니다. 단순 이론서가 아닌, 실제 경험에서 나온 구체적인 코드와 설명이 돋보이며, 이런 책은 드물어서 강력히 추천합니다.
리뷰 썸네일
10점 중 10점
/도움돼요
기대됩니다. 빠르게 1회독하려구요
10점 중 10점
/도움돼요
소스코드를 기반으로 NLP 의 여러 최신 기술이 포함 되어있어, 실제 실습을 하며 학습하기 용이했습니다.
코드와 함께 설명 되어있는 이론 또한 핵심 위주로 쉽게 풀이 되어 있어 이해에 도움이 되었습니다. NLP 분야의 technical skills 함양을 위한 책을 찾고 계신 분들께 추천 드려요!
10점 중 10점
/도움돼요
상세한 설명으로 내용을 습득할 수 있도록 구성되어 있어서 초보자도 쉽게 따라할 수 있을것 같아요. 글 중간에 "중요 포인트"를 알려주는 영역이 있어서 이해하는데 더 도움이 되었고 단계별로 잘 따라올 수 있도록 화면 캡쳐 이미지도 설명이 잘 되어있습니다. 코드를 직접 따라서 구동해볼 수 있게 정리되어 있고 실행했을 때 작업한 코드의 결과도 상세하게 정리되어 있습니다. ebook도 같이 판매하고 있어서 가볍게 참고하기도 좋을 것 같네요.
리뷰 썸네일5

문장수집 (1)

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 "좋아요“ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다.
리워드 안내
구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
판매가 5,000원 미만 상품의 경우 리워드 지급 대상에서 제외됩니다. (2024년 9월 30일부터 적용)

구매 후 리뷰 작성 시, e교환권 100원 적립

모델 경량화란 모델 메모리 사용량을 줄이고 추론 속도를 높일 수 있는 다양한 기법을 총칭하는 개념입니다. 모델 양자화, 모델 압축, 가중치 가지치기 등 방법을 활용하여 복잡한 모델을 가볍고 더 빠르게 실행할 수 있도록하며, 리소스가 제한된 환경에서도 모델을 운용할 수 있도록 합니다.
허깅페이스 트랜스포머 하드 트레이닝

교환/반품/품절 안내

  • 반품/교환방법

    마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환 신청, [1:1 상담 > 반품/교환/환불] 또는 고객센터 (1544-1900)
    * 오픈마켓, 해외배송 주문, 기프트 주문시 [1:1 상담>반품/교환/환불] 또는 고객센터 (1544-1900)
  • 반품/교환가능 기간

    변심반품의 경우 수령 후 7일 이내,
    상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
  • 반품/교환비용

    변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
  • 반품/교환 불가 사유

    1) 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
    2) 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
    3) 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
    4) 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
    5) 디지털 컨텐츠인 ebook, 오디오북 등을 1회이상 ‘다운로드’를 받았거나 '바로보기'로 열람한 경우
    6) 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
    7) 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
    8) 세트상품 일부만 반품 불가 (필요시 세트상품 반품 후 낱권 재구매)
    9) 기타 반품 불가 품목 - 잡지, 테이프, 대학입시자료, 사진집, 방통대 교재, 교과서, 만화, 미디어전품목, 악보집, 정부간행물, 지도, 각종 수험서, 적성검사자료, 성경, 사전, 법령집, 지류, 필기구류, 시즌상품, 개봉한 상품 등
  • 상품 품절

    공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
  • 소비자 피해보상 환불 지연에 따른 배상

    1) 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁 해결 기준 (공정거래위원회 고시)에 준하여 처리됨
    2) 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

기분 좋은 발견

이 분야의 베스트

이 분야의 신간

엄마의 얼굴
이벤트
  • 단말기_이규태에디션
  • EBS 겨울방학 특집 쿠폰이벤트
01 / 02
TOP