뒤로 가기
홈으로 이동
LearnFit
공유하기
YouTube, 영화 리뷰 데이터로 버트 프리트레이닝(사전학습) 하기
dataA님의 학습노트

BERT Pretraining(사전학습) 실습!

#전체
#데이터 분석
#데이터 사이언티스트
#데이터인프라
01:28모듈을 import 해봅시다.
02:17함수 movie_reviews_to_file은 지정해둔 경로의 모든 데이터를 읽어서 하나의 txt 파일로 변환해주는 함수입니다. 이 함수는 실습 데이터셋에 맞추어 만들어진 함수이며, 다른 형식의 데이터를 변환하기 위해서는 알맞은 함수를 만들어야합니다.
05:14다음 학습을 위해, 학습시 이용되는 Trainer라는 모듈과 이 모듈에 필요한 변수들을 잠깐 살펴봅시다.
06:26데이터 경로, 데이터 형식부터 모델 내부에서 이용하는 학습 조건, 기존 모델 학습시 이용했던 조건 등을 가져오기 위한 여러 변수들을 정의합니다. 자세한 설명은 코랩 전체 코드에서 확인하실 수 있습니다.
09:03 transformers에서 제공하는 AutoConfig라는 모듈을 이용하여, 기존 버트 트레이닝시 이용했던 모델의 조건들을 가져옵니다. 이 실습에서는 'bert-base-cased'라는 모델의 조건들을 가져옵니다.
11:00get_config 와 마찬가지로 'bert-base-cased' 모델에서 트레이닝에 이용했던 tokenizer를 가져옵니다. AutoTokenizer를 이용합니다.
11:34get_model은 pretrained-model을 이용할 수도 있게 구현되어있습니다. 하지만 이 실습에서는 처음부터 pretraining을 할 것입니다. ( ModelDataArguments 에서 model_name_or_path를 지정하지 않았습니다.)
12:12DataSets 모듈은 자연어로 된 데이터를 모델이 계산할 수 있는 데이터로 변환해줍니다. 실습에서는 LineByLineDataSet을 이용할 것입니다.
14:40Data Collator는 Dataset에서 받은 tensor에 padding, masking 등의 작업을 해줍니다. 이 data collator는 Transformers에서 가져와서 사용할 수 있습니다. 그럼 data collator를 함께 가져와봅시다.
16:25모델을 저장한다는 것의 의미를 이해하고 저장된 directory 확인하기
16:56확인!
✔ 학습 완료

이 학습노트가 포함된 러닝패스예요.

dataA님의 다른 노트는 어때요?

dataA의 프로필 이미지
dataA
의 학습노트

BERT 모델 저장하기

영상 재생 모양 아이콘
Video
⏱ 핵심 스탬프
2
16:25
모델을 저장한다는 것의 의미를 이해하고 저장된 directory 확인하기
16:25
<colab에서 실습> https://colab.research.google.com/drive/1KGrjsesee_P6vMOKRxV9irm6C2em1wj5#scrollTo=industrial-amber&line=2&uniqifier=1
👍
1
스크랩
dataA의 프로필 이미지
dataA
의 학습노트

데이터 콜레이터(Data Collator) module 자세히 알아보기

POST
⏱ 핵심 스탬프
0
스크랩
👋 다양한 인사이트를 읽어보고 계신가요?
나만의 학습 기록을 남기고, 관리하고 싶다면!
다양한 전문가의 멤버십 전용 콘텐츠를 보고 싶다면!
나의 학습 내용을 공유하고, 수익을 올리고 싶다면!
3초 회원가입/로그인으로, 런핏의 커뮤니티에 여러분도 함께하세요.
3초 만에 가입하기