뒤로 가기
홈으로 이동
LearnFit
공유하기
YouTube, 영화 리뷰 데이터로 버트 프리트레이닝(사전학습) 하기
dataA님의 학습노트

BERT Pretraining(사전학습) 실습!

#전체
#데이터 분석
#데이터 사이언티스트
#데이터인프라
01:28모듈을 import 해봅시다.
02:17함수 movie_reviews_to_file은 지정해둔 경로의 모든 데이터를 읽어서 하나의 txt 파일로 변환해주는 함수입니다. 이 함수는 실습 데이터셋에 맞추어 만들어진 함수이며, 다른 형식의 데이터를 변환하기 위해서는 알맞은 함수를 만들어야합니다.
05:14다음 학습을 위해, 학습시 이용되는 Trainer라는 모듈과 이 모듈에 필요한 변수들을 잠깐 살펴봅시다.
06:26데이터 경로, 데이터 형식부터 모델 내부에서 이용하는 학습 조건, 기존 모델 학습시 이용했던 조건 등을 가져오기 위한 여러 변수들을 정의합니다. 자세한 설명은 코랩 전체 코드에서 확인하실 수 있습니다.
09:03 transformers에서 제공하는 AutoConfig라는 모듈을 이용하여, 기존 버트 트레이닝시 이용했던 모델의 조건들을 가져옵니다. 이 실습에서는 'bert-base-cased'라는 모델의 조건들을 가져옵니다.
11:00get_config 와 마찬가지로 'bert-base-cased' 모델에서 트레이닝에 이용했던 tokenizer를 가져옵니다. AutoTokenizer를 이용합니다.
11:34get_model은 pretrained-model을 이용할 수도 있게 구현되어있습니다. 하지만 이 실습에서는 처음부터 pretraining을 할 것입니다. ( ModelDataArguments 에서 model_name_or_path를 지정하지 않았습니다.)
12:12DataSets 모듈은 자연어로 된 데이터를 모델이 계산할 수 있는 데이터로 변환해줍니다. 실습에서는 LineByLineDataSet을 이용할 것입니다.
14:40Data Collator는 Dataset에서 받은 tensor에 padding, masking 등의 작업을 해줍니다. 이 data collator는 Transformers에서 가져와서 사용할 수 있습니다. 그럼 data collator를 함께 가져와봅시다.
16:25모델을 저장한다는 것의 의미를 이해하고 저장된 directory 확인하기
16:56확인!
✔ 학습 완료

이 학습노트가 포함된 러닝패스예요.

dataA님의 다른 노트는 어때요?

dataA의 프로필 이미지
dataA
의 학습노트

토스 리더 강연 - PO가 꼭 알아야할 개념

영상 재생 모양 아이콘
Video
⏱ 핵심 스탬프
5
05:59
cusuomer에 대한 정의. Active user를 잘 정의하는 것이 중요하다!! (toss 에서는 어떻게 해야하는지 안알랴줌...) 현재 우리 서비스의 active user 는 GA에서 제공하는 지표 그대로 사용하고 있는데, 실질적으로 서비스를 "이용하는" 유저를 정의하려면 ?
10:21
carrying capacity = #of new daily customers / %customers you lost each day = 우리가 도달할 MAU #of new daily customers : 1주일 안에 계산 가능 %customers you lost each day : 1~2달 이내 계산가능(서비스의 리텐션 있다고 가정) 서비스 런칭 후carrying capacity는 짧으면 한 달, 길면 두 달안에 계산할 수 있다.
👍
9
스크랩
dataA의 프로필 이미지
dataA
의 학습노트

HuggingFase Datasets module 알아보기

영상 재생 모양 아이콘
Video
⏱ 핵심 스탬프
4
00:00
Transformers의 Datasets 모듈에 대해 더 알고싶으신 분들은 아래 영상을 참고해주세요.
00:00
🤯
👍
3
스크랩
👋 다양한 인사이트를 읽어보고 계신가요?
나만의 학습 기록을 남기고, 관리하고 싶다면!
다양한 전문가의 멤버십 전용 콘텐츠를 보고 싶다면!
나의 학습 내용을 공유하고, 수익을 올리고 싶다면!
3초 회원가입/로그인으로, 런핏의 커뮤니티에 여러분도 함께하세요.
3초 만에 가입하기