러닝패스

영화 리뷰 데이터로 BERT Pretraining 초간단 실습하기

무료
핵심 콘텐츠만 선별했어요!
4개 콘텐츠
이 러닝패스가 어떠신가요?
(내 보관함에서 다시 볼 수 있어요)
BERT는 Bidirectional Encoder Representations from Transformers의 약자로 오픈소스 코드까지 공개된 구글의 새로운 Language Representation Model 입니다. 그간 높은 성능을 보이며 좋은 평가를 받아온 ELMo를 의식한 이름에, 무엇보다 NLP 11개 태스크에 state-of-the-art를 기록했습니다. BERT는 주로 대량 데이터로 pretrain 된 모델을 받아 finetuning하여 원하는 task를 해결하는데 사용합니다. pretraining을 위해서는 대량의 데이터와 고사양의 컴퓨터가 필요하고, 각국의 언어(자연어)로 training 해둔 좋은 pretrained model이 이미 존재하기 때문에 해결하고자하는 task를 잘 정의하면 다양한 pretrained model을 이용하여 문제를 풀 수 있습니다. 하지만 직접 pretrained model을 만들고자 할 땐 어떻게할까요? [ BERT로 영화리뷰 긍부정 후기 분류 모델 만들어보기 ] 는 제가 원글(https://www.topbots.com/pretrain-transformers-models-in-pytorch/)의 코드를 따라가며 실습한 내용을 담은 러닝패스입니다. 단계별 과정을 이해하며 실습해봅시다! 😉 📔 준비 nvidia gpu를 사용가능한 컴퓨터가 필요해요. ubuntu 에서 실습을 진행할거에요. *colab 에서 실습하면 위 세팅 없이 바로 실습해 볼 수 있어요. python 언어를 알아야해요. 자연어처리의 tokenize, tensor의 개념을 알아야해요. 👩🏻‍🎓 이 러닝패스를 학습한 이후엔, 자연어 데이터로 pretrain(사전학습)된 BERT 모델을 만들 수 있어요. pretrain된 BERT 모델을 활용할 수 있어요.
NOTE
안내된 명령어를 따라 치기만하면 데이터를 다운받을 수 있습니다. 영화 리뷰데이터(영어)를 다운받고 살펴볼까요?
Video
영화 리뷰 데이터 다운받기
출처: https://youtu.be/rmy84mZ-mXQ
dataA 님의 학습노트
NOTE
다운받은 영화 리뷰데이터를 전처리하고 원하는 model parameter를 주어 학습시켜봅시다. 실습 순서 > 패키지 소개 > 자연어 데이터 파일 변환 > BERT 모델 arguments(model_data_args) 정의 > BERT 모델 config(model_config) 정의 > BERT tokenizer 가져오기 > 사전학습 된 BERT model 가져오기 > 텍스트 데이터 전처리  > 데이터 콜레이터(data collator) > BERT 모델 학습 > BERT 모델 저장 > BERT 모델 활용
Video
영화 리뷰 데이터로 버트 프리트레이닝(사전학습) 하기
출처: https://youtu.be/ivc8MFGEf4g
dataA 님의 학습노트 외 1개
NOTE
위 두 영상의 내용을 Colab에서 직접 실행하고 원하는 대로 변형해볼 수 있어요 :) Colab 에서 실습하기: https://colab.research.google.com/drive/1KGrjsesee_P6vMOKRxV9irm6C2em1wj5?usp=sharing
URL
colab 코드 실습: 모듈 import하기
출처: https://colab.research.google.com/drive/1KGrjsesee_P6vMOKRxV9irm6C2em1wj5#scrollTo=7d54c5bc
dataA 님의 학습노트
세 컨텐츠는 공개 데이터 다운로드부터 오픈소스 라이브러리인 Transformers를 이용하여 가장 간단하게 BERT Pretraining을 실습해볼 수 있게 만들어진 러닝패스 입니다. 이해에 도움이 되셨나요? ;)
👋 다양한 인사이트를 읽어보고 계신가요?
나만의 학습 기록을 남기고, 관리하고 싶다면!
다양한 전문가의 멤버십 전용 콘텐츠를 보고 싶다면!
나의 학습 내용을 공유하고, 수익을 올리고 싶다면!
3초 회원가입/로그인으로, 런핏의 커뮤니티에 여러분도 함께하세요.
3초 만에 가입하기