뒤로 가기
홈으로 이동
러닝패스
공유하기
영화 리뷰 데이터로 BERT Pretraining 초간단 실습하기의 대표 이미지

영화 리뷰 데이터로 BERT Pretraining 초간단 실습하기

무료

BERT는 Bidirectional Encoder Representations from Transformers의 약자로 오픈소스 코드까지 공개된 구글의 새로운 Language Representation Model 입니다. 그간 높은 성능을 보이며 좋은 평가를 받아온 ELMo를 의식한 이름에, 무엇보다 NLP 11개 태스크에 state-of-the-art를 기록했습니다.

BERT는 주로 대량 데이터로 pretrain 된 모델을 받아 finetuning하여 원하는 task를 해결하는데 사용합니다. pretraining을 위해서는 대량의 데이터와 고사양의 컴퓨터가 필요하고, 각국의 언어(자연어)로 training 해둔 좋은 pretrained model이 이미 존재하기 때문에 해결하고자하는 task를 잘 정의하면 다양한 pretrained model을 이용하여 문제를 풀 수 있습니다. 하지만 직접 pretrained model을 만들고자 할 땐 어떻게할까요?

[ BERT로 영화리뷰 긍부정 후기 분류 모델 만들어보기 ] 는 제가 원글(https://www.topbots.com/pretrain-transformers-models-in-pytorch/)의 코드를 따라가며 실습한 내용을 담은 러닝패스입니다. 단계별 과정을 이해하며 실습해봅시다! 😉

📔 준비 nvidia gpu를 사용가능한 컴퓨터가 필요해요. ubuntu 에서 실습을 진행할거에요. *colab 에서 실습하면 위 세팅 없이 바로 실습해 볼 수 있어요. python 언어를 알아야해요. 자연어처리의 tokenize, tensor의 개념을 알아야해요.

👩🏻‍🎓 이 러닝패스를 학습한 이후엔, 자연어 데이터로 pretrain(사전학습)된 BERT 모델을 만들 수 있어요. pretrain된 BERT 모델을 활용할 수 있어요.

큐레이터의 노트 소개
다운받은 영화 리뷰데이터를 전처리하고 원하는 model parameter를 주어 학습시켜봅시다. 실습 순서 > 패키지 소개 > 자연어 데이터 파일 변환 > BERT 모델 arguments(model_data_args) 정의 > BERT 모델 config(model_config) 정의 > BERT tokenizer 가져오기 > 사전학습 된 BERT model 가져오기 > 텍스트 데이터 전처리  > 데이터 콜레이터(data collator) > BERT 모델 학습 > BERT 모델 저장 > BERT 모델 활용
dataA의 프로필 이미지
dataA 님의 학습노트 외 1개
dataA의 프로필 이미지

학습노트 제목: BERT Pretraining(사전학습) 실습!

Video

영화 리뷰 데이터로 버트 프리트레이닝(사전학습) 하기

출처: https://youtu.be/ivc8MFGEf4g
#전체 #데이터 분석 #데이터 사이언티스트 #데이터인프라
세 컨텐츠는 공개 데이터 다운로드부터 오픈소스 라이브러리인 Transformers를 이용하여 가장 간단하게 BERT Pretraining을 실습해볼 수 있게 만들어진 러닝패스 입니다. 이해에 도움이 되셨나요? ;)
이 러닝패스가 어땠나요?
(내 보관함에서 다시 볼 수 있어요)
👋 다양한 인사이트를 읽어보고 계신가요?
나만의 학습 기록을 남기고, 관리하고 싶다면!
다양한 전문가의 멤버십 전용 콘텐츠를 보고 싶다면!
나의 학습 내용을 공유하고, 수익을 올리고 싶다면!
3초 회원가입/로그인으로, 런핏의 커뮤니티에 여러분도 함께하세요.
3초 만에 가입하기