본문 바로가기
Study/NLP

BERT를 이용한 한국어 자연어처리

by GodKim 2020. 8. 2.

이 글은 한국정보과학회 2019 한국컴퓨터종합학술대회 논문집에 실린 [BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정]을 읽고 정리한 글이다.

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE08763261

 

BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정

논문, 학술저널 검색 플랫폼 서비스

www.dbpia.co.kr


1. BERT

 

 BERT는 구글에서 공개한 Transformer 기반 사전 학습 언어모델이다. 자연어처리에서 흔히 사용되는 RNN과 차이점은 바로 Reccurent 하지 않아 처리 속도가 빠르다는 점이다. BERT는 2가지 방법으로 모델을 사전 학습하는데 그중 첫 째는 문장내의 단어를 랜덤하게 마스킹하고 마스킹된 단어를 예측하는 방법이다. 또다른 방법은 두 문장이 주어졌을때 뒤에 따라오는 문장이 앞에 문장 다음에 오기에 적합한지 판별하는 방법이다. 이 훈련 기법을 위해 BERT에는 토큰 임베딩, 포지션 임베딩, segment 임베딩 기법이 추가적으로 사용되었다. BERT는 이 기법을 톤해 대규모 코퍼스를 학습 시켜 성능 향상을 보였다. 하지만 대규모 코퍼스를 학습시키는데 많은 자원과 시간이 필요하기에 해당 논문은 적은 양의 코퍼스로 사전학습을 진행한 한국어 BERT 모델이 어느 정도의 성능을 보이는지 알아보고자 한다.

 BERT 한국어 모델을 학습시키기 위해 540MB의 위키피디아 코퍼스를 사용했다. 입력 단위를 형태소-태그 단위를 사용했으며, 적용된 하이퍼 파라미터는 인코더 블록의 개수 12개, 헤드의 개수 12개, 히든 사이지 768, 드랍아웃은 0.1, 최대 문장 길이는 128로 설정하였다. 그 후 최대 문장 길이를 384로 늘려 추가 학습을 진행하였다.

2. 한국어 개체명 인식

 

 개체명은 문장에서 사람, 시간, 장소와 같은 특정한 의미를 가진 것을 나타낸다. 이를 딥러닝을 통해 인식해 내기 위해 주로 LSTM에 CRF를 연결한 모델을 사용 한다. 해당 논문에서는 테스트 데이터로 ETRI 엑소브레인 언어분석 말뭉치를 사용했다. 

 사전 학습된 BERT 모델에 마지막 레이어에 CRF를 연결해 개체명 인식을 평가하였다. BERT(형태소-태그) 모델의 성능은 91.58%로 BERT(Multilinguial)보다는 0.34% 낮은 모습을 보였지만, 기존의 LSTM-CRF(86.53%)보다 약 5% 가량 높게 나왔다. 

 

3. 한국어 영화리뷰 감성 분석

 

 감성 분석은 대게 좋다, 나쁘다로 이진 분류가 가능하다. 따라서 일반적으로 양방향 LSTM 모델 혹은 CNN 모델을 이용해 감성 분석을 진행한다. 해당 논문에서는 네이버 영화 리뷰 데이터를 테스트 데이터로 사용하였다.

 감성 분석 모델은 개체명 인식기와는 다르게 마지막 레이어에 MLP를 적용하였다. 이를 바탕으로 나온 성능은 86.57%로 LSTM, CNN보다는 약 6~7%정도 향상된 성능을 보였다. 하지만 개체명 인식과 마찬가지로 BERT(Multilinguial)보다는 0.86% 낮은 성능을 보였다.

 

4. 한국어 의존 파싱

 

 의존 파싱은 단어와 단어 사이의 의존 관계에 따라 문장의 구조를 구성해 나가는 방식을 얘기한다. 파싱 방식으로는 두 가지가 있다. 전이 기반 방식은 버퍼와 스택으로부터 자질을 추출한 후, 딥러닝 모델을 적용해 다음 전이 액션을 결정하는 방식이다. 또다른 방식은 그래프 기반 방식인데, 이는 가능한 모든 단어 쌍의 의존 관계를 찾아 점수화해서 가장 높은 점수를 갖는 의존트리를 찾는 방식이다. 해당 논문에서는 SPMRL 데이터와 세종 데이터를 사용해 모델을 평가하였다.

 의존 파싱 모델은 마지막 Multi-level Biaffine Attention 모델에 BERT의 마지막 레이어의 출려값을 자질로 추가하여 모델을 구성했다. 해당 모델의 성능은 SPMRL 데이터에서 UAS(Unlabeled Attachment Score), LAS(Labeled Attachment Score)가 각각 93.24, 92.67%로 Multi-level Biaffine이나 Deep Biaffine, BERT(Multilinguial)을 사용한 Biaffine 모델보다 높은 성능을 보였다. 세종 데이터에서도 UAS, LAS가 92.67%, 90.58% 다른 모델들에 비해 높은 성능을 보여줬다.

 

5. 한국어 의미역 결정

 

 의미역은 서술어에 의해 나타나는 행위에 대한 명사구의 역할을 나타내며 이때 명사구를 논항이라고 한다. 의미역 결정은 서술어 인식 및 분류 단계와 논항 인식 및 분류 단계로 나누어진다. 해당 논문에서는 Korean Propbank 데이터를 테스트 데이터로 사용했다.

 의미역 결정 모델은 BERT의 마지막 레이어의 출력값을 통해 형태소 표상을 얻어내고, 이를 양방향 LSTM에 적용해 어절의 표상을 얻어냈다. 이를 바탕으로 어절태그, 서술어의 어휘 및 품사 정보, 서술어와 현재 어절 사이의 위치 정보를 LSTM-CRF를 적용한 모델에 사용하였다. Korean Propbank의 Newswire 말뭉치만 사용하였고 오류가 있는 문장은 제외하였다. 이를 통해 나온 모델의 성능은 84.46%로 LN LSTM-CRF의 78.10%, Stacked LSTM-CRF의 78.57%보다 높게 나왔다. 다른 두 모델의 테스트 데이터가 다르기에 완전한 비교는 불가하지만, 성능 자체가 향상된 것은 확인할 수 있다.

반응형

댓글