본 글은 한국어정호학회 학술대회에서 발표된 [관용표현 중의성 해소를 위한 다층위 임베딩 연구] 박서윤 외(2021)를 읽고 정리한 글입니다.
관용표현
- 같은 표현이 두 개 이상의 의미를 가진 중의적 언어 단위
- 인지하거나 표현할 시 한 덩어리로 인식됨
- b/c '습관적'으로 사용되기 때문
- 미리 구성되어 있는(semipreconstructed) 표현들은 이미 언어 사용자의 머릿속에 존재한다
- 해결법을 위한 연구
- 문맥 내 표현이 관용적으로 쓰였는지 분류
- 문맥 내 표현이 관용적인지 여부를 탐지(detection)
실험 방법
- 3가지 방식으로 임베딩
- 문맥에 나타난 표면형 그대로 임베딩
- Idiom Principle을 적용해 관용표현을 '_'로 연결해 단일 토큰화 후 임베딩
- 연결된 표현을 stemming해 임베딩
- Word2Vec과 FastText에 위 방식에 어절 단위, 형태소 단위별로 분리해 총 12가지 방식으로 훈련을 진행
- 분류 레이어로 bi-LSTM을 사용해 훈련된 임베딩 주입
- 활성화 함수로는 sigmoid 함수 사용
실험 결과
- 단순 단일화 토큰의 성능이 가장 낮음
- stemming을 진행한 단일 토큰의 성능이 가장 좋음
- stemming하지 않은 임베딩은 체언이나 용언의 곡용, 활용형을 서로 다른 토큰을로 인식 ⇒ 성능 저해 초래
- 어절 기반 토큰보다 형태소 단위 실험 성능이 더 좋음
- Word2Vec보다 FastText의 성능이 더 좋음
- 형태론적 특성이 강하게 나타나는 언어에 대해 FastText 성능이 좋음
- 한국어는 교착어이기에 형태론적 특성이 강하가 나타남
◈ 한국어 자연어 처리할때 형태소 기반으로 실험하는 것이 필수적임을 시사
▶ 자연어처리 과정에서도 Idiom Principle이 영향을 끼침
반응형
'Study > ML&DL' 카테고리의 다른 글
파이토치(PyTorch)와 텐서플로우(Tensorflow) GPU 사용환경 구축하기 (2) | 2021.12.13 |
---|---|
CNN(Convolutional Neural Networks) - AlexNet (0) | 2020.07.13 |
퍼셉트론 (0) | 2020.03.24 |
10. 회귀 분석으로 연속적 타깃 변수 예측 (0) | 2020.03.17 |
8. 감성분석에 머신 러닝 적용 (0) | 2020.03.03 |
댓글