본문 바로가기

Study/ML&DL

관용표현 중의성 해소를 위한 다층위 임베딩 연구

by GodKim 2021. 12. 9.

본 글은 한국어정호학회 학술대회에서 발표된 [관용표현 중의성 해소를 위한 다층위 임베딩 연구] 박서윤 외(2021)를 읽고 정리한 글입니다.

관용표현

같은 표현이 두 개 이상의 의미를 가진 중의적 언어 단위

인지하거나 표현할 시 한 덩어리로 인식됨
- b/c '습관적'으로 사용되기 때문
- 미리 구성되어 있는(semipreconstructed) 표현들은 이미 언어 사용자의 머릿속에 존재한다
⇒ Idiom Principle

해결법을 위한 연구
- 문맥 내 표현이 관용적으로 쓰였는지 분류
- 문맥 내 표현이 관용적인지 여부를 탐지(detection)

실험 방법

3가지 방식으로 임베딩
- 문맥에 나타난 표면형 그대로 임베딩
- Idiom Principle을 적용해 관용표현을 '_'로 연결해 단일 토큰화 후 임베딩
- 연결된 표현을 stemming해 임베딩

Word2Vec과 FastText에 위 방식에 어절 단위, 형태소 단위별로 분리해 총 12가지 방식으로 훈련을 진행

분류 레이어로 bi-LSTM을 사용해 훈련된 임베딩 주입

활성화 함수로는 sigmoid 함수 사용

실험 결과

단순 단일화 토큰의 성능이 가장 낮음

stemming을 진행한 단일 토큰의 성능이 가장 좋음
- stemming하지 않은 임베딩은 체언이나 용언의 곡용, 활용형을 서로 다른 토큰을로 인식 ⇒ 성능 저해 초래
'말을_듣고', '말을_듣다' 모두 다른 토큰 취급

어절 기반 토큰보다 형태소 단위 실험 성능이 더 좋음
Word2Vec보다 FastText의 성능이 더 좋음
- 형태론적 특성이 강하게 나타나는 언어에 대해 FastText 성능이 좋음
- 한국어는 교착어이기에 형태론적 특성이 강하가 나타남

◈ 한국어 자연어 처리할때 형태소 기반으로 실험하는 것이 필수적임을 시사

▶ 자연어처리 과정에서도 Idiom Principle이 영향을 끼침

'Study > ML&DL' 카테고리의 다른 글

파이토치(PyTorch)와 텐서플로우(Tensorflow) GPU 사용환경 구축하기 (2)	2021.12.13
CNN(Convolutional Neural Networks) - AlexNet (0)	2020.07.13
퍼셉트론 (0)	2020.03.24
10. 회귀 분석으로 연속적 타깃 변수 예측 (0)	2020.03.17
8. 감성분석에 머신 러닝 적용 (0)	2020.03.03

댓글

티스토리툴바