본문 바로가기
Study/ML&DL

관용표현 중의성 해소를 위한 다층위 임베딩 연구

by GodKim 2021. 12. 9.
본 글은 한국어정호학회 학술대회에서 발표된 [관용표현 중의성 해소를 위한 다층위 임베딩 연구] 박서윤 외(2021)를 읽고 정리한 글입니다.

관용표현

  • 같은 표현이 두 개 이상의 의미를 가진 중의적 언어 단위
  • 인지하거나 표현할 시 한 덩어리로 인식됨
    • b/c '습관적'으로 사용되기 때문
    • 미리 구성되어 있는(semipreconstructed) 표현들은 이미 언어 사용자의 머릿속에 존재한다
    ⇒ Idiom Principle
  • 해결법을 위한 연구
    • 문맥 내 표현이 관용적으로 쓰였는지 분류
    • 문맥 내 표현이 관용적인지 여부를 탐지(detection)

 

실험 방법

  • 3가지 방식으로 임베딩
    • 문맥에 나타난 표면형 그대로 임베딩
    • Idiom Principle을 적용해 관용표현을 '_'로 연결해 단일 토큰화 후 임베딩
    • 연결된 표현을 stemming해 임베딩
  • Word2Vec과 FastText에 위 방식에 어절 단위, 형태소 단위별로 분리해 총 12가지 방식으로 훈련을 진행
  • 분류 레이어로 bi-LSTM을 사용해 훈련된 임베딩 주입
  • 활성화 함수로는 sigmoid 함수 사용

 

실험 결과

  • 단순 단일화 토큰의 성능이 가장 낮음
  • stemming을 진행한 단일 토큰의 성능이 가장 좋음
    • stemming하지 않은 임베딩은 체언이나 용언의 곡용, 활용형을 서로 다른 토큰을로 인식 ⇒ 성능 저해 초래
    '말을_듣고', '말을_듣다' 모두 다른 토큰 취급
  • 어절 기반 토큰보다 형태소 단위 실험 성능이 더 좋음
  • Word2Vec보다 FastText의 성능이 더 좋음
    • 형태론적 특성이 강하게 나타나는 언어에 대해 FastText 성능이 좋음
    • 한국어는 교착어이기에 형태론적 특성이 강하가 나타남

      ◈ 한국어 자연어 처리할때 형태소 기반으로 실험하는 것이 필수적임을 시사

 

자연어처리 과정에서도 Idiom Principle이 영향을 끼침

반응형

댓글