Negative Sampling1 Stanford CS224n - Lecture 2 Word Vectors and Word Senses 이 글은 https://youtu.be/kEMJRjEdNzM 강의를 듣고 제가 더 편하게 이해하기 위해 정리한 글입니다. 혹시 제가 잘못 이해한 부분이 있다면 댓글로 친절히 알려주시면 감사하겠습니다! 1. Word Vectors 저번 강의에 이어 optimization에 관한 이야기 진행되었다. Gradient Descent 방법으로 J(θ)를 줄이는 것이 목표였지만, J(θ)는 코퍼스 전체에 대한 함수이기에 계산량이 너무 크다는 단점이 있다. => because, 손실함수 계산시에 전체 train set를 이용함 또한, 한 번 파라미터를 업데이트하는데 오랜 시간이 소요된다는 단점도 있다. 1.1. Stochastic Gradient Descent(SGD) 이를 보안하기 위해 등장한 것이 SGD이다. 손.. 2021. 7. 29. 이전 1 다음