Study41 8. 감성분석에 머신 러닝 적용 감성 분석(Sentiment Analysis)에 머신 러닝을 적용하여 글쓴이의 성향에 따라 문서를 분류하기. 감성 분석이랑 자연어처리(Natural Language Processing, NLP)의 하위 분야로 의견 분석(Opinion Mining)이라고도 한다. 이 분야는 주로 문서의 성향을 분석하는 것을 주로 다룬다. 예컨데, 특정 상품에 대한 리뷰의 성향을 글쓴이의 감정을 기반으로 문서를 분류하는 것과 같은 작업이다. 텍스트 데이터의 정제와 준비하기 텍스트 문서로부터 특성 벡터 구축하기 영화 리뷰를 긍정 또는 부정으로 분류하는 머신 러닝 모델을 훈련하기 외부 메모리 학습을 사용한 대용량 텍스트 데이터셋 다루기 문서를 카테고리로 묶기 위한 문서의 토픽 추론하기 8.1 텍스트 데이터 정제 8.1.1 타볼.. 2020. 3. 3. 6. 모델 평가와 하이퍼파라미터 튜닝 알고리즘을 미세 조정하여 높은 성능의 머신 러닝 모델을 만들고 성능을 평가하기 편향되지 않은 모델 성능 추정 머신 러닝 알고리즘에서 일반적으로 발생하는 문제 분석 머신 러닝 모델 세부 튜닝 여러 가지 성능 지표를 사용하여 모델 예측 성능 평가 6.1 파이프라인(Pipeline) 여러 개의 변환 단계를 포함한 모델을 학습하고 새로운 데이터에 대한 예측을 생성할 수 있다. 사이킷런의 변환기 중 fit / transform 메서드를 지원하는 객체에 한에서 make_pipeline 함수를 이용해 연결이 가능하다. ##PCA를 통해 30차원의 데이터를 2차원으로 낮추기 #StandardScaler, PCA, LogisticRegression을 하나의 파이프라인으로 연결 from sklearn.preprocessi.. 2020. 2. 18. 5. 차원 축소를 사용한 데이터 압축 차원 축소의 또다른 방식엔 특성 추출이 있다. 이 장에서는 데이터셋의 정보를 요약하는 3 가지 기술에 대해 알아 볼 것이다. 주성분 분석(Principal Component Analysis, PCA) 선형 판별 분석(Linear Discriminant Analysis, LDA) 커널 PCA(Kernel Principal Component Analysis, KPCA) 5.1 주성분 분석(Principal Component Analysis, PCA) PCA는 데이터에 의미있는 '축'을 찾는 과정이다. 각각의 축은 하나의 주성분에 해당한다. 데이터에는 차원의 수만큼 주성분이 존재하는데, 여기서 PCA는 어떤 축이 더 중요한지 그 우선순위를 수하는 과정이다. 특성 추출은 특성 선택과는 다르게 새로운 공간으로 데.. 2020. 2. 10. 2. 간단한 분류 알고리즘 훈련 2.1 인공 뉴런: 초기 머신 러닝의 간단한 역사 퍼셉트론(Perceptron) 프랑크 로젠블라트가 MCP(맥컬록-피츠) 뉴런 모델을 기반으로 퍼셉트론 학습 개념을 처음 발표했다. 그는 퍼셉트론 규칙에서 자동으로 최적의 가중치를 학습하는 알고리즘을 제안했다. 이 알고리즘 샘플로 한 클래스에 속하는지 아닌지를 예측 가능하다. 인공 뉴런의 수학적 정의 인공 뉴런의 아이디어를 두 개의 클래스가 있는 이진 분류 작업으로 볼 수 있다. 두 개의 클래스는 양성(1)과 음성(-1)으로 나타낸다. 그 후 입력 값 x와 이에 상응하는 가중치 벡터 w의 선형 조합으로 결정 함수(ϕ(z))를 정의한다. 이에 따른 최종 입력인 z는 z = w1x1+...+wmxm이다. 이제 x의 최종 입력이 사전에 정의된 임계 값 θ보다 크.. 2020. 1. 20. 이전 1 ··· 7 8 9 10 11 다음