본문 바로가기

파이썬7

한국어 띄어쓰기 모델 수업 때 실수?로 교수님 질문에 대한 답을 해버려서 떠맡게 된 한국어 띄어쓰기 모델들 소개이다. 아는 것을 공유하는 것은 좋지만 발표까지 맡게될 줄은 전혀 몰랐다... 이 기회에 안그래도 필요했던 띄어쓰기 모델들을 정리해보자. 1. 한국어에서 띄어쓰기란? - 한국어 어문 규범에서의 띄어쓰기 제2항 문장의 각 단어는 띄어 씀을 원칙으로 한다. 국어에서 단어를 단위로 띄어쓰기를 하는 것은 단어가 독립적으로 쓰이는 말의 최소 단위이기 때문이다. ‘동생 밥 먹는다’에서 ‘동생’, ‘밥’, ‘먹는다’는 각각이 단어이므로 띄어쓰기의 단위가 되어 ‘동생 밥 먹는다’로 띄어 쓴다. 그런데 단어 가운데 조사는 독립성이 없어서 다른 단어와는 달리 앞말에 붙여 쓴다. ‘동생이 밥을 먹는다’에서 ‘이’, ‘을’은 조사이므로 .. 2023. 11. 16.
백준 단계별로 풀어보기!! - 재귀(recursion) https://www.acmicpc.net/step/19 재귀 단계 피보나치 수 역시 단순 for문으로도 구할 수 있지만, 학습을 위해 재귀를 써 봅시다. www.acmicpc.net 1. 재귀란? 간단히 말해서 함수가 자기 자신을 호출하는 용법이다. 언듯보면 for문이나 while문과 동일하다고 볼수 있지만 재귀는 함수내에서 if문을 사용함으로써 그 차이점을 보인다. def CountNum(num): if num == 0: print("Count Finished!") else: print(num) CountNum(num - 1) print(CountNum(10)) 위에 예시를 보면 함수 내에서 자기 자신을 호출하여 사용하는 것을 볼 수 있다. 위의 코드를 실행하면 결과는 아래와 같다. 10 9 8 7 .. 2020. 7. 13.
형태소 분석기 (Kiwi와 Soynlp) Kiwi 형태소 분석기 정의 Kiwipiepy는 한국어 형태소 분석기인 Kiwi(Korean Intelligent Word Identifier)의 Python 모듈입니다. C++로 작성되었고 다른 패키지에 의존성이 없으므로 C++ 컴파일이 가능한 환경이라면 어디에서나 Kiwipiepy를 사용 가능합니다. 출처: 설치법 python pip install kiwipiepy 특징 멀티스레딩 지원 단순 analyze는 단일 스레드를 지원하기에 코드를 직접 짜야한다. 코퍼스로부터 미등록 단어 추출 가능 extract_word(reader, min_cnt= , max_word_len= , min_score= ) reader -> 호출 가능한(callable) 객체여야 한다? min_cnt -> 추출할 단어가 입력 .. 2020. 5. 7.
10. 회귀 분석으로 연속적 타깃 변수 예측 이 글은 [머신러닝 교과서 with 파이썬, 사이킷런, 텐서프로]를 읽고 정리한 글이다. 10.1 선형 회귀 선형 회귀란? 지도 학습의 하위 카테고리로 하나 이상의 특성과 연속적인 타깃 변수 사이의 관계를 모델링하는 것이 목적이다. 즉, 샘플 포인터에 가장 잘 맞는 직선을 찾는 것이다. 10.1.1 단변량 선형 회귀 (Univariate linear regression) 하나의 특성(설명 변수(explanatory variable) x)과 연속적인 타깃(응답 변수(response variable) y) 사이의 관계를 모델링 하는 것을 단변량 선형 회귀이다. 그림에서 각 주황 점은 샘플 포인트를 뜻하며, 샘플 포인트를 가장 잘 맞추어 통과하는 직선을 회귀 직선(regression line)이라고 한다. 회.. 2020. 3. 17.