KoNLPy: 파이썬 한국어 NLP¶
KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요.
NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있으며, KoNLPy의 사용법 가이드는 사용하기, 각 모듈의 상세사항은 API 문서에서 보실 수 있습니다.
>>> from konlpy.tag import Kkma
>>> from konlpy.utils import pprint
>>> kkma = Kkma()
>>> pprint(kkma.sentences(u'네, 안녕하세요. 반갑습니다.'))
[네, 안녕하세요..,
반갑습니다.]
>>> pprint(kkma.nouns(u'질문이나 건의사항은 깃헙 이슈 트래커에 남겨주세요.'))
[질문,
건의,
건의사항,
사항,
깃헙,
이슈,
트래커]
>>> pprint(kkma.pos(u'오류보고는 실행환경, 에러메세지와함께 설명을 최대한상세히!^^'))
[(오류, NNG),
(보고, NNG),
(는, JX),
(실행, NNG),
(환경, NNG),
(,, SP),
(에러, NNG),
(메세지, NNG),
(와, JKM),
(함께, MAG),
(설명, NNG),
(을, JKO),
(최대한, NNG),
(상세히, MAG),
(!, SF),
(^^, EMO)]
거인의 어깨 위에 서기¶
아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다. 복잡미묘한 한국어 텍스트에서 유용한 특성을 추출하기 위해 그 동안 한국어 형태소 분석기 개발되기도 했습니다.
KoNLPy는 같은 기능을 하는 또 하나의 도구를 만들려는 것이 아닙니다. 그보다는, 현존하는 도구 위에 한 층을 쌓아 더 멀리 내다보려는 것입니다. 또한 KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문입니다.
이 프로젝트에는 세 가지 철학이 있습니다:
- 사용법이 간단해야 한다.
- 누구나 쉽게 이용할 수 있어야 한다.
- “인터넷 민주주의는 효과적이다.”
위의 항목 중 하나라도 어긋나는 것이 있다면 제보 부탁드립니다.
라이센스¶
KoNLPy는 오픈소스 소프트웨어이며, 아래의 라이센스를 채택하고 있습니다:
라이센스에 따라 자유롭게 코드를 이용하실 수 있으며, 연구에 KoNLPy를 사용하신 경우 아래 논문을 인용해주시기 바랍니다.
- 박은정, 조성준, “KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지”, 제 26회 한글 및 한국어 정보처리 학술대회 논문집, 2014.
BibTeX는 아래의 코드를 사용하시면 됩니다.:
@inproceedings{park2014konlpy,
title={KoNLPy: Korean natural language processing in Python},
author={Park, Eunjeong L. and Cho, Sungzoon},
booktitle={Proceedings of the 26th Annual Conference on Human & Cognitive Language Technology},
address={Chuncheon, Korea},
month={October},
year={2014}
}
참여하기¶
KoNLPy는 완벽하지 않습니다. 하지만 조금씩 지속적으로 발전시킬 예정이며, 누구나 개발 과정에 참여할 수 있습니다.
버그를 찾으셨나요? KoNLPy를 발전시킬 좋은 방법이 떠오르시나요? KoNLPy 깃헙 페이지 를 방문해서 아이디어를 제안해주시거나 풀리퀘스트를 보내주세요.
또, gitter 의 대화에 참여하시거나, KoNLPy 메일링리스트에 가입해서 관련 정보를 받아보거나 궁금한 것에 대한 질문을 할 수도 있습니다.
무엇보다, 질문하는 것만으로도 엄청난 기여라는 점을 알아주세요! 질문은 개발 커뮤니티에 피드백을 주는 가장 직접적이면서도 쉬운 방법이고, 아이디어의 원천도 됩니다.