참고문헌¶

주석

Please modify this document if anything is erroneous or not included. Last updated at 2015년 01월 18일.

한국어 형태소 분석기¶

한국어 텍스트를 분석할 때 가장 기본적으로 행해야하는 것은 형태소 분석입니다. 이를 위해 다양한 프로그래밍 언어로 된 여러 라이브러리가 있습니다:

C/C++¶

KTS (1995) GPL v2
- 이상호, 서정연, 오영환 (KAIST & 서강대)
- code
MACH (2002) custom
- 심광섭 (성신여대)
MeCab-ko (2013) GPL LGPL BSD
- 이용운, 유영호

자바¶

아리랑 (2009) Apache v2
- 이수명
- code
한나눔 (1999) GPL v3
- KAIST 최기선 교수 연구팀
- code, docs
꼬꼬마 (2010) GPL v2
- 서울대 이상구 교수 연구팀
- 동적 프로그래밍을 이용해 형태소 후보를 찾음
- 형태소의 주변을 확인하고, 몇몇 휴리스틱을 사용하고, HMM을 사용하는 방식으로 품사를 태깅함
- 개발자 블로그: 이동주
KOMORAN (2013) Apache v2
- By shineware

파이썬¶

KoNLPy (2014) GPL v3
- 박은정 (서울대)
UMorpheme (2014) MIT
- 김경훈 (UNIST)

R¶

KoNLP (2011) GPL v3
- 전희원

그 외¶

K-LIWC (아주대)
KRISTAL-IRMS (KISTI)
- 개발 후기
Korean XTAG (UPenn)
HAM (국민대)
POSTAG/K (포스텍)
Speller (부산대)
UTagger (울산대)
(No name) (고려대)

다른 NLP 도구¶

언어 파서¶

KoreanParser - By DongHyun Choi, Jungyeul Park, Key-Sun Choi (KAIST)

말뭉치¶

연세 말뭉치, 연세대, 1987.
- 1960년 이후 한국어에 대한 4200만 어절
고려대학교 한국어 말뭉치, 1995
- 1970-90년대 한국어에 대한 1000만 어절
HANTEC 2.0, KISTI & 충남대, 1998-2003.
- 12만 개의 테스트 문서 (237MB)
- QA를 위한 50개의 TREC 형태 질의
HKIB-40075, KISTI & 한국일보, 2002.
- 텍스트 분류를 위한 40,075 테스트 문서 (88MB)
KAIST Corpus, KAIST, 1997-2005.
Sejong Corpus, National Institute of the Korean Language, 1998-2007.

General NLP resources¶

comments powered by Disqus

Fork me on GitHub

목차

참고문헌

Related Topics

Documentation overview
- Previous: 테스트하기
- Next: konlpy Package