주석
Please modify this document if anything is erroneous or not included. Last updated at 2015년 01월 18일.
한국어 텍스트를 분석할 때 가장 기본적으로 행해야하는 것은 형태소 분석입니다. 이를 위해 다양한 프로그래밍 언어로 된 여러 라이브러리가 있습니다:
K-LIWC (아주대)
Korean XTAG (UPenn)
HAM (국민대)
POSTAG/K (포스텍)
Speller (부산대)
UTagger (울산대)
(No name) (고려대)
1960년 이후 한국어에 대한 4200만 어절
1970-90년대 한국어에 대한 1000만 어절
12만 개의 테스트 문서 (237MB)
QA를 위한 50개의 TREC 형태 질의
텍스트 분류를 위한 40,075 테스트 문서 (88MB)
KAIST Corpus, KAIST, 1997-2005.
Sejong Corpus, National Institute of the Korean Language, 1998-2007.