참고문헌

주석

Please modify this document if anything is erroneous or not included. Last updated at 2015년 10월 24일.

한국어 형태소 분석기

한국어 텍스트를 분석할 때 가장 기본적으로 행해야하는 것은 형태소 분석입니다. 이를 위해 다양한 프로그래밍 언어로 된 여러 라이브러리가 있습니다:

C/C++

Java/Scala

파이썬

  • KoNLPy (2014) GPL v3+
    • By Lucy Park (Seoul National University)
    • Wrapper for Hannanum, KKMA, KOMORAN, twitter-korean-text, MeCab-ko
    • Tools for Hangul/Korean manipulation
  • UMorpheme (2014) MIT
    • 김경훈 (UNIST)

    • Wrapper for MeCab-ko for online usage

R

  • KoNLP (2011) GPL v3
    • 전희원

    • Wrapper for Hannaum

그 외

말뭉치

  • 고려대학교 한국어 말뭉치, 1995
    • 1970-90년대 한국어에 대한 1000만 어절

  • HANTEC 2.0, KISTI & 충남대, 1998-2003.
    • 12만 개의 테스트 문서 (237MB)

    • QA를 위한 50개의 TREC 형태 질의

  • HKIB-40075, KISTI & 한국일보, 2002.
    • 텍스트 분류를 위한 40,075 테스트 문서 (88MB)

  • KAIST Corpus, KAIST, 1997-2005.

  • Sejong Corpus, National Institute of the Korean Language, 1998-2007.

  • 연세 말뭉치, 연세대, 1987.
    • 1960년 이후 한국어에 대한 4200만 어절

  • BoRA 언어자원은행, KAIST

다른 NLP 도구

  • Hangulize - By Heungsub Lee Python
    • Hangul transcription tool to 38+ languages
  • Hanja - By Sumin Byeon Python
    • Hanja to hangul transcriptor
  • Jamo - By Joshua Dong Python
    • Hangul syllable decomposition and synthesis
  • KoreanParser - By DongHyun Choi, Jungyeul Park, Key-Sun Choi (KAIST) Java
    • 언어 파서

  • Korean - By Heungsub Lee Python
    • Package for attaching particles (josa) in sentences
  • go_hangul (2012) - By Homin Lee Go BSD
    • Tools for Hangul manipulation [docs]
  • Speller (부산대)

[1]https://wiki.kldp.org/wiki.php/KTS