참고문헌

주석

Please modify this document if anything is erroneous or not included. Last updated at 2015년 02월 27일.

한국어 형태소 분석기

한국어 텍스트를 분석할 때 가장 기본적으로 행해야하는 것은 형태소 분석입니다. 이를 위해 다양한 프로그래밍 언어로 된 여러 라이브러리가 있습니다:

C/C++

  • KTS (1995) GPL v2
    • 이상호, 서정연, 오영환 (KAIST & 서강대)

    • code
  • MACH (2002) custom
    • 심광섭 (성신여대)

  • MeCab-ko (2013) GPL LGPL BSD
    • 이용운, 유영호

자바

  • 아리랑 (2009) Apache v2
  • 한나눔 (1999) GPL v3
    • KAIST 최기선 교수 연구팀

    • code, docs
  • 꼬꼬마 (2010) GPL v2
    • 서울대 이상구 교수 연구팀

    • 동적 프로그래밍을 이용해 형태소 후보를 찾음

    • 형태소의 주변을 확인하고, 몇몇 휴리스틱을 사용하고, HMM을 사용하는 방식으로 품사를 태깅함

    • 개발자 블로그: 이동주

  • KOMORAN (2013) Apache v2
    • By shineware

파이썬

  • KoNLPy (2014) GPL v3
    • 박은정 (서울대)

  • UMorpheme (2014) MIT
    • 김경훈 (UNIST)

R

  • KoNLP (2011) GPL v3
    • 전희원

그 외

다른 NLP 도구

  • Hangulize - By Heungsub Lee Python
    • Hangul transcription tool to 38+ languages
  • Hanja - By Sumin Byeon Python
    • Hanja to hangul transcriptor
  • Jamo - By Joshua Dong Python
    • Hangul syllable decomposition and synthesis
  • KoreanParser - By DongHyun Choi, Jungyeul Park, Key-Sun Choi (KAIST) Java
    • 언어 파서

  • Korean - By Heungsub Lee Python
    • Package for attaching particles (josa) in sentences

말뭉치

  • 연세 말뭉치, 연세대, 1987.
    • 1960년 이후 한국어에 대한 4200만 어절

  • 고려대학교 한국어 말뭉치, 1995
    • 1970-90년대 한국어에 대한 1000만 어절

  • HANTEC 2.0, KISTI & 충남대, 1998-2003.
    • 12만 개의 테스트 문서 (237MB)

    • QA를 위한 50개의 TREC 형태 질의

  • HKIB-40075, KISTI & 한국일보, 2002.
    • 텍스트 분류를 위한 40,075 테스트 문서 (88MB)

  • KAIST Corpus, KAIST, 1997-2005.

  • Sejong Corpus, National Institute of the Korean Language, 1998-2007.

comments powered by Disqus