데이터¶
말뭉치¶
다음의 말뭉치(corpus)를 사용할 수 있습니다:
kolaw
: 한국 법률 말뭉치.- constitution.txt
kobill
: 대한민국 국회 의안 말뭉치. 파일 ID는 의안 번호를 의미합니다.- 1809890.txt - 1809899.txt
KoNLPy에 포함된 말뭉치의 사용은 corpus Package 에서 더 자세하게 확인해볼 수 있습니다.
>>> from konlpy.corpus import kolaw
>>> c = kolaw.open('constitution.txt').read()
>>> print c[:10]
대한민국 헌법
유구한 역사와
>>> from konlpy.corpus import kobill
>>> d = kobill.open('1809890.txt').read()
>>> print d[:15]
지방공무원법 일부개정법률안
사전¶
사전은 대부분 말뭉치 를 이용해 구축되었으며 형태소 분석 및 품사 태깅 를 하는데 사용됩니다.
Hannanum
시스템 사전¶
KAIST 말뭉치를 이용해 생성된 사전. (4.7MB)
./konlpy/java/data/kE/dic_system.txt
에 위치해있으며, 아래에서 파일의 일부를 보실 수 있습니다.:
...
나라경제 ncn
나라기획 nqq
나라기획회장 ncn
나라꽃 ncn
나라님 ncn
나라도둑 ncn
나라따르 pvg
나라링링프로덕션 ncn
나라말 ncn
나라망신 ncn
나라박물관 ncn
나라발전 ncpa
나라별 ncn
나라부동산 nqq
나라사랑 ncn
나라살림 ncpa
나라시 nqq
나라시마 ncn
...
사용자 사전에 새로운 항목을 추가하기 위해서는 ./konlpy/java/data/kE/dic_user.txt
를 수정하시면 됩니다.
Kkma
시스템 사전¶
세종 말뭉치를 이용해 생성된 사전. (32MB)
꼬꼬마 형태소 분석기의 .jar
파일 안에 위치해 있습니다. 사전 파일을 직접 보기 위해서는 꼬꼬마 미러 를 확인해보시기 바랍니다. kcc.dic
는 다음과 같은 형태를 가집니다.:
아니/IC
후우/IC
그래서/MAC
그러나/MAC
그러니까/MAC
그러면/MAC
그러므로/MAC
그런데/MAC
그리고/MAC
따라서/MAC
하지만/MAC
...
Mecab
시스템 사전¶
세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB)
컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic
(또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedWord.csv
파일의 일부를 아래에서 보실 수 있습니다.:
가오티,0,0,0,NNG,*,F,가오티,*,*,*,*,*
갑툭튀,0,0,0,NNG,*,F,갑툭튀,*,*,*,*,*
강퇴,0,0,0,NNG,*,F,강퇴,*,*,*,*,*
개드립,0,0,0,NNG,*,T,개드립,*,*,*,*,*
갠소,0,0,0,NNG,*,F,갠소,*,*,*,*,*
고퀄,0,0,0,NNG,*,T,고퀄,*,*,*,*,*
광삭,0,0,0,NNG,*,T,광삭,*,*,*,*,*
광탈,0,0,0,NNG,*,T,광탈,*,*,*,*,*
굉천,0,0,0,NNG,*,T,굉천,*,*,*,*,*
국을,0,0,0,NNG,*,T,국을,*,*,*,*,*
귀요미,0,0,0,NNG,*,F,귀요미,*,*,*,*,*
...
사용자 사전을 추가하기 위해서는 이 곳 을 참고해주시기 바랍니다.
주석
시스템 사전과 사용자 사전 모두에 새로운 항목을 추가할 수 있지만, 두 경우에는 약간의 차이가 있습니다.
시스템 사전에 항목 추가하기: 사전 업데이트가 잦지 않은 경우, 속도 저하를 원하지 않는 경우.
사용자 사전에 항목 추가하기: 사전 업데이트가 잦은 경우, 관리자(root) 권한이 없는 경우.