home..
Soynlp
January 2022
개요
SOYNLP는 품사 태깅, 단어 토큰화 등을 지원하는 한국어 단어 토크나이저 입니다.
비지도 학습으로 단어 토큰화를 한다는 특징을 가지고 있으며, 데이터에 자주 등장하는 단어들을 분석합니다.
내부적으로는 응집 확률과 브랜칭 엔트로피를 통한 스코어로 돌아갑니다.
기존 토크나이저의 문제
기존 토크나이저의 문제는 신조어나 형태소 분석기에 등록되지 않은 단어 같은 경우에는 제대로 구분하지 못하는 단점이 있습니다.
이를 해결하기 위해 텍스트 데이터에서 특정 문자 시퀀스가 함께 자주 등장하는 빈도가 높고
앞 뒤로 조사 또는 완전히 다른 단어가 등장하는 것을 고려해서 해당 문자 시퀀스를 형태소라고 판단하여 해결하고자 한 것입니다.