뉴스 문서 군집화 하기.ver2 ( document clustering using Minhash & LSH)
두 문서의 유사도는 문서에 나타난 요소들 (ex. 음절, 어절, 형태소) 을 집합 형태로 만들어 집합간의 비교로 치환해 비교할 수 있다. 문서1 = "나는 밥을 먹었다. 나는 학교에 갔다." 문서2 = "나는 밥을 먹었고, 학교에 갔다." 두 문서가 존재 할때 두 문서를 어절 단위(띄어쓰기로 나눠서) 집합으로 변경시켜보면 문서1_집합 = { '나는', '밥을', '먹었다.', '학교에', '갔다.' } 문서2_집합 = { '나는', '밥을', '먹었고,', '학교에', 갔다.' } 이때 두 문서의 유사성을 비교할때 여러 방법들이 존재하지만 이번 글에서는 자카드 유사도(Jaccard similarity) 라는 방법을 이용한다. 자카드 유사도 ⇒ https://ko.wikipedia.org/wiki/자카드_..
2021. 10. 15.