반응형 전체 글155 네이버 영화평 가져오기 네이버 영화평 가져오기 설명 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 - bs4 (BeautifulSoup) = 받은 html 값을 요소별로 구분하기 - pandas = 구분한 값을 보기 편하게 - tqdm = 얼마나 진행되었는지 보기 위해 - random = 요청 보내는 시간을 불규칙하게 조절 - time = 한번 요청을 보내고 잠시 대기 하기 위해 네이버 영화평 corpus 가 이미 존재한다. (ref. github.com/e9t/nsmc) 총 20만개로 다들 이걸로 모델도 만들고, 감성분석도 수행하지만... 나는 데이터가 좀 더 많이 있었으면 좋겠다고 생각했다... 2021. 3. 29. Word2Vec parameter 정리 회사 프로젝트를 위해 Word2Vec 알고리즘을 사용해야 했는데 그때 내가 알아본 것들을 정리 해보려고 한다. 여러 파라미터에 의해 Word2Vec model은 영향을 받는데 코드를 돌리기 전에 각 파라미터별 의미나 영향에 대해 한글로 어느정도 알고있으면 나처럼 맨땅에 헤딩하지 않고 조금더 편해지지 않을까 싶다. 물론 내가 잘못 조사하거나 틀렸을수도 있다. 이글을 읽는 사람은 참고정도만 해주면 감사하겠다. 물론 태클 역시 대환영이다. 내가 사용한 모듈은 테스트시 Python으로 진행( gensim.Word2Vec 모듈) 실제 서비스를 위해서는 Java로 진행 (dl4j.Word2Vec 모듈) 을 사용하였다. 두 모듈 다 어느정도 비슷한 파라미터를 가지고 있으나, 두 모듈만의 파라미터도 존재하니 꼭 본인이.. 2021. 2. 18. 이전 1 ··· 15 16 17 18 다음 반응형