반응형 text/Python22 DOM Based Content Extraction via Text Density 구현해보기 결론부터 말하자면 반쪽짜리 구현이다. 참고하고 더 읽을지 말지 결정하기 바란다. 사용모듈 - python 3.7 - requests = 뉴스기사 가져오기 위함 - BeautifulSoup = html 파싱을 위함 이전 두개의 글( 네이버 영화평, 네이버 댓글 수집) 에서 나는 크롤링이라는 말을 쓰지 않았다. 왜냐하면 어떤 velog 글을 보게 되었는데 velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I 🖨 '웹 크롤러' 좀 그만 만들어라 아무튼 그만 만들어라. velog.io 해당 글에서 나온 크롤링의 정의를 보고 내가 잘못 알고있었구나 라는걸 깨달았기 때문이다. 또한 직접 수집해보며 느낀점으로는 해당 page가 리뉴얼해 html tag나 구조가 변.. 2021. 4. 1. 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 - bs4 (BeautifulSoup) = 받은 html 값을 요소별로 구분하기 - pandas = 구분한 값을 보기 편하게 - tqdm = 얼만큼 진행되었는지 보기 위해 - random = 요청보내는 시간을 random하게 조절 - time = 한번 요청을 보내고 잠시 대기 하기 위해 네이버 영화 평에 이어 네이버 댓글을 가져오고 싶어졌다. 이유는 문장생성 때문. 영화평으로 문장을 생성하면 잘 만들어진 결과가 input : "이" => output : "이 영화 너무 재밌어요!" 정도. 한마디로 성.. 2021. 3. 29. 네이버 영화평 가져오기 네이버 영화평 가져오기 설명 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 - bs4 (BeautifulSoup) = 받은 html 값을 요소별로 구분하기 - pandas = 구분한 값을 보기 편하게 - tqdm = 얼마나 진행되었는지 보기 위해 - random = 요청 보내는 시간을 불규칙하게 조절 - time = 한번 요청을 보내고 잠시 대기 하기 위해 네이버 영화평 corpus 가 이미 존재한다. (ref. github.com/e9t/nsmc) 총 20만개로 다들 이걸로 모델도 만들고, 감성분석도 수행하지만... 나는 데이터가 좀 더 많이 있었으면 좋겠다고 생각했다... 2021. 3. 29. Word2Vec parameter 정리 회사 프로젝트를 위해 Word2Vec 알고리즘을 사용해야 했는데 그때 내가 알아본 것들을 정리 해보려고 한다. 여러 파라미터에 의해 Word2Vec model은 영향을 받는데 코드를 돌리기 전에 각 파라미터별 의미나 영향에 대해 한글로 어느정도 알고있으면 나처럼 맨땅에 헤딩하지 않고 조금더 편해지지 않을까 싶다. 물론 내가 잘못 조사하거나 틀렸을수도 있다. 이글을 읽는 사람은 참고정도만 해주면 감사하겠다. 물론 태클 역시 대환영이다. 내가 사용한 모듈은 테스트시 Python으로 진행( gensim.Word2Vec 모듈) 실제 서비스를 위해서는 Java로 진행 (dl4j.Word2Vec 모듈) 을 사용하였다. 두 모듈 다 어느정도 비슷한 파라미터를 가지고 있으나, 두 모듈만의 파라미터도 존재하니 꼭 본인이.. 2021. 2. 18. 이전 1 2 3 다음 반응형