본문 바로가기
반응형

데이터수집4

다음 뉴스 댓글 가져오기 예전에 네이버 댓글을 모았었는데~ 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 .. hoonzi-text.tistory.com 다음 댓글도 모아서 뭔갈 하면 좋을 거 같아서 이번엔 다음 댓글을 모아봤다. 이번에도 역시 셀레니움은 쓰지 않고 오직 request만 조져서 가져와볼 생각이다. 우선 필요한 모듈들을 불러와 보자. import pandas as pd # 가져온 데이터를 테이블(rdbs) 형식으로 표기 및 저장 from bs4 import BeautifulSoup # html 을 파싱하.. 2021. 11. 26.
DOM Based Content Extraction via Text Density 구현해보기 결론부터 말하자면 반쪽짜리 구현이다. 참고하고 더 읽을지 말지 결정하기 바란다. 사용모듈 - python 3.7 - requests = 뉴스기사 가져오기 위함 - BeautifulSoup = html 파싱을 위함 이전 두개의 글( 네이버 영화평, 네이버 댓글 수집) 에서 나는 크롤링이라는 말을 쓰지 않았다. 왜냐하면 어떤 velog 글을 보게 되었는데 velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I 🖨 '웹 크롤러' 좀 그만 만들어라 아무튼 그만 만들어라. velog.io 해당 글에서 나온 크롤링의 정의를 보고 내가 잘못 알고있었구나 라는걸 깨달았기 때문이다. 또한 직접 수집해보며 느낀점으로는 해당 page가 리뉴얼해 html tag나 구조가 변.. 2021. 4. 1.
네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 - bs4 (BeautifulSoup) = 받은 html 값을 요소별로 구분하기 - pandas = 구분한 값을 보기 편하게 - tqdm = 얼만큼 진행되었는지 보기 위해 - random = 요청보내는 시간을 random하게 조절 - time = 한번 요청을 보내고 잠시 대기 하기 위해 네이버 영화 평에 이어 네이버 댓글을 가져오고 싶어졌다. 이유는 문장생성 때문. 영화평으로 문장을 생성하면 잘 만들어진 결과가 input : "이" => output : "이 영화 너무 재밌어요!" 정도. 한마디로 성.. 2021. 3. 29.
네이버 영화평 가져오기 네이버 영화평 가져오기 설명 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 - bs4 (BeautifulSoup) = 받은 html 값을 요소별로 구분하기 - pandas = 구분한 값을 보기 편하게 - tqdm = 얼마나 진행되었는지 보기 위해 - random = 요청 보내는 시간을 불규칙하게 조절 - time = 한번 요청을 보내고 잠시 대기 하기 위해 네이버 영화평 corpus 가 이미 존재한다. (ref. github.com/e9t/nsmc) 총 20만개로 다들 이걸로 모델도 만들고, 감성분석도 수행하지만... 나는 데이터가 좀 더 많이 있었으면 좋겠다고 생각했다... 2021. 3. 29.
반응형