본문 바로가기

text/Python23

다문서 요약 하기 (multi-document summarization) 요즘 요약에 관심이 있어서 관련 논문을 찾아 보던중 (취미로) ‘아 이건 나도 구현이 가능할 것 같은데?’ 싶은 논문이 있어서 정리해보려고 한다. 문서 하나에 대해 요약하는 건 블로그에 정리한게 있다. (물론 생성요약이 아니라 추출요약이다.) 요약은 크게 추출 요약 (extractive) 과 생성 요약 (abstractive) 으로 나뉜다. 오늘 해볼 건 추출요약 (extractive) 이다. 참고한 논문은 Clustering Sentences with Density Peaks for Multi-document Summarization 으로 비슷하게 주제의 기사들의 ‘문장’ 들 간의 밀집도를 바탕으로 중요한 문장을 ‘추출’ 한다. 이 논문에서는 중요도를 크게 3가지로 나누었는데, representativ.. 2022. 3. 1.

네이버 댓글, 다음 댓글 이진분류 해보기 예전에 친구와 얘기를 나누던 중, 다음 기사와 네이버 기사의 댓글 온도차(?) 가 크다는 걸 발견했었다. 문제가 됐던 기사 인데, 네이버와 다음의 댓글은 각각 이랬다. https://news.naver.com/main/read.naver?m_view=1&mode=LSD&mid=sec&sid1=100&oid=032&aid=0003083419 문 대통령, 북한 풍산개 '곰이'가 낳은 강아지들 모습 공개 [경향신문] 문재인 대통령이 3일 사회관계망서비스(SNS)에 풍산개 ‘곰이’가 낳은 새끼 7마리의 모습을 공개했다. ‘곰이’는 2018년 남북정상회담 당시 김정은 북한 국무위원장이 문 대통령에게 news.naver.com https://news.v.daum.net/v/20210703121619046 문 대통령.. 2022. 1. 23.

다음 뉴스 댓글 가져오기 예전에 네이버 댓글을 모았었는데~ 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 .. hoonzi-text.tistory.com 다음 댓글도 모아서 뭔갈 하면 좋을 거 같아서 이번엔 다음 댓글을 모아봤다. 이번에도 역시 셀레니움은 쓰지 않고 오직 request만 조져서 가져와볼 생각이다. 우선 필요한 모듈들을 불러와 보자. import pandas as pd # 가져온 데이터를 테이블(rdbs) 형식으로 표기 및 저장 from bs4 import BeautifulSoup # html 을 파싱하.. 2021. 11. 26.

문서 요약 하기 (with textrank) 구글은 pagerank 라는 알고리즘을 통해 검색의 품질을 높혔다. pagerank 알고리즘을 설명해보자면 "더 중요한 페이지는 더 많은 사이트로부터 링크를 받는다" 는 관찰에 기조해 만들어진 알고리즘이다. 위키피디아에 써져있는 예를 보자면 페이지 A가 페이지 B,C,D 로 총 3개의 링크를 걸었다면 B는 A의 페이지 랭크 값의 (1/3) 만큼을 가져온다(?) 풀어서 써보자면 특정 페이지 A 에 B, C, D 의 링크를 걸었다면 ( B 페이지의 중요도(pageRank) + C 페이지의 중요도 + D 페이지의 중요도 ) / 3(=A페이지에 걸린 링크 수) 의 페이지 중요도 (pageRank A)를 가지게 되는 것이다. 또 알고리즘은 인터넷 서핑하는 가상의 인물(random surfer)를 정의 하고, 해당.. 2021. 10. 23.

뉴스 문서 군집화 하기.ver2 ( document clustering using Minhash & LSH) 두 문서의 유사도는 문서에 나타난 요소들 (ex. 음절, 어절, 형태소) 을 집합 형태로 만들어 집합간의 비교로 치환해 비교할 수 있다. 문서1 = "나는 밥을 먹었다. 나는 학교에 갔다." 문서2 = "나는 밥을 먹었고, 학교에 갔다." 두 문서가 존재 할때 두 문서를 어절 단위(띄어쓰기로 나눠서) 집합으로 변경시켜보면 문서1_집합 = { '나는', '밥을', '먹었다.', '학교에', '갔다.' } 문서2_집합 = { '나는', '밥을', '먹었고,', '학교에', 갔다.' } 이때 두 문서의 유사성을 비교할때 여러 방법들이 존재하지만 이번 글에서는 자카드 유사도(Jaccard similarity) 라는 방법을 이용한다. 자카드 유사도 ⇒ https://ko.wikipedia.org/wiki/자카드_.. 2021. 10. 15.

날짜 문자열 regex로 제거 정리글 기사 나 블로그 보면 제목에 날짜를 집어넣는 경우가 있다. (ex. 202X년 X월 X일 시황) 날짜는 굳이 필요없을때 제거할려고 regex 사용했다. 기사나 블로그 제목들 전부를 살펴본건 아니지만 자주 등장하는 패턴을 눈으로 보고 대충 정리하자면 년월일 들어간 경우 21년8월25일 2021년 8월 25일 8월 25일 년월일 대신 기호를 넣는경우 21.8.25 or 21.08.25 or 08.25 21-8-25 or 21-08-25 or 08-25 21/8/25 or 21/08/25 or 08/25 아무것도 없는 경우 20210825 or 21825 이정도로 대충 등장하는걸 확인할 수 있었다. 자주 찾아보는 regex 문법 사이트는 https://wikidocs.net/4308 07-2 정규 표현식 시작.. 2021. 9. 7.

python dictionary sort 정리 (sort by key & value) 매번 헷갈리고 알고리즘 문제 풀때마다 찾아보길래 이번 기회에 블로그에 적음으로 찾는 수고를 덜고자 한다. 프로그래머스에서 이번에 위클리 챌린지라고 leetcode에서 하는것 처럼 매주 문제 하나씩 내는데 4주차 문제에서 dictionary를 sort해야하는 문제가 나왔다. 3주차는 어려워서 건너뛰고 4주차 풀었다. 내가 생각하는 이 문제의 제일 중요한 부분은 dictionary 자료형의 sort 부분이다. 2번에 대해 자세히 서술해보면 구글에 "python dictionary sort" 를 검색했을때 가장 많이 나오는 답으로는 sort by value 다. value값 크기 대소를 통해 sort 하는 방법이다. # sort by value Ascending result = sorted(dictionary.. 2021. 8. 24.

뉴스 문서 군집화 하기 (document clustering with DBSCAN) 문서 클러스터링 해보려고 한다. 순서는 1. 데이터 모으기 2. 데이터를 분류 가능하게 변환하기 3. 변환된 데이터 분류하기 로 단순화 시킬 수 있다. 사용한 모듈의 경우 다음과 같다. - python 3.7 - requests, BeatifulSoup => 데이터 모으기 위해 사용 - pandas => 모은 데이터를 좀더 보기 편하게 바꾸거나, 저장하기 위해 사용 - Konlpy(Okt) => 데이터 정제할때 사용 - sklearn => 클러스터링 작업때 사용 1. 데이터 모으기 저번엔 NAVER 에서 데이터를 뽑았으니, 이번엔 DAUM에서 데이터를 뽑아보자 네이버 영화평 가져오기 네이버 영화평 가져오기 네이버 영화평 가져오기 설명 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용.. 2021. 4. 28.

문장 생성 해보기 with. mini-GPT (feat. 네이버 기사 댓글) 저번 문장 생성의 경우 RNN의 하나인 GRU를 이용해 문장을 생성해보았다. 문장 생성 해보기 (feat. 네이버 기사 댓글) 문장 생성 해보기 (feat. 네이버 기사 댓글) 이전 글을 통해 가져온 데이터를 이용해보자 가져온 데이터를 이용해 문장을 생성할 것이다. 1. 네이버 영화평 가져오기 네이버 영화평 가져오기 네이버 영화평 가져오기 설명 들어가기 전 네이 hoonzi-text.tistory.com 이번엔 언어 모델계 강력한 모델인 GPT...는 아니고, GPT구조를 간략하게 만든 mini-gpt를 이용해 문장을 생성해보려고 한다. GPT를 이해하기 위해서는 이해해야 하는 선행 개념들이 있다. 여러 블로그와 글들을 참고해서 나름의 정리를 하는데 틀릴수 있으니 걸러서 보면된다. attention이 뭔.. 2021. 4. 21.

이전 1 2 3 다음

티스토리툴바