본문 바로가기
반응형

text78

Garbage collection 이 무엇인가요? 왜 쓰나요? 어떤 문제가 있을까요? 누군가 인터넷에 올려놓은 면접 질문 리스트라고 해서 쭉 살펴봤는데 https://okky.kr/article/1255457 OKKY | 면접에서 들었던 & 했던 질문들 최근에 후배의 신입 개발자 면접을 도우면서 모의 면접관(?)으로서 던졌던 질문들을 공유합니다. 댓글로도 질문들 공유해주시면 많은 분들께 도움이 될 것 같습니다! 일반적인 질문들 1. 자기소 okky.kr 웬걸? 2번째 질문부터 막혔다. 나는... 컴공을... 졸업하고... 결국 코드 몽키가 되어버린 건가...? 그래서 나중에 이 지식이 필요할 미래의 나를 위해 한번 정리해보는 시간을 가진다. :) TL;DR Garbage collection 이 무엇인가요? → 접근 불가능한 객체들의 메모리 할당 해제 알고리즘 왜 쓰나요? → 필요 없는 객.. 2022. 8. 1.
CORS 에 대한 간략한 설명과 img 태그를 채우기 위한 삽질 오늘 회사에서 한 일에 대해 다시금 생각해본다. 저번에 올린 블로그 글 결과를 토대로 뉴스 군집화를 해냈다. (done이라는 뜻. complete가 아니라…) 점진적 뉴스 군집화 하기 (incremental news clustering) 요즘 관심 가지던게 하나 있는데 바로 점진적 문서 군집화 무슨 소리냐 뉴스의 경우, 계속 써지고 발간되고 사람들한테 제공된다. 지금까지 내가 해온건 어떤 시간대 (가령, 하루단위) 뉴스를 군 hoonzi-text.tistory.com 결과를 그럴듯하게 보여주기 위해 해당 뉴스가 가진 썸네일 데이터를 가져와야 했는데 다행히도 우리회사 데이터는 해당 뉴스에 등장 하는 이미지 데이터 역시 수집이 되어 있었다. 그냥 조회만 하면 됐다. (아래는 결과 예시) 문제는 방송사의 경우.. 2022. 6. 27.
점진적 뉴스 군집화 하기 (incremental news clustering) 요즘 관심 가지던게 하나 있는데 바로 점진적 문서 군집화 무슨 소리냐 뉴스의 경우, 계속 써지고 발간되고 사람들한테 제공된다. 지금까지 내가 해온건 어떤 시간대 (가령, 하루단위) 뉴스를 군집화(clustering) 한뒤, 비슷한 주제, 이슈로 묶여있길 바라며 군집을 살펴보는 일이였다. (오늘의 주요 이슈는 무엇인지 군집화된 뉴스를 통해 살펴보기 위해) 문제가 있다. 뉴스는 계속 만들어지고, 이슈는 계속 변한다. 특정 데이터를 통해 만든 문서 벡터 공간은 새로운 데이터가 나타나면 유효하지 않다 (새로운 feature가 생긴다는 얘기다. 벡터 공간을 통한 비교를 수행할 수 없다.) 위의 두문제를 해결하면서도 주요 이슈를 확인하기 위한 군집화를 위해 하루치 몰아서 하는게 아니라 특정시간대별로 군집화를 수행한.. 2022. 6. 6.
ㅇㅎ 게시물 수집하기 (fastapi, APScheduler, MySql) 개요 나는 커뮤니티를 자주 본다. 커뮤니티를 보다보면 게시물들 사이로 간간히 “ㅇㅎ” 라는 키워드가 붙은 게시물을 마주하게 되는데 “약한 후방주의” 라는 말의 줄임말이다. 후방 주의란? 남자들이 주로 접속하는 사이트들에는 하루에 적어도 하나씩 꼭 올라온다. 간간히 보이는 게시물은 보일때마다 무지성으로 클릭하게 되는데, 어느날 이런생각이 들었다. 하나로 모아서 보면 안될까? 좋은 생각이 떠오르면 그건 이미 누가 했다고 하던가... 이미 그런 사이트가 있었다. 모두의 후방 모두의 후방 모두의 후방 data.pureugong.com 하지만 나도 하나쯤은 만들어 보고 싶었다. 그래서 해당 사이트의 About 탭을 들어가 tech stack을 살펴본다. 오호 저런 기술로 구현하셨군... 하고 위로 좀만 올라가니 .. 2022. 5. 5.
다문서 요약 하기 (multi-document summarization) 요즘 요약에 관심이 있어서 관련 논문을 찾아 보던중 (취미로) ‘아 이건 나도 구현이 가능할 것 같은데?’ 싶은 논문이 있어서 정리해보려고 한다. 문서 하나에 대해 요약하는 건 블로그에 정리한게 있다. (물론 생성요약이 아니라 추출요약이다.) 요약은 크게 추출 요약 (extractive) 과 생성 요약 (abstractive) 으로 나뉜다. 오늘 해볼 건 추출요약 (extractive) 이다. 참고한 논문은 Clustering Sentences with Density Peaks for Multi-document Summarization 으로 비슷하게 주제의 기사들의 ‘문장’ 들 간의 밀집도를 바탕으로 중요한 문장을 ‘추출’ 한다. 이 논문에서는 중요도를 크게 3가지로 나누었는데, representativ.. 2022. 3. 1.
네이버 댓글, 다음 댓글 이진분류 해보기 예전에 친구와 얘기를 나누던 중, 다음 기사와 네이버 기사의 댓글 온도차(?) 가 크다는 걸 발견했었다. 문제가 됐던 기사 인데, 네이버와 다음의 댓글은 각각 이랬다. https://news.naver.com/main/read.naver?m_view=1&mode=LSD&mid=sec&sid1=100&oid=032&aid=0003083419 문 대통령, 북한 풍산개 '곰이'가 낳은 강아지들 모습 공개 [경향신문] 문재인 대통령이 3일 사회관계망서비스(SNS)에 풍산개 ‘곰이’가 낳은 새끼 7마리의 모습을 공개했다. ‘곰이’는 2018년 남북정상회담 당시 김정은 북한 국무위원장이 문 대통령에게 news.naver.com https://news.v.daum.net/v/20210703121619046 문 대통령.. 2022. 1. 23.
mousedown 과 checkbox 별거 아닌 거 같지만 정리하면 좋을 것 같아서 남겨본다. 상황은 이렇다. html table 의 row를 클릭하면 해당 row의 존재하는 checkbox가 클릭되는 경우를 javascript+jquery로 구현하고자 했다. 간단한 table 과 js 함수를 구성해보자 check column1 column2 hoonzi blog 해당 html의 결과는 이렇게 보인다. 여기서 나는 checkbox 이외의 hoonzi 혹은 blog를 클릭하더라도 같은 row상에 존재하는 checkbox가 체크 되었으면 한다. js 이벤트 함수를 짜 준다. $("#table tbody tr").on("mousedown", function() { let checkbox = $(this).find("input[type='check.. 2022. 1. 18.
로그인 로직 구현해보기 (jsp, java, tomcat) 정리 프로젝트중 로그인 부분을 구현해야 하는 것이 있었다. 당시 로그인 부분보다 더 급한 부분을 먼저 처리 하느라 로그인의 경우 보안적으로 무방비한 상태였다. 유저의 id, password를 받아 db 정보와 대조해본 뒤, 맞으면 넘어가고 틀리면 다시 로그인 페이지로 넘기는 단순한 로직인데 이때 id, password가 전혀 암호화가 이뤄지지 않은 상태로 네트워크 상을 돌아다니게 된다. 개발자 친구는 적어도 md5로 암호화 한뒤 보내는게 어떻겠냐고 제안할 정도였다. 그래서 마음 한켠으로 ‘아 언젠간 고쳐야지...’ 같이 생각만 하고 있다가 이번에 고치게 됐는데, 이거에 대해 간략히 정리한다. 지금 만들고 있는 웹은 java + jsp + tomcat으로 흔히들 사용하는 spring 이 아니라서 java,.. 2022. 1. 15.
다음 뉴스 댓글 가져오기 예전에 네이버 댓글을 모았었는데~ 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 네이버 기사 댓글 가져오기 들어가기 전 네이버의 robots.txt 에 대해 먼저 숙지하자. 사용 언어 및 모듈 - python 3.7 - request = request 요청을 보내 html 값을 가져오기 .. hoonzi-text.tistory.com 다음 댓글도 모아서 뭔갈 하면 좋을 거 같아서 이번엔 다음 댓글을 모아봤다. 이번에도 역시 셀레니움은 쓰지 않고 오직 request만 조져서 가져와볼 생각이다. 우선 필요한 모듈들을 불러와 보자. import pandas as pd # 가져온 데이터를 테이블(rdbs) 형식으로 표기 및 저장 from bs4 import BeautifulSoup # html 을 파싱하.. 2021. 11. 26.
반응형