본문 바로가기
반응형

분류 전체보기153

한글 파일(.hwpx) 에서 내용만 추출하고 싶을때 java로 hwp는 hwplib를 통해서 읽는데, hwpx를 읽으려고 하니 오류가 난다. 단순히 안에 있는 텍스트 내용만 가져오면 되는데 안 되는 게 답답하던 차ㅡ 구글에서 찾아보니 [아주 쉬운 뉴스 Q&A] 아래아한글 새 기본문서 'hwpx'가 뭐죠? | 아주경제 [아주 쉬운 뉴스 Q&A] 아래아한글 새 기본문서 'hwpx'가 뭐죠? | 아주경제 얼마 전 국민 워드프로그램 아래아한글의 기본문서 형식이 바뀌었습니다. 최신 프로그램 업데이트를 적용하면, 한글 문서를 작성하고 저장할 때 기존 hwp가 아니라 hwpx라는 형식의 파일이 만들 www.ajunews.com 위 링크를 참고하면 hwpx는 zip format으로 확장자를 변경하면 폴더 내 계층구조로 내용이 적혀있다는 것이다. zip으로 변경한 뒤, .. 2023. 1. 13.
python 으로 구현하는 간단간단 검색엔진 로직 inverted index를 알아보다 검색엔진 기본 로직을 작성해보는 글~ 목표 역색인과 검색엔진로직에 대해 간략히 알아보고, 해당 부분을 코드로 구현해 보자. 기존 관계형 데이터베이스에서는 텍스트 검색 시 걍 full-scan으로 검색해 결과를 반환한다. 물론 full-text search를 지원하지만 (https://dev.mysql.com/doc/refman/5.6/en/innodb-fulltext-index.html#innodb-fulltext-index-design) 비정형 데이터인 텍스트 검색을 위해 만들어진 엘라스틱 서치보다 나을까? 엘라스틱 서치의 강점으로는 아래와 같다. 전문 검색 엘라스틱서치는 전문 검색(Full Text)이 가능하다. 전문 검색이란 내용 전체를 색인해서 특정 단어가 포.. 2022. 12. 30.
(내가 몰라서 한) TCP와 UDP의 간략한 정리 네트워크를 학교 다닐 때 제대로 안 해서 누가 물어보면 아무 대답도 못하는 사람이 되어버렸다. 그래서 공부하는 겸에 TCP, UDP에 대한 간단한 설명을 적어본다. TCP, UDP 둘 다 OSI 레이어 중 전송 계층 (transport)의 프로토콜의 한 종류다. 전송 계층의 경우 목적지에 데이터를 정확히 전달하기 위한 계층이다. (하위 레이어인 물리, 데이터 링크, 네트워크 계층 만으로 목적지에 데이터가 덜렁 도착하기는 한다.(고 한다..!)) 전송계층은 역할은 오류를 점검하는 기능 전송된 데이터의 목적지가 어딘지(어떤 어플리케이션인지) 식별하는 기능 크게 두가지로 볼 수 있다. 또한 특징으로는 “신뢰성/정확성” 과 “효율성” 두 가지 다른 특성을 가지고 있는데, 신뢰할 수 있고 정확한 데이터 전달하는 .. 2022. 12. 5.
편집거리 알고리즘을 통한 검색어 자동완성 보정 (ft . Levenshtein Distance) 저번 검색어 자동완성 글 말미에 오타가 들어가 있는 경우, 제대로 된 단어로 유추될 수 있으면 좋겠다는 생각을 했는데 마침 적당한 알고리즘이 있어서 실제로 실습해봤다. 브랜드 이름 검색어 자동완성 2 (with Suffix Trie) 저번 Trie를 이용한 검색 자동완성의 연장선의 글이다. 브랜드 이름 검색어 자동완성 with Trie 브랜드 이름 검색어 자동완성 with Trie 인터넷을 돌아다니다 글을 하나 보게 됐다. 카테고리 자동완성 hoonzi-text.tistory.com 레벤 슈타인 알고리즘이라고… 이름부터 어렵지만 막상 까 보면 생각보다 별거 없는 알고리즘이 있다. 두 문자열이 얼마나 다른지 값으로 나타내주는 알고리즘으로 문자를 삽입, 삭제, 치환하여 다른 문자열로 변형하는데 필요한 최소 .. 2022. 11. 26.
POST 길이, 용량 제한 php 문법을 보다가 POST 부분에 php는 이렇다고 해서 갑자기 궁금해진 건데 과연 post 요청은 제한이 없나? (그렇다고 알고 있는데 진짜 그런가?) 현재 주로 사용중인 사항은 java+tomcat 8.0(로컬, 테스트) / 8.5 (본 서버)인데 톰캣은 설정을 통해 post 요청 한계를 변경 가능하다. maxParameterCount ⇒ 파라미터 개수 (-1로 설정 시 no limit) maxPostSize ⇒ 값의 크기 지정 (-1로 설정시 no limit) 실제로 설정 변경 시 적용이 되는지 아래의 블로그를 통해 확인할 수 있다. 기존 10000개가 넘는 파라미터 송신 시 마지막이 잘리는 걸 확인하고, 파라미터 변경 ( maxParameterCount 변경) 후 값이 제대로 넘어가는 걸 확인.. 2022. 11. 25.
자꾸 찾아보기 귀찮아서 쓰는 apache2.4 + php5.x 세팅 까먹을까 봐 쓰는 (자꾸 찾아보기 귀찮아서 쓰는) 아파치 웹서버 + php 세팅 php 버전과 apache 버전이 맞아야 함!! php ver : 5.4.45 (VC9, win32, x86) apache 2.4.23 (win32, VC10) -> https://www.apachelounge.com/download/additional/ Apache Additional downloads Keep Server Online If you find the Apache Lounge, the downloads and overall help useful, please express your satisfaction with a donation. A donation makes a contribution towards the.. 2022. 11. 24.
브랜드 이름 검색어 자동완성 2 (with Suffix Trie) 저번 Trie를 이용한 검색 자동완성의 연장선의 글이다. 브랜드 이름 검색어 자동완성 with Trie 브랜드 이름 검색어 자동완성 with Trie 인터넷을 돌아다니다 글을 하나 보게 됐다. 카테고리 자동완성 개발기 카테고리 자동완성 개발기 안녕하세요. 29CM 발견스쿼드에서 백엔드개발을 담당하고 있는 이동권입니다. 검색페이지에서 hoonzi-text.tistory.com 저번 검색어 자동완성의 경우, 검색어를 앞글자부터 Trie로 구성하기 때문에 중간에 나온 단어의 경우 검색어 자동완성에 노출되지 않는 문제가 있다. (예를 들어 “디”라는 단어를 칠 때 “디올” 은 나올 수 있지만 “아디다스”는 나오지 않는 문제가 있다.) suffix Trie는 이 문제를 해결하기 위한 자료구조로 기존 Trie(pr.. 2022. 11. 19.
SpringBoot에서 JSP사용 시 설정 springboot starter로 프로젝트 생성 때마다 jsp 설정 어떻게 했었는지 기억하기 위해 메모 1. 폴더 생성 src/main/webapp/webapp/WEB-INF/views/ 폴더 생성 2. application.properties 파일에 해당 내용 추가 spring.mvc.view.prefix=/WEB-INF/views/ spring.mvc.view.suffix=.jsp 3.pom.xml 에 해당 내용 추가 org.apache.tomcat.embed tomcat-embed-jasper javax.servlet javax.servlet-api 3.0.1 javax.servlet.jsp jsp-api 2.1 javax.servlet jstl 1.2 4. 윈도우 기준 configurations.. 2022. 11. 10.
브랜드 이름 검색어 자동완성 with Trie 인터넷을 돌아다니다 글을 하나 보게 됐다. 카테고리 자동완성 개발기 카테고리 자동완성 개발기 안녕하세요. 29CM 발견스쿼드에서 백엔드개발을 담당하고 있는 이동권입니다. 검색페이지에서 카테고리 자동완성 기능을 개발한 경험을 공유합니다. medium.com 어느 쇼핑몰의 검색어 자동완성에 대한 글을 봤다. 간단히 요약하자면, Trie 자료구조를 이용해 단어를 저장하고, 검색 시 조건에 맞는 단어를 보여 준다는 글이다. 다 읽고, ‘오 이정도면 한번 구현해볼 만 한데?’ 싶어서 작업에 들어갔다. 대략 순서는 이렇다. 데이터 수집 Trie 자료구조에 저장 결과를 반환해줄 api , html 페이지 구성 글을 읽은 것과 코딩을 시작한건 시간차가 좀 있다. 그래서 그런지 저 기술 블로그가 ‘무신사’라고 착각해 데.. 2022. 11. 7.
반응형