본문 바로가기

ES3

엘라스틱 서치가 검색에 빠른 이유 오늘은 한 2주전?에 엘라스틱서치가 빠른 이유를 알게 되었는데 그동안 바빠서 정리를 못했었다. 먼저 다들 알고 있을만한 역 인덱싱 또한 엘라스틱 서치가 검색에 빠른 이유 중 하나이다. 엘라스틱서치,,, 진짜 신기하다. 엘라스틱서치 = ES 라고 부르겠다. 타자치기 힘들고 말하기도 힘듬.. 시작! 오늘 다루어볼 주제! - ES는 트랜잭션과 롤백 개념이 존재하지 않는다. - 업데이트라는 개념이 존재하지 않는다. - 속도가 빠르다?? >> 완전 실시간 검색이 가능하지는 않음. 1. 트랜잭션이 없다?!?! ES에서는 비용이큰 롤백, 트랜잭션을 지원하지 않는다. 그렇다면 ES에서는 쿼리를 어떡게 관리하고 충돌을 방지할까??? 트랜잭션의 존재 이유는 ACID를 만족시키기 위해서이다. 트랜잭션은 개별적으로 이루어져야.. 2022. 12. 17.
엘라스틱서치의 루씬 검색 라이브러리 https://wedul.site/677 용어 정리 재현율 검색 시스템에서 관련된 문서를 얼마나 빼먹지 않고 찾아두는지 정확도 검색 시스템에서 사용자가 입력한 검색어와 관련없는 문서를 얼마나 정확하세 제거 하는지 fuzzy 레빈슈타인 편집거리를 통해서 입력한 텀과 유사한 텀을 가진 문서를 찾아줌 비교되는 두 단어의 추가, 수정, 삭제에 대한 비용 처리를 하며 비용이 높을수로 서로 다른 term 검색 모델 순수 boolean 모델 지정된 질의에 문서가 해당하는지 아니면 해당하지 않는지를 판단하며 별도의 계산 부분이 없다. 벡터 공간 모델 질의와 문서 모두 고차원(차원은 term을 의미)의 벡터로 표현. 벡터간의 거리를 계산하면 문서와 질의 사이의 연관도나 유사도를 산출 할 수 있다. 확률모델 확률적인 방법.. 2022. 11. 22.
elasticsearch 엘라스틱서치는 루씬을 기반으로 방대한 양의 데이터를 신속하게 검색할 수 있는 검색엔진이다. 엘라스틱서치는 NRT (Near Rear Time)검색 플랫폼이라는 특징을 가지고 있고, 색인화 하는 시점부터 문서가 검색 가능해지는 시점까지 1초가량 걸리며 거의 실시간에 가까운 속도로 색인된 데이터의검색, 집계가 이루어진다. RestAPI을 사용함. 인덱스 라이프사이클 - 조건이 충족되면 다음 단계로 이동함. ex) 5GB이상 or 1day 이상 or index 1천만개 이상 지나면 다음 단계 ( data >ultrawarm ) 30일 이상 지나면 cold, 60일 이상이면 delete 1. datanode - 빠른 검색을 위한 data node 2. ultrawarm node - IA 검색을 위한 DATA 3.. 2022. 10. 27.