본문 바로가기
반응형

전체 글158

[Mining Frequent Patterns, Associations, and Correlations] 1.What is Frequent Pattern Analysis? 자주 발생 패턴 분석(Frequent Pattern Analysis)은 데이터 세트에서 자주 발생하는 패턴(아이템 집합, 부분 순서, 부분 구조 등)을 찾는 과정입니다. 이는 Agrawal, Imielinski, Swami에 의해 자주 발생하는 아이템셋과 연관 규칙 마이닝(context of frequent itemsets and association rule mining)의 맥락에서 제안되었습니다. 이 분석 방법은 데이터 마이닝의 중요한 부분으로, 대용량 데이터에서 의미 있는 정보를 추출하는 데 사용됩니다. 예를 들어, 소매업에서는 고객이 자주 함께 구매하는 상품 집합을 파악하여 판매 전략을 개선하거나, 의학 분야에서는 특정 질병의 발병.. 2024. 4. 24.
[Finding Similar Items] 2. Locality Sensitive Hashing 1.Locality Sensitive Hashing (LSH) 지역 민감 해싱(Locality Sensitive Hashing, LSH)은 유사한 문서들의 짝을 찾는 과정에서 사용. 이 방법은 문서 간의 유사성을 효율적으로 찾기 위해, 유사할 가능성이 높은 signature 짝에 초점. LSH 과정. Shingling 문서에서 k 길이의 문자열 집합을 생성. 이 집합은 문서를 대표하는 집합으로, 문서의 내용을 기반으로 함. Min Hashing 생성된 문자열 집합을 기반으로 짧은 정수 벡터 형태의 signature 을 생성. 이 서명은 원래의 집합을 대표하며, 집합 간의 유사성을 반영. Locality Sensitive Hashing (LSH) Min Hashing을 통해 생성된 signature을 사용.. 2024. 4. 24.
[Finding Similar Items] 1.What is the Most Similar Image? 가장 유사한 이미지 찾기란, 500만 개의 이미지 중에서 가장 유사한 이미지를 찾는 과제를 말합니다. 이는 장면 완성 문제(Scene Completion Problem)와도 관련이 있습니다. 장면 완성 문제는 이미지 조각들이 포함된 유사한 장면을 찾아내어 이미지를 설득력 있게 완성하는 것을 목표로 합니다. 이러한 과제들의 동기는 이미지를 픽셀 색상의 벡터로 표현할 수 있다는 점에 있습니다. 주요 도전 과제는 고차원 데이터 포인트 x1, x2, ... 등이 주어졌을 때, 가능한 한 효율적으로 유사성을 어떻게 측정할 것인가입니다. 이를 해결하기 위한 방법으로는 다음과 같은 접근 방식이 있습니다: 특징 추출(Feature Extraction): 이미.. 2024. 4. 23.
[Data Preprocessing] 2. 1.Data Reduction 데이터 축소는 데이터 세트의 축소된 표현을 얻는 과정으로, 볼륨은 훨씬 작지만 같은(또는 거의 같은) 분석 결과를 생성합니다. 이는 여러 가지 이유로 필요합니다. 첫째, 데이터베이스나 데이터 웨어하우스는 테라바이트 단위의 데이터를 저장할 수 있습니다. 이러한 방대한 양의 데이터를 처리하는 것은 매우 시간이 많이 걸리고 비효율적일 수 있습니다. 둘째, 복잡한 데이터 분석을 전체 데이터 세트에서 실행하는 데는 매우 오랜 시간이 걸릴 수 있습니다. 데이터 축소를 통해 분석 시간을 단축하고, 저장 공간을 절약하며, 데이터를 더 효율적으로 관리할 수 있습니다. 따라서 데이터 축소는 대규모 데이터 세트를 효율적으로 처리하고 분석하는 데 필수적인 과정입니다. 이를 통해 같은 분석 결과를.. 2024. 4. 23.
반응형