반응형 전체 글158 [Data Preprocessing] 1.Major Tasks in Data Preprocessing데이터 전처리에서의 주요 작업은 데이터를 분석하기 전에 데이터를 정제하고 준비하는 과정.이 과정은 데이터의 품질을 높이고 분석의 정확도를 향상시킴.데이터 전처리의 주요 작업들:데이터 정제(Data cleaning)누락된 값 채우기, 잡음이 있는 데이터를 부드럽게 하기, 이상치 식별 또는 제거하기 등을 포함.데이터 정제의 목적은 데이터의 정확성과 일관성을 높이는 것.예를 들어, 누락된 값은 특정 규칙이나 평균값을 이용해 채울 수 있으며, 이상치는 데이터의 전반적인 패턴에서 벗어나는 값으로, 분석에 영향을 미칠 수 있기 때문에 제거하거나 따로 처리.데이터 통합(Data integration): 여러 데이터베이스나.. 2024. 4. 23. [TF-IDF] 2. 1.Document frequency, continued 문서 빈도(Document Frequency, df)는 전체 문서 집합에서 특정 용어가 나타나는 문서의 수를 나타냅니다. 일반적으로 흔한 용어는 드문 용어보다 정보를 제공하는 데 있어 덜 유용하다고 여겨집니다. 예를 들어, 'high', 'increase', 'line'과 같은 자주 나타나는 쿼리 용어들은 문서 집합 내에서 빈번하게 등장합니다. 이러한 용어가 포함된 문서는 해당 용어가 포함되지 않은 문서보다 관련성이 높을 가능성이 있습니다. 그러나 이러한 용어들만으로는 문서의 관련성을 확실히 판단하기 어렵습니다. 따라서, 우리는 흔한 용어에 대해서도 높은 긍정적 가중치를 주되, 드문 용어보다는 낮은 가중치를 부여하고자 합니다. 이를 위해 문서 빈도.. 2024. 4. 23. [TF-IDF] 1.Ranked retrieval랭크 검색(Ranked retrieval)과 불리언 쿼리(Boolean query).불리언 쿼리는 문서가 주어진 조건과 일치하는지 또는 일치하지 않는지를 판단하는 검색 방법.이 방식은 사용자가 자신의 필요와 컬렉션에 대해 정확하게 이해하고 있을 때, 또는 특정 애플리케이션에서 수천 개의 결과를 쉽게 처리할 수 있을 때 유용.예를 들어, 사용자가 '고양이 AND 검정'과 같은 쿼리를 입력하면, 오직 '고양이'와 '검정'이라는 단어를 모두 포함하는 문서만을 결과로 반환.이 방식은 매우 정확한 검색을 원하는 전문 사용자나, 특정 애플리케이션에서 매우 유용.그러나 대부분의 사용자에게는 이러한 방식이 그다지 적합하지 않음.불리언 쿼리를 작성하는 것은 대부분.. 2024. 4. 23. [Performance Evaluation] 2. Performance metrics for classification(2) 보호되어 있는 글 입니다. 2024. 4. 22. 이전 1 ··· 24 25 26 27 28 29 30 ··· 40 다음 반응형