본문 바로가기
반응형

분류 전체보기193

[Classification 1] 2. Data split in supervised learning Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 2. Data split in supervised learning 2.1 Over-fitting training data 과적합(over-fitting) 모델이 훈련 데이터에 너무 잘 맞춰져 있어서, 새로운 데이터나 테스트 데이터에 대해서는 잘 작동하지 않는 현상. 이는 모델이 훈련 데이터의 패턴뿐만 아니라 노이즈까지 학습해버려, 일반화(generalization) 능력이 .. 2024. 4. 21.
[Classification 1] 1. Introduction to supervised learning approach Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 1. INTRODUCTION TO SUPERVISED LEARNING 1.1 Supervised learning 지도 학습은 주어진 입력(X)에 대해 예측하고자 하는 출력(Y)을 예측하는 학습 방법. (Task: given X, predict Y) 이 과정에서 사용되는 데이터는 레이블이 지정된 데이터, 즉 X(입력)와 Y(출력) 모두가 포함된 데이터. "예측 결과(Y)"를 .. 2024. 4. 21.
Amazon AWS Certified Solutions Architect - Associate (SAA-C03) 덤프 문제(41~50) 문제 41 회사 회사의 애플리케이션은 데이터 수집을 위해 여러 SaaS(Software-as-a-Service) 소스와 통합된다. 이 회사는 Amazon EC2 인스턴스를 실행하여 데이터를 수신하고 분석을 위해 데이터를 Amazon S3 버킷에 업로드한다. 데이터를 수신하고 업로드하는 동일한 EC2 인스턴스도 업로드가 완료되면 사용자에게 알림을 보낸다. 요구사항 회사는 느린 응용 프로그램 성능을 발견했으며 가능한 한 성능을 개선하려고 함. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션 설계 답 => Amazon AppFlow 흐름을 생성하여 각 SaaS 소스와 S3 버킷 간에 데이터를 전송한다. S3 버킷에 업로드가 완료되면 Amazon Simple Notification Service(A.. 2024. 4. 21.
[Exploratory Data Analysis] 3. Exploratory data analysis (2) 2024.04.21 - [Computer Science/기계학습] - [Exploratory Data Analysis] 3. Exploratory data analysis (1) Content Data Data quality Exploratory data analysis Numerical summary Graphical summary 3.14 Exploring categorical variables 범주형 변수를 탐색할 때, 중심 경향성을 측정하는 한 가지 방법은 '최빈값'을 사용하는 것. 최빈값은 데이터 세트에서 가장 자주 발생하는 값을 의미. 범주형 데이터의 경우, 수치적 요약 통계보다는 표를 사용하여 데이터를 검토하는 것이 더 일반적. 범주형 데이터를 분석할 때 자주 사용되는 표 중 하나는 '교차 .. 2024. 4. 21.
반응형