본문 바로가기

파이썬 & 머신러닝과 딥러닝

(53)
로지스틱 회귀, K-Fold 교차 검증, 비복원추출, 배깅(랜덤 포레스트), 부스팅(AdaBoost, Gradient Boosting), XGBoost 로지스틱 회귀(Logistic Regression)   Iris 데이터셋을 사용하여 두 종(species) 간의 분류 문제→ 로지스틱 회귀(Logistic Regression) 모델을 적용→ 꽃잎의 길이를 기반으로 versicolor와 virginica 종을 분류 import seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionimport sklearn.metrics as slt# Iris 데이터셋 로드iris_df = sns.load_dataset('iris')# Versicolor와 Virginica 종만 선택iris_df = iris_df[(i..
SVM, K-means 클러스터링, 의사결정나무, 로지스틱회귀 SVM ( Support Vector Machine )주로 분류(classification) 및 회귀(regression) 분석에 사용되는 강력한 기계 학습 모델.SVM은 데이터를 여러 차원에서 분리하는 가상의 경계선(초평면)을 설정하여 클래스 간의 경계를 최대화하는 방식새로운 데이터가 입력되면 해당 데이터가 속한 범주를 찾기 위해 대상이 된 집단의 범주를 설정하기 위한 작업 수행대상 집단을 구분 짓는 기준선을 결정하는 모델이 SVM  SVM의 핵심 개념1. 가상의 경계선 (Hyperplane)SVM은 데이터를 두 개의 클래스로 분류하는 가상의 경계선(초평면)을 찾는다.이 경계선은 데이터 포인트 간의 거리를 최대화하여 분리. 즉, 클래스 간의 여유를 최대화하는 방향으로 설정됨.2. 마진 (Margin)마..
데이터 정규화, 표준화, 백분위수, 주성분 분석 (PCA), 회귀분석, 회귀 성능 평가(MAE, MSE, RMSE, R² 스코어) 정규화와 표준화1. 정규화 (Normalization)목적: 데이터를 특정 범위로 스케일링 (데이터의 스케일 차이를 줄이고, 분석 및 모델링 과정에서 특정 변수의 값이 다른 변수에 비해 과도한 영향을 미치는 것을 방지하는 것 일반적으로 [0, 1] 범위로 조정) 방법: Min-Max Scaling이 가장 일반적인 방법 -> 각 데이터 값을 0과 1 사이로 변환 ​사용 예: 신경망과 같은 머신러닝 알고리즘에서 입력 데이터를 동일한 범위로 조정하여 학습 속도와 성능을 향상시킴 2. 표준화 (Standardization)목적: 데이터를 평균 0, 표준 편차 1을 가지도록 변환주로 사용되는 방법: Z-score 표준화수식결과: 데이터가 평균이 0이고, 표준 편차가 1인 정규 분포 형태를 가집니다.장점: 각 변수..
통계적 공정관리 통계적 공정 관리 (SPC) S(Statistical) : 통계적 자료와 분석기법의 도움을 받아서P(Process) : 품질변동을 주는 원인과 프로세스의 능력상태를 파악하여C(Control) : 주어진 품질 목표를 달성할 수 있도록-> PDCA 사이클을 적용하며 지속적인 프로세스 개선이 이루어지도록 관리하는 활동 우연원인 : 통제할 수 없는것 (ex) 외부온도)이상원인 : 통제가 가능한 것 공정 능력 : 제조 공정이나 서비스 공정이 설정된 규격 내에서일관되게 제품이나 서비스를 제공할 수 있는 능력을 측정하는 지표 문제 해결 프로세스의 단계1. 이상요인 탐지2. 근본 원인 규명3. 수정 조치 실시4. 검증 및 모니터 관리도(컨트롤 차트)를 통한 공정 관리우연원인의 산포 속에서 이상원인의 출현을 감지해서 이..
통계의 이해(비율검정, 분산검정) 비율 검정모집단의 비율에 대한 가설을 검정하는 통계적 방법특정 비율이 주어진 값과 같은지 또는 두 비율이 동일한지 여부를 확인하는 데 사용비율검정은 주로 이항 분포를 기반으로 하며,여기서 성공 또는 실패와 같은 두 가지 가능한 결과만 있는 경우에 적용  1. 단일 비율 검정 (One-Proportion Z-Test)목적: 단일 모집단 비율이 특정 값과 다른지 확인 ->  한 집단의 비율이 특정 비율과 같은지 비교가설 수립:귀무 가설 (H0): 모집단 비율 p는 특정 값 p0와 같다.대립 가설 (H1): 모집단 비율 p는 특정 값 p0와 다르다 (양측 검정).검정 통계량:검정 통계량 Z는 다음과 같이 계산해석:계산된 Z 값과 표준 정규 분포를 사용하여 p 값을 구함p 값이 유의수준 (예: 0.05)보다 작..
통계의 이해(기술통계, 확률분포, 중심극한정리, 추론통계, 구간추정, 가설검정, 정규성검정, 평균검정) 통계의 구분기술(Descriptive) 통계 : 평균, 분산 등의 요약 통계량이나 그래프를 이용하여 정리, 요약추론(Inferential) 통계 : 표본에 포함된 정보로부터 모집단의 특성 파악 및 타당성 검토로 모수 추론, 미래 예측  모집단과 표본1. 모집단 (Population)모집단은 연구나 조사의 대상이 되는 전체 집단을 의미알고자 하는 모든 개체나 항목의 집합모평균, 모표준편차, 모분산, 모비율2. 모수 (Parameter)모수는 상수로 간주되는 값이며, 모집단의 특정 특성을 나타내는 대표값모집단 전체의 평균, 분산, 비율 등의 값이 값들은 고정되어 있으며, 모집단의 분포 특성을 요약하는 데 사용3. 표본 (Sample)표본분포는 모집단에서 무작위로 추출된 표본들의 통계량에 대한 분포이는 표본 ..
데이터 수집 및 정제 (데이터 결합, 데이터 변환, 데이터 정제), 시각화 데이터 결합 병합(merge), 결합(join): 데이터프레임의 공통 열(column) 혹은 인덱스(index)를 기준으로 두 개의 데이터프레임 합침이 때 기준이 되는 열, 행을 key(키)라고  병합 merge비교 기준 항목이 같으면 결측치 없는게 일반적비교 기준이 되는 열(column) 이름이 서로 다를 경우, left_on과 right_on 매개변수를 사용하여 지정    결합 join기존 데이터에 추가로 결합    데이터 변환 pivot 데이터프레임의 특정 열들을 새로운 행 또는 열로 변환하여 데이터를 재구조화하는 데 사용  데이터 재구조화 (Reshape): index, columns, values 세 가지 인수를 사용하여 데이터를 재구성pivot 함수는 데이터를 재구성하여 더 쉽게 분석할 수 있..
파이썬 분석 도구 및 주요 함수의 이해, 데이터 수집 및 정제 (데이터 선택) 파이썬 분석 도구 및 주요 함수의 이해 상수와 변수 상수: 값이 변하지 않는 숫자, 문자, 문자열 같은 고정된 값데이터 분석에서 사용하지 않는다 변수: 변화된 값으로 들어있는게 데이터분석 대상매개변수 : 수치를 인수로 던지는 것  기본자료형 숫자형: 숫자로 이루어진 자료형정수, 실수, 8진수, 16진수 (색상 지정시 사용) 문자형문자열 포맷팅 % : 문자열 안에 어떤 값을 삽입하는 방법color = '파랑's = '나는 %s를 좋아합니다.' % color# %s에 color값을 대입   자유도  식의 구성:yyy: 종속 변수 (Dependent variable)β0​: 상수항 (Intercept)β1​: xxx에 대한 기울기 (Slope of xxx)β2​: x^2에 대한 계수 (Coefficient o..