728x90 기계학습(ML)/Tree based Model4 n224 Resampling(Cross Validation / K- hold out / BootStrap) 모델선택을 위한 교차검증 방법을 이해하고 활용할 수 있다. 하이퍼파라미터를 최적화하여 모델의 성능을 향상시킬 수 있다. 왜 train validation test로 나누나? * 모델 선택 ( Model Selection ) 우리 문제를 풀기위해 어떤 학습 모델을 사용해야 할 것인지? 어떤 하이퍼파라미터를 사용할 것인지? ==> 데이터 크기에 대한 문제, 모델 선택에 대한 문제를 해결하기 위해 사용 하는 방법 중 한가지 Cross validation (= 시계열 데이터는 안되) # 데이터셋 분리 from sklearn.model_selection import train_test_split X_train_val, X_test, y_train_val, y_test = train_test_split( X, y,.. 2021. 6. 20. n223 Evaluation Metrics for Classification 분류모델을 할 때에는Confusion matrix 를 만들고 해석할 수 있습니다. (=해당 matrix로 설명해야되) 정밀도, 재현율 을 이해하고 사용할 수 있습니다. ROC curve, AUC 점수 를 이해하고 사용할 수 있습니다. * True / False ==> 예측이 정확했는지 (판단을 올바르게 했다) * Positive / Negative ==> 모델을 통한 예측값 (판단자가 그렇다 판별) 병원에서 초기 암진단을 하는 경우? 넷플릭스에서 영화추천을 해주는 경우? 재현율이 중요 지표인 경우는 암 판단 모델이나 금융 사기 적발 모델과 같이 실제 Positive 양성 데이터를 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우이다. 따라서 보통 재현율이 정밀도보다 상대적으로 중요한 .. 2021. 6. 19. n222 RandomForest/ OrdinalEncoder 랜덤포레스트 모델을 이해하고 문제에 적용할 수 있습니다. 순서형인코딩(Ordinal encoding) 과 원핫인코딩을 구분하여 사용할 수 있습니다. 범주형 변수의 인코딩 방법이 트리모델과 선형회귀 모델에 주는 영향 이해합니다. * decision Trees / RandomForest 차이점 결정트리모델은 한 개의 트리만 사용하기 때문에 한 노드에서 생긴 에러가 하부 노드에서도 계속 영향을 주고 트리의 깊이에 따라 과적합되는 경향 ==> 앙상블모델인 랜덤포레스트를 사용하면 됨 (= 과적합을 막아주고 복원추출과정을 시행하여 서로다른 학습시행 == 최종결과(다수결 or 평균)에 영향 X ) 랜덤포레스트에서 학습되는 트리들은 배깅을 통해 만들어집니다.(bootstrap = true) 이때 각 기본트리에 사용되는.. 2021. 6. 19. n221 Decision Trees, gini, entropy 사이킷런 파이프라인(pipelines) 을 이해하고 활용 할 수 있습니다. 사이킷런 결정트리(decision tree) 를 사용할 수 있습니다. 결정트리의 특성 중요도(feature importances) 를 활용할 수 있습니다. 결정트리 모델의 장점을 이해하고 선형회귀모델과 비교할 수 있습니다. 모든 binary binary 변수는 다음과 같은 규칙을 따릅니다. 0 : No / 1 : Yes *지도학습 ==> train set을 학습 알고리즘에 넣은 다음 가설함수 도출 train set 알고리즘 price -> 가설함수 -> 추정치( predict ) 1. Train data ==> train / val set으로 나눔 # profiling ! pip install pandas-profiling==2... 2021. 6. 19. 이전 1 다음