본문 바로가기
728x90

IT 개인학습/Memo18

Train / Validation / Test Train / Test - > 답지를 보고 훈련을 하게되면 다른 학습데이터가 들어와도 제대로 맞출 수가 없다, train_test_split 함수는 데이터를 랜덤하게 섞은 후, 인덱스 기반으로 train set과 validation set으로 나누는 함수 - 배열의 형태가 들어갈 수 없음 * training set중 몇개를 따로 빼내서(hold out) test error를 직접적으로 추정하는 방법. hold-out은 데이터셋을 훈련셋과 테스트셋으로 분리 예를들어, 데이터셋의 80%를 훈련셋으로 삼아 모델을 훈련시키고, 나머지 20%를 테스트셋으로 이용해서 성능을 평가 그런데 훈련셋과 테스트셋으로만 나눠서 모델의 성능을 평가하다보면, 테스트셋이 모델의 파라미터 설정에 큰 영향 ==> 모델이 테스트셋에 오.. 2021. 7. 7.
정규화( Normalization, Standardization, Regularization ) Generalization : 통계에서 말하는 일반화를 말한다. 기계학습에서는 일반화 성능을 향상시킨다는 말이 많이 나오는데, Train data에 너무 overfitting 되지 않고, 좀 더 일반적인 모델을 만드는 것을 의미한다 == 학습된 모델이 새로운 데이터에서 얼마나 좋은 실행이 일어나는지의 정도 출처: https://jkook.tistory.com/23 [JinKook] Normalization 값의 범위(scale)를 0~1 사이의 값으로 바꾸는 것 학습 전에 scaling하는 것 머신러닝에서 scale이 큰 feature의 영향이 비대해지는 것을 방지 딥러닝에서 Local Minima에 빠질 위험 감소(학습 속도 향상) ==> normalization 하지 않으면 중요한 특성임에도 다른 특.. 2021. 7. 4.
728x90