반응형
훈련 데이터(Training dataset)와 테스트 데이터(Test dataset)라는 키워드를 생각해보면 이렇게 떠오른다. 모델 훈련에 훈련 데이터를 사용하고, 훈련이 완료된 모델을 테스트 데이터로 검증하여 정확도를 산출한다. 챌린지들에서는 훈련 데이터와 테스트 데이터를 이거로 하라고 주어주고 그냥 모델 최적화만 하도록 주어진다.
Training set - a set used for learning and estimating parameters of the model.
Validation set - a set used to evaluate the model, usually for model selection.
Testing set - a set of examples used to assess the predictive performance of the model.
Borovicka, T., Jr., M. J. , Kordik, P., & Jirina, M. (2012). Selecting Representative Data Sets. In (Ed.), Advances in Data Mining Knowledge Discovery and Applications. IntechOpen. https://doi.org/10.5772/50787
모두를 위한 머신러닝이 떠올라 해당 내용을 보니 인용하신 논문이 나왔다. 그런데 Validation set이 튀어나와 좀더 찾아보았다.
Training, Validation and Test sets 차이 및 정확한 용도 (훈련, 검정, 테스트 데이터 차이)
https://modern-manual.tistory.com/19
Machine Learning에서 validation set을 사용하는 이유
https://3months.tistory.com/118
훈련 데이터와 테스트 데이터 둘로 분류한다면 훈련데이터는 "모델 훈련", 테스트 데이터는 "성능 측정"에 사용된다. 여기에 검증 데이터의 역할은 훈련 데이터로 학습한 모델의 최종 성능을 평가하기 전에 성능을 미리 측정해 보아 정말 학습이 잘 되었는지 확인한다. 이 과정에서 과적합(overfitting)과 같은 문제를 해결할 수 있고 검증 데이터 추출 기법을 다양하게 시도해 보며 성능 향상을 꾀할 수 있다.
참고자료
https://gooopy.tistory.com/88
https://hunkim.github.io/ml/
728x90
'Computer Science > Machine Learning' 카테고리의 다른 글
[3] 머신러닝 기본개념 - 레이블 (Label) (0) | 2022.12.09 |
---|---|
[1] 머신러닝 기본개념 - 가설공간 (Hypothesis Space) (0) | 2022.12.08 |
[0] The Quest for Machine Learning (0) | 2022.12.07 |