본문 바로가기

AI/AI 부트캠프77

[AI 부트캠프] DAY 61 - 머신러닝 프로젝트 5 [오늘의 일지] 머신러닝 프로젝트 - 딥러닝, Stacking과 Voting, 대회 초기화 [상세 내용] 머신러닝 프로젝트 - 아래의 주제들을 설명하기에 앞서서 저희 조는 더 이상 발전이 없었던 평가지표 때문에 강사님께 조언을 구했습니다. 강사님도 이 정도 해서 진전이 없는 상태라면 완전히 다른 알고리즘 모델로 방향을 틀어봐야 한다고 말해주셨습니다. 그중 하나의 예시가 딥러닝이었는데 아직 딥러닝을 배우지 않은 상태여서 강사님은 머신러닝 알고리즘 모델 3가지를 앙상블을 하는 방법인 stacking이나 voting을 대회 같은 특수한 상황에서는 자주 사용한다고 말씀하셨습니다. 그래서 간단하게 알아보도록 하겠습니다. 딥러닝 - 딥러닝은 아직 배우지 않았기 때문에 간단하게 있는 코드만 가져와서 실행을 해보았습니.. 2023. 10. 18.
[AI 부트캠프] DAY 60 - 머신러닝 프로젝트 4 [오늘의 일지] 머신러닝 프로젝트 - 이상치 조절, 왜도가 심한 데이터 처리, 전처리 결과 [상세 내용] 머신러닝 프로젝트 이상치 조절 - 지난 일지를 보면 알겠지만 어느 시점부터 아무리 하이퍼파라미터를 더 많은 학습을 할 수 있도록 수정도 해보고 알고리즘 모델을 바꿔서 사용해 봐도 특정 평가지표에 머물러 있는 상황이 이어졌습니다. 그래서 결국 초심으로 돌아가서 주어진 데이터의 분포부터 파악했습니다. 데이터를 보다 보니 몇 가지 특이한 점을 발견했습니다. 타깃 값을 포함한 피치 5가지가 이상치를 많이 가지고 있었으며 왜도도 심하게 0 값으로 쏠려 있는 것을 확인했습니다. 그래서 이상치가 모델학습에 주는 영향에 대해서 한번 찾아보았습니다. 모델의 정확성에 부정적인 영향: 이상치는 모델이 일반적인 패턴을 학.. 2023. 10. 17.
[AI 부트캠프] DAY 59 - 머신러닝 프로젝트 3 [오늘의 일지] 머신러닝 프로젝트 - CatBoost, HistGradientBoosting, Random Forest [상세 내용] 머신러닝 프로젝트 CatBoost - 어제 LGBM을 사용하면서 계속해서 하이퍼파라미터를 여러 가지로 수정해 가면서 좋은 평가지표를 얻으려는 시도를 많이 했지만 아쉽게도 어느 순간부터는 정체되는 느낌을 받았고 optuna를 통해서 최적의 파라미터 값을 찾기 위해서 수치를 더 깊은 학습을 하도록 조정했지만 시간만 오래 걸렸고 실패했습니다. 그러던 중에 여러 가지 알고리즘을 사용하면서 최적의 모델을 찾을 수 있다는 이야기를 듣고 CatBoost를 사용해 보았습니다. CatBoost는 사실 카테고리컬 피처가 많이 존재할 때 자동으로 처리해 줄 수 있으므로 유용하다고 합니다. 그.. 2023. 10. 14.
[AI 부트캠프] DAY 58 - 머신러닝 프로젝트 2 [오늘의 일지] 머신러닝 프로젝트 - EDA, LGBM [상세 내용] 머신러닝 프로젝트 EDA - 어제 일지에서 소개했던 베이스라인 코드에 의하면 사실 간단하지만 전처리가 다 되어 있어서 머신러닝 대회를 처음 진행하는 입장에서 뭔가 할 게 없다고 느껴졌습니다. 다만 풍향과 관련된 데이터들이 결측치를 많이 가지고 있었는데 그냥 평균값으로 대체하는 것에 대해서 뭔가 찜찜함이 있었지만 일단은 넘어가고 LGBM을 돌렸는데 평가지표가 생각보다 잘 안 나오는 느낌이 들어서 결측치를 다른 방법으로 대체해 보기로 했습니다. 저희는 수업시간에 배운 대로 처음에는 KNN(K Neighbor Nearest)을 사용해 보았습니다. 근데 생각보다 결측치의 양이 많아서 그런가 시간은 시간대로 다 잡아먹고 결과는 실패로 나왔습니다.. 2023. 10. 13.
반응형