본문 바로가기

AI126

[AI 부트캠프] DAY 35 - EDA 프로젝트 6 [오늘의 일지] EDA 프로젝트 - 본격적으로 분석하기 [상세 내용] EDA 프로젝트 공격수의 수비지표와 수비수의 공격지표 확인하기 - 현대 축구로 발전하면서 공격수의 수비가담 횟수와 수비수의 공격가담 횟수가 점점 늘어나고 있다는 내용을 미디어에서 많이 접했던 기억이 났습니다. 그래서 이 내용이 사실인지 epl 데이터를 통해서 어느 정도 수치인지 확인해 보았습니다. 수비수의 공격지표를 보면 전체적으로 어느 정도는 올라가고 있는 추세는 맞는 거 같았습니다. 그렇지만 저희가 수집한 데이터가 2014년도부터 모아진 데이터이다 보니 이미 수비수의 공격 가담이 어느 정도 자리를 잡힌 상황이라 급진적으로 증가하는 그래프는 보이지 않았던 걸로 판단했습니다. 그리고 한 가지 특이한 점은 한 시즌 만다 지그재그 형태의 .. 2023. 9. 5.
[AI 부트캠프] DAY 34 - EDA 프로젝트 5 [오늘의 일지] EDA 프로젝트 - 본격적으로 분석 시작 [상세 내용] EDA 프로젝트 분석 방향 설정 - 지난 일지들을 보면 알다시피 저희 조는 조가 형성되고 스포츠라는 도메인으로 모여서 세부적 주제는 축구를 선택했습니다. 그렇게 1차적인 목표는 '선수의 연봉과 성적의 관계', '선수 연령이 증가하면서 스탯이 떨어질 것이라는 예상'으로 정하게 되었습니다. 그런데 선수의 연봉과 성적의 관계는 막상 데이터를 가지고 그래프를 만들어 보려고 하면 단순한 그래프로 밖에 표현이 안되고 더 이상 분석이라고 할 것도 없을 정도로 간단한 지표였습니다. 그래서 과감하게 포기하고 일단 하나의 주제만 분석해 보기로 했습니다. # eda_df가 전체 데이터 입니다. sns.jointplot(x="Age", y="Rating".. 2023. 9. 2.
[AI 부트캠프] DAY 33 - EDA 프로젝트 4 [오늘의 일지] EDA 프로젝트 - 자료 수집 마무리, 데이터 분석 시작 [상세 내용] EDA 프로젝트 자료 수집 수정 마무리 - 어제 작업을 마무리한 줄 알았지만 오늘 새롭게 크롤링해 왔던 연봉정보에 대한 자료가 조금 선수들 이름에서 차이가 있어서 마지막으로 정보를 수정했습니다. 수정을 마치고 다른 자료들과 오차율을 구해봤는데 3프로 때의 매우 적은 수치를 보였습니다. 다행이라고 생각합니다. import pandas as pd def convert_csv_values(input_file, output_file, column_name, value_mapping): # Load the CSV file df = pd.read_csv(input_file) # 칼럼에 딕셔너리 key를 value로 변경하는 과정.. 2023. 9. 1.
[AI 부트캠프] DAY 32 - EDA 프로젝트 3 [오늘의 일지] EDA 프로젝트 - 수집 자료 세부적으로 수정하기 [상세 내용] EDA 프로젝트 선수 이름 통합하기 - 어제 힘들게 하드코딩을 해서 선수 이름의 알파벳을 동일하게 만들어 주었습니다. 그리고 그 자료를 이용해서 다른 자료들과 비교해 보니 충분히 일치되는 부분들이 늘어났지만 아직도 일치되지 못하고 버려지는 자료들이 거의 30프로 이상이나 되었던 거 같습니다. 그래서 어려가지 방법을 생각해서 각각의 자료의 선수들의 이름을 통합시킬 방법을 생각해 보았습니다. 시행착오 - 처음에는 여러 가지로 많은 생각을 했습니다. 성과 이름사이에 빈칸이 차이가 있는 것은 아닐까 이름과 성에 존재하는 대소문자의 구별 때문이 아닐까 등의 생각을 거쳐서 몇 가지 실험적인 측면에서 임시로 작업을 해봤습니다. 작업의 내.. 2023. 8. 31.
반응형