본문 바로가기

분류 전체보기192

[AI 부트캠프] DAY 33 - EDA 프로젝트 4 [오늘의 일지] EDA 프로젝트 - 자료 수집 마무리, 데이터 분석 시작 [상세 내용] EDA 프로젝트 자료 수집 수정 마무리 - 어제 작업을 마무리한 줄 알았지만 오늘 새롭게 크롤링해 왔던 연봉정보에 대한 자료가 조금 선수들 이름에서 차이가 있어서 마지막으로 정보를 수정했습니다. 수정을 마치고 다른 자료들과 오차율을 구해봤는데 3프로 때의 매우 적은 수치를 보였습니다. 다행이라고 생각합니다. import pandas as pd def convert_csv_values(input_file, output_file, column_name, value_mapping): # Load the CSV file df = pd.read_csv(input_file) # 칼럼에 딕셔너리 key를 value로 변경하는 과정.. 2023. 9. 1.
[AI 부트캠프] DAY 32 - EDA 프로젝트 3 [오늘의 일지] EDA 프로젝트 - 수집 자료 세부적으로 수정하기 [상세 내용] EDA 프로젝트 선수 이름 통합하기 - 어제 힘들게 하드코딩을 해서 선수 이름의 알파벳을 동일하게 만들어 주었습니다. 그리고 그 자료를 이용해서 다른 자료들과 비교해 보니 충분히 일치되는 부분들이 늘어났지만 아직도 일치되지 못하고 버려지는 자료들이 거의 30프로 이상이나 되었던 거 같습니다. 그래서 어려가지 방법을 생각해서 각각의 자료의 선수들의 이름을 통합시킬 방법을 생각해 보았습니다. 시행착오 - 처음에는 여러 가지로 많은 생각을 했습니다. 성과 이름사이에 빈칸이 차이가 있는 것은 아닐까 이름과 성에 존재하는 대소문자의 구별 때문이 아닐까 등의 생각을 거쳐서 몇 가지 실험적인 측면에서 임시로 작업을 해봤습니다. 작업의 내.. 2023. 8. 31.
[AI 부트캠프] DAY 31 - EDA 프로젝트 2 [오늘의 일지] EDA 프로젝트 - 수집한 자료 전처리 과정 [상세 내용] EDA 프로젝트 수집한 자료 전처리를 위한 회의 - 어제는 자료 수집을 위해서 각자 파트를 분담해서 크롤링을 한 후에 csv파일의 형태로 업로드를 시켰습니다. 사이트에 나온 자료들은 사이트에서 설정한 그대로의 칼럼이나 값들을 가지고 있었고 각각의 사이트마다 나타내는 값들이 달랐습니다. 예를 들면 선수의 이름이 표기방법이 다른 것들이 많았습니다. 알파벳에서도 유럽의 각 나라마다 쓰는 표기법이 다 달랐던 것입니다. 특히 독일, 덴마크, 스페인어권 나라 출신 사람들은 자국의 알파벳을 유독 사용하는 것 같았습니다. 간단한 예시로는 '마르틴 외데고르'라는 선수와 '다윈 누녜스'라는 선수들이 있습니다. 유니폼이나 공식적으로 사용하는 알파벳의.. 2023. 8. 30.
[AI 부트캠프] DAY 30 - EDA 프로젝트 1 [오늘의 일지] EDA 프로젝트 - 주제 정하기, 자료 수집(크롤링) [상세 내용] EDA 프로젝트 도메인 설정 - 이번 프로젝트는 EDA를 하는 과정으로서 어떤 도메인을 정하고 그 주제에 맞는 분석 주제를 따로 설정해서 여러 명이 조가 되어서 분석을 수행한느 것에 초점을 두었습니다. 프로젝트의 도메인을 정하는 방식은 설문조사를 통해서 이루어졌습니다. 여러 가지 선택지가 있었지만 저는 평소에 스포츠를 좋아하기도 하고 좋아하는 분야의 EDA를 접하면 흥미로움이 배가 되지 않을까 해서 고르게 되었습니다. 그렇게 스포츠를 선택한 4명이 조로 선정되었습니다. 사실 조은 저번주 금요일에 정해졌고 그때 어떤 내용의 EDA를 해볼지 주제까지 정했던 상황입니다. 처음에는 스포츠 중에서도 야구를 주제로 시작을 하려고 했.. 2023. 8. 29.
반응형