본문 바로가기

전체 글192

[AI 부트캠프] DAY 31 - EDA 프로젝트 2 [오늘의 일지] EDA 프로젝트 - 수집한 자료 전처리 과정 [상세 내용] EDA 프로젝트 수집한 자료 전처리를 위한 회의 - 어제는 자료 수집을 위해서 각자 파트를 분담해서 크롤링을 한 후에 csv파일의 형태로 업로드를 시켰습니다. 사이트에 나온 자료들은 사이트에서 설정한 그대로의 칼럼이나 값들을 가지고 있었고 각각의 사이트마다 나타내는 값들이 달랐습니다. 예를 들면 선수의 이름이 표기방법이 다른 것들이 많았습니다. 알파벳에서도 유럽의 각 나라마다 쓰는 표기법이 다 달랐던 것입니다. 특히 독일, 덴마크, 스페인어권 나라 출신 사람들은 자국의 알파벳을 유독 사용하는 것 같았습니다. 간단한 예시로는 '마르틴 외데고르'라는 선수와 '다윈 누녜스'라는 선수들이 있습니다. 유니폼이나 공식적으로 사용하는 알파벳의.. 2023. 8. 30.
[AI 부트캠프] DAY 30 - EDA 프로젝트 1 [오늘의 일지] EDA 프로젝트 - 주제 정하기, 자료 수집(크롤링) [상세 내용] EDA 프로젝트 도메인 설정 - 이번 프로젝트는 EDA를 하는 과정으로서 어떤 도메인을 정하고 그 주제에 맞는 분석 주제를 따로 설정해서 여러 명이 조가 되어서 분석을 수행한느 것에 초점을 두었습니다. 프로젝트의 도메인을 정하는 방식은 설문조사를 통해서 이루어졌습니다. 여러 가지 선택지가 있었지만 저는 평소에 스포츠를 좋아하기도 하고 좋아하는 분야의 EDA를 접하면 흥미로움이 배가 되지 않을까 해서 고르게 되었습니다. 그렇게 스포츠를 선택한 4명이 조로 선정되었습니다. 사실 조은 저번주 금요일에 정해졌고 그때 어떤 내용의 EDA를 해볼지 주제까지 정했던 상황입니다. 처음에는 스포츠 중에서도 야구를 주제로 시작을 하려고 했.. 2023. 8. 29.
[AI 부트캠프] DAY 29 - 파이썬 EDA 9 [오늘의 일지] 파이썬 EDA 실시간 강의 - 데이터분석을 위한 선형대수학 강의 [상세 내용] 파이썬 EDA 데이터분석을 위한 선형대수학 - 강의의 제목은 선형대수학이지만 사실 짧은 시간에 선형대수학이라는 과목을 제대로 이해하고 넘어간 다는 것은 불가능하기에 가장 기본적인 벡터라는 것에 대해서 알아보고 앞으로 머신러닝을 하기 위해 필요한 몇 가지 용어들과 공식들에 대해서 간단하게 정의를 정리하고 그 공식들을 파이썬에서 써보는 걸로 강의를 마무리했습니다. 그럼 이제 정리해 보겠습니다. - 벡터 : 백터라는 용어를 처음 접하게 되는 것은 아마도 고등학교 수학이나 물리였던 걸로 기억하는데 사실 그땐 위치, 속도, 힘 등과 같이 크기와 방향성을 갖는 물리량을 나타내는 데 사용하는 기하학적 대상이라고 배웠던 기억.. 2023. 8. 26.
[AI 부트캠프] DAY 28 - 파이썬 EDA 8 [오늘의 일지] 파이썬 EDA 실시간 강의 - 타이타닉 데이터로 EDA 해보기, 데이터분석을 위한 선형대수학 강의 [상세 내용] 파이썬 EDA 타이타닉 데이터로 EDA 해보기 - 어제는 타이타닉 데이터를 이용해서 생존자와 상관관계가 높은 요소 찾기를 했었습니다. 근데 어제 일지의 앞부분에서 말했던 보통 데이터 분석을 하면 디폴트값처럼 이행해야 하는 3가지 전처리 과정이 있었지만 소개만 하고 할 필요성이 없어서 그냥 넘어갔는데 오늘은 그 전처리 과정 3가지를 자세하게 알아보겠습니다. 결측치가 존재하는지 dtype이 object인 column이 있는지 target value(예측 대상)의 distribution(분포)이 어떻게 되는지 그리고 이번 데이터를 EDA 하는 주제는 그냥 전처리 과정만 하고 넘어갈 .. 2023. 8. 25.
[AI 부트캠프] DAY 27 - 파이썬 EDA 7 [오늘의 일지] 파이썬 EDA 실시간 강의 - 공공데이터로 EDA 해보기, 타이타닉 데이터로 EDA 해보기 [상세 내용] 파이썬 EDA 공공데이터로 EDA 해보기 - 어제 사용했던 공공데이터 상권분석 자료를 이용해서 마저 남아 있던 주제의 분석을 마무리해 보겠습니다. 주제는 아래에 나와 있습니다. 한식 음식점들이 많이 사용하는 단어 찾아보기 '많이 사용하는'이라는 말을 다르게 표현하자면 빈도분석이라고 하는데요. 빈도를 분석하기 위해서는 일단 각각 전국단위로 분리되어 있는 데이터를 하나로 묶어주는 것이 중요합니다. 이 과정은 어제 진행했었는데 다시 해보겠습니다. 여기서 데이터 파일을 불러올 때 glob()이라는 라이브러리가 유용하게 사용됩니다. glob()은 원하는 폴더 안에 존재하는 파일들 중 원하는 단.. 2023. 8. 24.
[AI 부트캠프] DAY 26 - 파이썬 EDA 6 [오늘의 일지] 파이썬 EDA 실시간 강의 - Seaborn 복습, 공공데이터로 EDA 해보기 [상세 내용] 파이썬 EDA Seaborn 복습 - 오늘 복습은 lineplot, scatterplot, pairplot, heatmap까지 마무리를 하였습니다. lineplot과 scatterplot은 hue 파라미터를 첨가해서 그래프를 분석해 보면 두 plot의 경향성은 hue에서 설정한 칼럼의 데이터 별로 보면 각각의 분포를 파악할 수 있다는 점에서 비슷한 부분을 가지고 있습니다. # penguin 데이터에 lineplot을 출력합니다. sns.lineplot(data=data, x='body_mass_g', y='flipper_length_mm', errorbar=None, hue='species',pa.. 2023. 8. 23.
[AI 부트캠프] DAY 25 - 파이썬 EDA 5 [오늘의 일지] 파이썬 EDA 실시간 강의 - Pandas, Seaborn [상세 내용] 파이썬 EDA Pandas 추가 내용 - pandas를 이용하면 mysql이나 oracle 같은 sql 언어를 사용하는 프로그램처럼 데이터를 합치는 기능인 join을 사용할 수 있습니다. 그 기능을 정리해 보겠습니다. 정리할 함수는 concat()과 merge()입니다. 일단 데이터를 만들어 보겠습니다. # 넘파이 판다스 기능 사용 import numpy as np import pandas as pd # 데이터 만들어 놓기(실제데이터가 있다며 더 좋다) df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0'.. 2023. 8. 22.
[AI 부트캠프] DAY 24 - 파이썬 EDA 4 [오늘의 일지] 파이썬 온라인 녹화 강의 - Matplotlib 복습 및 Seaborn 추가 내용 정리, 데이터 이용해서 EDA 해보기 [상세 내용] 파이썬 EDA Seaborn 추가 내용 - Seanborn은 화려한 시각화 기법들을 제공하며 histplot, barplot, jointplot, lineplot 등과 같은 식의 함수의 형태를 가지고 있으며 sns.xxxplot(data=df)의 구조로 사용됩니다. 또 pandas DataFrame과 매우 호환이 잘 되는 특징을 가지고 있습니다. - Histplot : 지난 일지에서도 설명했지만 헷갈리는 부분이 있어서 다시 정의하려고 합니다. 히스토그램과 막대그래프는 비슷한 형태를 가지고 있지만 차이점을 가지고 있습니다. 히스토그램은 연속형 데이터에 사용되.. 2023. 8. 19.
[AI 부트캠프] DAY 23 - 파이썬 EDA 3 및 현직자 특강 [오늘의 일지] 오전에 현직자 특강 - 미국 월마트 현직 데이터 사이언티스트 강의 파이썬 온라인 녹화 강의 - Matplotlib과 Seaborn 정리 [상세 내용] 현직자 특강 현직자 특강의 전체적인 내용은 강사님이 어떻게 데이터 사이언스 분야를 접하게 되었는지 또 어떻게 공부하고 미국으로 떠나게 되었는지 등 여러 가지 동기부여 될 만한 주제를 가지고 강의를 해주셨습니다. 특히 미국 대학원에 들어가서 월마트에 입사에 성공한 뒤 데이터 사이언티스트의 직무에 관한 내용과 미국에서의 생활에 대한 내용이 재미있게 느껴졌던 거 같습니다. 여러 가지 많은 이야기를 해주셨는데 이번에 느낀 점은 이 분야는 열심히만 한다면 다양한 곳으로 진출할 수 있는 가능성이 큰 분야라는 것을 다시 새롭게 느꼈습니다. 파이썬 EDA.. 2023. 8. 18.
[AI 부트캠프] DAY 22 - 파이썬 EDA 2 [오늘의 일지] 파이썬 온라인 녹화 강의 - Numpy와 Pandas 복습, Matplotlib과 Seaborn 수업 듣기 [상세 내용] 파이썬 EDA Numpy, Pandas 복습 - 어제 배운 부분은 다시 생각하면서 복습했고 새롭게 나온 함수들만 정리해 봤습니다. [AI 부트캠프] DAY 21 - 파이썬 EDA 1 [오늘의 일지] 파이썬 EDA 실시간 강의 - Numpy, Pandas [상세 내용] 파이썬 EDA EDA - 정의 : 우선 수업을 듣기에 앞서서 EDA란 단어를 몰라서 찾아봤습니다. EDA는 Exploratory Data Analysis의 약어로 탐색적 데 odds-endz.com - Numpy의 집계함수 : 사실 이 부분은 판다스를 배울 때 나온 부분인데 넘파이에서 사용할 수 있는 함수.. 2023. 8. 17.
반응형