본문 바로가기
AI/AI 부트캠프

[AI 부트캠프] DAY 117 - 파이널 프로젝트 8

by HOHHOH 2024. 1. 6.

[오늘의 일지]

프로젝트 - 데이터 파악하기

[상세 내용]

데이터 파악

- 이제 약 4주가량 시간이 남지 않았기 때문에 더 이상 지체하지 않고 Ai-hub를 통해서 공개된 데이터를 파악해 보고 어떤 식으로 학습을 위해서 데이터를 정제할 수 있을지 파악해 보기로 했습니다. 데이터에 대한 정보는 링크를 통해 가보면 자세하게 나와 있습니다.

 

AI-Hub

샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되

www.aihub.or.kr

 

데이터 종류

- 데이터는 학습을 위한 이미지 데이터와 이미지 데이터의 특징을 담고 있는 json 파일로 된 데이터로 나눠져 있었습니다. json 파일은 아래와 같은 형태로 되어 있었습니다.

 

- 위의 json 파일을 정리하자면 하나의 json 파일은 하나의 비엔나 코드를 가지며 각기 다른 이미지 속에서 하나의 비엔나 코드를 위한 bbox의 좌표가 설정되어 있다고 할 수 있습니다. 그렇게 정리하고 보니 총 비엔나 코드는 392개의 클래스를 가지고 있었고 클래스마다 다양한 이미지를 가지고 있어서 총 200만 개가 넘는 이미지 데이터를 가지고 있다고 할 수 있었습니다.

 

다음주 할 작업

- 우선 json 파일로 되어 있으면 작업이 어렵기 때문에 정형 데이터 형식으로 모두 정리해서 작업을 하기 편하게 할 것이고 정형데이터를 만들어서 전체적으로 EDA를 진행해 보면 좋을 거 같다고 생각했습니다.

 

[마무리]

 오늘은 프로젝트를 위한 데이터에 대해서 정리해 보았습니다. 상황이 어찌 되었든 간에 그냥 가만히 있는다고 답이 나오는 상황이 아니기 때문에 무조건 뭐라도 시작을 해야 되겠다고 판단했습니다. 하나하나 하다 보면 다음 스탭이 기다리고 있을 거라 생각하는 것이 좋을 거 같습니다.

반응형

댓글