본문 바로가기
AI/기초 이론

[AI 부트캠프] DAY 2 - 기초 통계학 및 수학 이론 강의 1

by HOHHOH 2023. 7. 19.

[오늘의 일지]

통계학 기초 정리 - 대푯값, 분산도, 기술통계

기초 수학 및 통계 - 기본 용어 정리

[상세 내용]

통계학 기초 정리

대푯값

- 산술평균 : 흔히 알고 있었던 주어진 수의 합을 주어진 수의 개수로 나눈 값을 의미한다.

- 기하평균 : 기하평균은 보통 연속된 숫자들의 상승률을 가지고 각 구간에서 평균적인 상승률을 구할 때 이용된다. 기하평균의 구하는 식은 2번의 상승률 a, b 가 있다고 한다면 상승률 a*b를 '1/상승률의 개수'로 제곱해 주는 것이다.(여기서는 상승률뿐만 아니라 하락률도 대입이 가능하다.)

- 조화 평균 : 조화 평균에 관한 것은 간단하게 식으로만 설명해 주셨다. 변수 a, b가 있을 때 '2ab/(a+b)'가 조화 평균을 구하는 식이다.

- 평균(Mean) : 일반적으로 평균이라고 말하면 산술평균을 의미한다고 할 수 있다.

- 중앙값(Median)  : 데이터를 크기 순으로 정렬했을 때 가운데에 있는 있는 데이터를 의미한다. (데이터의 수가 짝수 개가 있다면 가운데의 두 개의 수의 평균이 중앙값이라고 한다.)

- 최빈값(Mode) : 데이터 속에 존재하는 가장 많이 등장하는 값을 의미한다.

출처:https://zetawiki.com/wiki/%ED%8C%8C%EC%9D%BC:Relationship_between_mean_and_median_under_different_skewness.png

 

분산도

- 분산 : 데이터에 존재하는 편차(기존값과 전체 평균의 차)의 제곱의 평균을 의미한다.

- 표준편차 : 분산의 값에 루트를 씌운 값을 의미한다. (보통 데이터를 분석 비교할 때 표준편차가 크면 데이터가 지니고 있는 값의 범위가 넓다는 것을 의미할 수 있다.)

- 사분위 범위(IQR)와 이상치 : 우선 사분위수(Quartile)라는 것이 존재하는데 이것은 데이터의 값을 같은 개수로 4개로 나눈 것을 의미한다. 여기서 25번째 수인 1 사분위(Q1), Median(중앙값)인 2 사분위(Q2), 75번째 수인 3 사분위(Q3)가 존재하는데 Q3-Q1의 범위가 사분위 범위(IQR)라는 것이다. 그리고 Maximum(Q3+1.5*IQR)과 Minimum(Q1-1.5 IQR)을 구할 수가 있는데 이 범위를 벗어난 값들이 이상치(Outliers)라고 한다.

- 변동계수 : 변동계수는 상대적으로 얼마나 변동이 많은지를 보기 위한 지표이고 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 사용이 가능하다. 변동계수(CV)의 공식은 '표준편차/평균'이다

- 왜도와 첨도 : 왜도는 분포의 비대칭도를 나타내는 통계량이다. 비대칭이 커질수록 왜도의 절댓값은 증가하며 일반적으로 왜도가 -1~+1 범위는 치우침이 없는 데이터라고 한다. 그리고 꼬리를 기준으로 오른쪽으로 낀 꼬리면 양의 왜도로 (+) 값을 가지고 반대인 경우는 음의 왜도로 (-) 값을 가진다.

첨도는 그래프에서 꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포를 알 수 있는 지표이다. Mesokurtic은 정규 분포 모양을 의미한다. Leptokurtic은 중앙 부분이 Mesokurtic보다 높고 뾰족하며 이상치가 많을 수 있는 모양이다. 마지막으로 Platykurtic은 Leptokurtic과 반대의 모양으로 긴 꼬리를 가지고 있으며 이상치가 없기 때문에 데이터를 다시 확인할 필요가 있는 모양이다.

출처:https://zetawiki.com/wiki/%ED%8C%8C%EC%9D%BC:Boxplot_vs_PDF.svg

기술통계

- 모집단과 표본, 샘플링 방법 : 모집단이란 어떠한 것을 통계한다고 할 때 알고 싶어 하는 모든 집단을 의미합니다. 모집단의 특성을 가지고 있는 것을 모수(parameter)라고 하는데 여기에는 모평균, 모분산, 모표준편차 등을 포함하고 있습니다. 표본은 모집단의 분포, 특성을 알기 위해 모집단에서 일부를 추출한 집단을 의미합니다. 표본의 특성을 가지고 있는 것을 통계량(statistic)이라고 하며 여기에는 표본평균, 표본분산, 표본표준편차 등을 포함하고 있습니다. 마지막으로 추출(sampling)은 모집단에서 표본을 추출하는 방법입니다. 그다음 표본 통계량을 이용해서 모집단의 특성을 끌어내는 것을 추론(inference)이라고 합니다. 샘플링의 종류는 여러 가지가 있는데 수업에서 나온 것들 몇 가지만 설명하겠습니다. 단순 샘플링은 단순하게 랜덤으로 샘플을 추출하는 것을 의미합니다. 층화 샘플링은 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 랜덤으로 n 개씩 추출하는 것을 의미합니다. 계통 샘플링은 모집단 데이터에 1~n개의 번호를 임의로 매긴 다음 일정 간격마다 데이터를 추출하는 것을 의미합니다. 군집 샘플링은 'cluster'로 모집단 데이터로 분할하고, 군집 중 하나 또는 여러 개의 군집을 선정하여 선정된 군집의 전체 데이터를 사용하는 것을 의미합니다.

- 정규분포와 중심극한정리 : 정규분포는 위에서 그림으로 나와 있는 분포로서 연속 확률 분포 중에서 가장 많이 사용되는 분포라고 할 수 있다. 특징은 평균에 대해서 좌우 대칭을 하고 있고 평균에서 최댓값을 가지며 종 모양을 하고 있다. 정규 분포의 모양은 평균과 표준편차에 의해 결정이 된다. 여기서 정규분포와 함께 중심극한정리가 등장하는데 이것은 동일한 확률 분포를 가진 표본의 크기가 커질수록 정규분포에 가까워진다는 것을 의미한다.

- 스튜던트 t 분포 : 모분산이 알려져 있지 않고 소규모 표본인 경우에 쓸 수 있는 새로운 분포입니다. 정규 분포와 생김새가 비슷하지만, 꼬리 부분이 더 두껍고 길다는 특징이 있습니다. 

- 카이제곱분포 : x의 이름인 카이를 제곱한 분포로서 통계 검정에 사용되며 분산의 특징을 확률 분포로 만든 것입니다. 분포는 자유도에 의해 정의됩니다. y축에 편향된 분포라는 특징이 있습니다.

- F분포 : 집단 간의 분산을 다루는 분포로서 분산분석에 주로 사용됩니다. F='집단 간 분산/집단 내 분산'

출처:https://zetawiki.com/wiki/%ED%8C%8C%EC%9D%BC:Chi-square_pdf.svg

기초 수학 및 통계

집합과 명제

- set(집합) : 흔히 집단은 특정 범위라고도 할 수 있는 어떤 대상들의 모임이라고 할 수 있습니다.

집단 내 원소 표기 방법에는 '원소나열법'과 '조건제시법'이 있습니다.

- element(원소) : 집단 내에 존재하는 것들을 원소라고 합니다.

- statement(명제) : 참이거나 거짓인 진리값을 갖는 것을 말한다.

출처:https://namu.wiki/w/%EB%85%BC%EB%A6%AC%20%EC%97%B0%EC%82%B0

용어정리

 ∀(보편양화사) - '모든, 임의의'라는 뜻을 가지며 for all, for every, arbitrary에 해당합니다.

 ∃(존재 양화사) - '적어도 하나 존재한다'라는 뜻을 가지며 there exist에 해당합니다.

항등원 - 임의의 수 a에 대하여 어떤 수를 연산했을 때 처음의 수 a가 되도록 만들어 주는 수를 말한다.

역원 - 연산 결과 항등원이 나오게 하는 원소를 역원이라고 합니다.

출처:https://en.wikipedia.org/wiki/Set_%28mathematics%29

[마무리]

 우선 통계학의 기초 용어 정리 강의는 이전에 빅데이터 분석기사 필기를 준비할 때 나오던 부분이 다시 많이 나왔는데 그때는 전공이 아니라 이해하기 힘들었던 용어들을 다시 한번 공부할 수 있는 계기가 되었던 같습니다. 그리고 기초 수학 강의는 중고등학교 때는 그저 스쳐 지나갈 수 있는 기초에 대해서 깊게 접근하면서 이해하기 힘든 부분도 있었지만 앞으로 학습을 할 때 방향성을 알려주는 강의라고 생각했습니다.

반응형

댓글