본문 바로가기
AI/기초 이론

[AI 부트캠프] DAY 5 - 기초 통계학 및 수학 이론 강의 4

by HOHHOH 2023. 7. 22.

[오늘의 일지]

기초 수학 및 기초 통계학 - 가설검정, ANONA, 선형 대수학, 볼록성, 회귀분석

[상세 내용]

기초 수학 및 기초 통계학

가설검정

- Hypothesis Test : Hypothesis는 한글로 '가설'이라고 하는데 보통 가설검정에서는 두 가지 가설이 존재합니다. 앞선 온라인 강의에서도 등장했었던 귀무가설과 대립가설이 있습니다. 우선 귀무가설은 Hypothesis의 단어 앞에 Null이라는 것을 붙여주고 약어로는 H0로 표현됩니다. 귀무가설은 보통 기각을 시키고 싶은 가설로서 기존의 큰 틀로부터 변화가 없다는 것에 초점을 두고 있는 가설이라고 설명되어 있습니다. 반대로 대립가설은 Hypothesis의 단어 앞에 Alternative라는 대체라는 뜻의 단어가 붙어 H1이라는 약어로 표현됩니다. 대립가설은 채택하려고 하는 가설로서 변화가 있다는 것에 초점을 둔다고 설명되어 있습니다. 

 

- 가설검정의 목표 : 보통 가설검정이라는 것이 표본의 정보를 활용하여 모집단의 특성에 대한 가설을 설정하고 이를 채택할지 기각할지를 파악하는 것을 목표로 한다고 했는데 실제 가설검정의 목표는 대립가설을 채택하려는 목적이 크기 때문에 대립가설이 기각되면 계속해서 보강하여 대립가설이 채택될 때까지 가설검정이 이루어진다는 것을 알게 되었습니다. 그러므로 어쩔 수 없이 귀무가설을 채택해야 되는 상황에서도 채택에 초점을 맞추는 것이 아니라 '기각할 근거가 없다'와 같은 표현으로 실패한 것에도 의미를 부여하는 것처럼 느꼈습니다.

 

- 유의 수준(significance level) : 'H0 : True' 임에도 이를 기각할 확률을 보통 α(알파)로 씁니다. (α = 5% in general

- 기각역(critical region) : 'H0 : 기각, H1 : 채택'이 되는 검정 통계량의 영역입니다. 

출처:https://medium.com/towards-data-science/a-complete-guide-to-hypothesis-testing-2e0279fa9149

- 검정의 오류 : 제1종 오류, 제2종 오류

출처:http://333yyy333.com/bbs/board.php?bo_table=m41&wr_id=1476&page=

- P-value(유의확률) : 통계에서 p-value은 귀무가설이 옳다고 가정할 때 적어도 통계적 가설 검정 의 관찰 결과만큼 극단적인 결과를 얻을 확률입니다. p-value은 귀무가설이 기각되는 가장 작은 유의 수준을 제공하기 위해 기각 지점의 대안 역할을 합니다. p-value이 작을수록 대립가설을 지지하는 더 강력한 증거가 있음을 의미합니다. 즉, p-value와 유의 수준인 α와 비교하면서 기각의 증거를 찾기 위해 쓰인다고 할 수 있습니다.

 

- 공분산(covariance) : 공분산(covariance)2개의 확률변수의 선형 관계를 나타내는 값이다. 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다.

출처:https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0
- 상관계수(correlation) : 상관계수는 정규화된 공분산으로서 공분산이 각 변량의 단위에 의존하게 되어 변동 크기가 모호하므로, 공분산에다가 각 변량의 표준편차를 나누어주어 `정규화`시켜서 나옵니다. 특징은 단위가 무차원(dimensionless)입니다. (명칭은 제안자 이름을 따서, `피어슨의 적률 상관계수` 또는 `피어슨 상관 계수` 라고도 합니다.)
 

- 여기서, Var() : 분산, σX : 표준편차, Cov(X,Y) : 공분산

 
- "Joint" probability density function(결합 확률 밀도 함수) : 결합 확률 밀도 함수(joint pdf)는 함께 연속 랜덤 벡터 를 형성하는 여러 연속 랜덤 변수의 확률 분포를 특성화하는 데 사용되는 함수입니다 . 정의는 다음과 같습니다.
출처:https://www.statlect.com/glossary/joint-probability-density-function

ANOVA

- 분산 분석 ( ANOVA )은 서로 다른 그룹의 평균(또는 산술평균)에서 분산값을 비교하는 데 사용되는 통계 공식입니다. 다양한 시나리오에서 이를 사용하여 서로 다른 그룹의 평균 간에 차이가 있는지 확인합니다. ANOVA의 결과는 'F 통계량'입니다. 이 비율은 그룹 내 분산과 그룹 간 분산 간의 차이를 보여주며, 궁극적으로 귀무가설이 지지되거나 거부된다는 결론을 내릴 수 있는 그림을 생성합니다. 그룹 간에 유의한 차이가 있는 경우 귀무가설이 지원되지 않으며 F 비율이 더 커집니다.

출처:https://www.tibco.com/ko/reference-center/what-is-analysis-of-variance-anova

선형 대수학

- Linear Algebra : 'Linear'라는 단어는 말 그대로 선형이라는 뜻인데 선형이라는 게 그 연산에서 선형성이 있는 것을 'Linear'하다고 말합니다. 'Algebra'는 대수학이라는 뜻인데 보통 연산을 다루는 분야라고 합니다. 통계학에서 선형 대수학의 중요성은 말로는 표현 못할 만큼 중요하다고 합니다. 선형대수학은 2차원 혹은 3차원의 직교 좌표계에 대한 연구로부터 시작되었다고 하는데 저는 선형 대수학의 기초적인 정의에 대해서만 간략하게 정리해 보겠습니다.

 

- 선형 대수학의 기본적인 정의 : 선형대수학의 벡터는 2차원이나 3차원에 그릴 수 있는 직관적인 벡터뿐만이 아니라, 덧셈/뺄셈과 실수배(혹은 복소수배)가 가능한 추상적인 대상들로 정의된다. 우리가 잘 알고 있는 2차원 공간과 3차원 공간의 핵심 성질을 덧셈과 상수곱이라는 두 연산으로 기술하고, 이를 추려 추상화 및 일반화를 시도하는 것. 예를 들어 n개의 실수의 순서쌍에 성분별로 덧셈과 실수상수곱을 주면 이는 “n차원"“n차원" 벡터공간이라 할 수 있고, 이를 ‘R^n‘이라 한다. 벡터공간에서 벡터공간으로 가는 함수 중 덧셈과 상수배를 보존하는 함수를 선형사상이라 하는데, 그 정체는 행렬이다.

 

- 선형 대수학을 위한 기초적인 배경지식 :

벡터 : 벡터 공간의 원소를 벡터라 한다.

벡터 연산 : 두 벡터끼리의 합, 혹은 벡터와 스칼라(크기만 있고 방향성은 없는 성분) 사이의) 곱이 벡터의 기본 연산이다.

벡터 공간 : 벡터의 기본 연산을 만족하는 모든 벡터의 모음을 뜻한다.

차원 : 흔히 평면을 2차원, 공간을 3차원이라고 부른다. 이때 차원을 구성하는 각각의 요소(3차원의 경우 x, y, z)는 서로 독립적인데 이에 대한 개념을 확장한 것이 바로 선형대수학의 차원이다.

행렬 : 여러 개의 숫자들을 직사각형의 모양으로 한데 묶어 나타낸 성분. 벡터를 하나의 행 혹은 하나의 열로 구성된 행렬로 볼 수도 있다. 하지만 이것이 행렬의 수학적으로 엄밀한 정의는 아니다.

 

- 선형 사상 : 벡터 공간에서 벡터 공간으로 가는 준동형 사상인, 그것들 중 벡터 공간의 성질을 보존하는, 즉 선형성을 갖는 함수이다. 함수가 선형성을 가지므로 함수의 입력에 대한 선형 결합(linear combination)으로도 함수를 표현할 수 있다. 선형사상(linear map) 또는 일차변환이라고 부르기도 한다. 스칼라가 F로 같은 벡터 공간 V, W에 대해, 흔히 V에서 W로 가는 선형 변환들의 모임을 L(V, W)라고 표시한다.

 

- 전치 행렬 : 선형대수학에서 전치 행렬(transposed matrix)은 행과 열을 교환하여 얻는 행렬이다. , 주대각선을 축으로 하는 반사 대칭을 가하여 얻는 행렬이다

출처:https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98_%ED%96%89%EB%A0%AC

볼록성

- 볼록함수 : 해석학에서 볼록함수는 임의의 두 점을 이은 할선이 두 점을 이은 곡선보다 위에 있는 함수이다. 엄밀히 말하면, x, y과과 [0,1] 사이의 값 t에 대해 ’f(tx+(1-t) y)≤ tf(x)+(1-t) f(y)’가 항상 성립하는 함수 f를 가리킨다. 또는, 임의의 두 점에 대해 그 함숫값보다 크거나 같은 점들의 집합이 항상 볼록 집합인 경우 그 함수를 볼록함수라고 정의하기도 한다. 특히 두 번 미분가능한 일변수 함수는 이차 도함수가 정의역 전체에서 음수가 아닐 때에만 볼록 함수이다. 볼록함수의 반대, 즉 부등호 방향이 다른 경우는 그 함수를 오목함수라고 정의한다.

출처:https://ko.wikipedia.org/wiki/%EB%B3%BC%EB%A1%9D_%ED%95%A8%EC%88%98

 

 

회귀분석

- 통계학에서 회귀 분석(regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 분석 방법의 선택이 적절했는지 또한 정보 분석이 정확한지 판단하는 것은 연구자에 달려 있다.

 

- Linear Regression : 통계학에서 선형 회귀(linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀(simple linear regression), 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.

출처:https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80

- Polynaimial Regression : 통계학에서 다항식 회귀(polynaimial regression)는 독립 변수 x x와 종속 변수 yy 간의 관계를 x에서 n차 다항식으로 모델링하는 회귀 분석 의 한 형태입니다. 다항 회귀는 x x의 값과 E(y| x)로 표시되는 y y의 해당 조건부 평균 사이의 비선형 관계에 적합합니다.

출처:https://en.wikipedia.org/wiki/Polynomial_regression

- Logistic Regression : 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수 간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (classification) 기법으로도 볼 수 있다.

출처:https://www.saedsayad.com/logistic_regression.htm

[마무리]

 오늘은 통계학에 관한 이론의 마지막 수업이었습니다. 사실 4일 동안 다루기에는 너무 무거울 수 있는 내용들을 맛보는 식으로 수업을 했는데 뭔가 기초 배경지식이 부족했다는 느낌을 많이 받았습니다. 앞으로 프로그래밍 과정을 하더라도 조금씩 통계적 지식을 개인적으로라도 쌓아 나가기를 계속하는 게 좋을 거 같다는 결심을 하면서 마무리하겠습니다.

반응형

댓글