'통계학' 카테고리의 글 목록

통계학

[통계학 기초 스터디] 분산, 표준편차 2022.06.10
[통계학 기초 스터디] - 도수분포표,히스토그램,평균값 2022.06.10

[통계학 기초 스터디] 분산, 표준편차

혜린티나 2022. 6. 10. 01:06

2022. 6. 10. 01:06

03. 분산과 표준편차 : 흩어져 있는 데이터 상태를 추정하는 통계량

- 평균값은 데이터들이 그 주변에 분포되어 있음(데이터의 분포를 대표하는 수치)

그러나 어느 정도 퍼져 있는지, 흩어져 있는지 알 수 없음

- 평균값보다 불규칙한 상태의 통계량을 아는 것이 중요

- 편차: 평균값과의 차이 (편차의 평균값은 항상 0 )

- 분산 = (편차제곱의 총합) / (데이터의 총 개수)

- 표준편차: 편차의 제곱평균값, 단위가 달라지는 분산의 단점 보완

--> 대표값(평균)을 기준으로 대략 어느정도 멀리 위치해 있는지를 나타내는 통계량

- 도수분포표의 표준편차 :

{(계급값-평균값)^2 X 상대도수}의 합계 = 분산

분산의 제곱근 = 표준편차

[연습문제]

1. 평균 계산

평균값: 5

2. 편차 계산

-1

-2

-3

3. 편차의 제곱과 그 평균(=분산) 계산

편차 제곱의 평균(분산) : 4

4. 표준편차 : 2

04. 표준편차 : 데이터의 특수성을 평가

- 표준편차를 알면

(1) 데이터 세트 중 한 데이터의 수치가 갖는 의미(특수성)

(2) 여러 데이터 세트를 비교해서 나타나는 차이

를 알 수 있음

- 표준편차로 계산해서 몇 배만큼 평균보다 높다, 낮다 표현하는 방법

--> (데이터 - 평균값) / 표준편차

- 위 식으로 계산한 결과가 ±1배 라면 '평범한 데이터', ±2배로 멀리 있으면 '특수한 데이터'

- [데이터에 일정한 수 a 를 더하면] 평균값은 + a, 분산과 표준편차는 그대로

- [데이터에 일정한 수 k를 곱하면] 평균값은 k를 곱한 값, 분산은 k의 제곱배, 표준편차는 k배

- (데이터 - 평균값) / 표준편차 로 가공하면, 이 데이터로 구한 평균은 0, 표준편차는 1

[연습문제]

* 본 포스팅은 책 <세상에서 가장 쉬운 통계학입문> 을 바탕으로 작성되었습니다.

'통계학' 카테고리의 다른 글

[통계학 기초 스터디] - 도수분포표,히스토그램,평균값 (0)	2022.06.10

[통계학 기초 스터디] - 도수분포표,히스토그램,평균값

혜린티나 2022. 6. 10. 00:00

2022. 6. 10. 00:00

통계학 기초 스터디를 시작했다. 대학생 때 통계학을 공부하긴 했지만 몇 년 전이라 개념을 다시 쫙 정리하고 싶었는데

규칙적으로 꾸준히 하고 싶어서 이번에 아예 스터디에 들어갔다.

책 보니까 다 아는 내용이었는데 그래도 새롭다....

앞으로 이곳에는 통계학 개념 정리 및 연습문제 풀이를 기록하려 한다.

01. 도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구

- 데이터 자체만으로는 정보를 알 수 없음. 통계적 분석으로 정보를 얻음
-분포한다 : 다양한 수치로 나타나는 것
-불확실성을 지닌 분포 속에서 고유한 특징이나 반복되는 것이 있음. 통계는 이를 찾아내는 방법
-축약: 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
축약방법 2가지 (1) 그래프 (2) 통계량
-도수분포표: 데이터를 5~8개 그룹(계급)으로 나눈 것, 데이터의 특성 파악가능
-히스토그램: 도수분포표를 그래프로 바꾼 것

[연습문제]

도수분포표

계급	계급값	도수	상대도수	누적도수
36~40	38	3	0.0375	3
41~45	43	11	0.1375	14
46~50	48	33	0.4125	47
51~55	53	19	0.2375	66
56~60	58	7	0.0875	73
61~65	63	5	0.0625	78
66~70	68	2	0.025	80

- 데이터 중 최대값, 최소값을 찾아 범위(계급)를 만듦

- 계급값 : 계급을 대표하는 값, 주로 가운데 값을 선택

- 도수: 각 계급의 총 개수

- 상대도수: 도수가 차지하는 비율

*계급 안에 몇 개의 데이터가 있는 지는 알 수 있지만 정확히 각각 어떤 수치인지는 알 수 없음 --> "축약"

우리가 알고 싶은 건 데이터 전체가 아닌 데이터가 가지고 있는 "특징"

히스토그램

02. 평균값의 역할과 평균값을 이해하는 방법 : 평균값은 지렛대가 균형을 이루는 지점

- 통계량: 데이터의 특징을 하나의 숫자로 요약 , 모든 데이터를 대표하는 수
- 도수분포표에서의 평균값: {계급값 X 상대도수}의 합
*계급값으로 계산하는 이유는 같은 계급의 각 데이터의 합계가 {계급값X도수}로 바꿔도 큰 차이가 나지 않기 때문 => 평균값에 큰 영향을 주지 않음
- 히스토그램 평균값은 지렛대가 균형을 이루는 받침점이 됨

[연습문제]

계급값	도수	상대도수	계급값X상대도수
30	5	0.05	1.5
50	10	0.1	5
70	15	0.15	10.5
90	40	0.4	36
110	20	0.2	22
130	10	0.1	13
	합계 100		합계 88

평균값

-널리 퍼져있는 데이터들 중 모든 데이터를 대표하는 수 로 뽑은 것

- 데이터들은 평균값 주변에 분포

- 많이 나타나는 데이터는 평균값에 영향력이 큼

- 히스토그램이 좌우대칭인 경우 평균값은 대칭이 되는 축에 위치

- 평균값에는 종류가 많음(산술평균, 기하평균, 제곱평균, 조화평균 등) -> 무조건 산술평균이 아니라 목적에 따라 선택

* 본 포스팅은 책 <세상에서 가장 쉬운 통계학입문> 을 바탕으로 작성되었습니다.

'통계학' 카테고리의 다른 글

[통계학 기초 스터디] 분산, 표준편차 (0)	2022.06.10

PREV 이전 1 NEXT 다음

오늘도 데이터분석

통계학

[통계학 기초 스터디] 분산, 표준편차

03. 분산과 표준편차 : 흩어져 있는 데이터 상태를 추정하는 통계량

04. 표준편차 : 데이터의 특수성을 평가

'통계학' 카테고리의 다른 글

[통계학 기초 스터디] - 도수분포표,히스토그램,평균값

01. 도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구

02. 평균값의 역할과 평균값을 이해하는 방법 : 평균값은 지렛대가 균형을 이루는 지점

'통계학' 카테고리의 다른 글

+ Recent posts

티스토리툴바