통계학 기초 스터디를 시작했다. 대학생 때 통계학을 공부하긴 했지만 몇 년 전이라 개념을 다시 쫙 정리하고 싶었는데
규칙적으로 꾸준히 하고 싶어서 이번에 아예 스터디에 들어갔다.
책 보니까 다 아는 내용이었는데 그래도 새롭다....
앞으로 이곳에는 통계학 개념 정리 및 연습문제 풀이를 기록하려 한다.
01. 도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구
- 데이터 자체만으로는 정보를 알 수 없음. 통계적 분석으로 정보를 얻음
-분포한다 : 다양한 수치로 나타나는 것
-불확실성을 지닌 분포 속에서 고유한 특징이나 반복되는 것이 있음. 통계는 이를 찾아내는 방법
-축약: 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
축약방법 2가지 (1) 그래프 (2) 통계량
-도수분포표: 데이터를 5~8개 그룹(계급)으로 나눈 것, 데이터의 특성 파악가능
-히스토그램: 도수분포표를 그래프로 바꾼 것
[연습문제]
도수분포표
계급 | 계급값 | 도수 | 상대도수 | 누적도수 |
36~40 | 38 | 3 | 0.0375 | 3 |
41~45 | 43 | 11 | 0.1375 | 14 |
46~50 | 48 | 33 | 0.4125 | 47 |
51~55 | 53 | 19 | 0.2375 | 66 |
56~60 | 58 | 7 | 0.0875 | 73 |
61~65 | 63 | 5 | 0.0625 | 78 |
66~70 | 68 | 2 | 0.025 | 80 |
- 데이터 중 최대값, 최소값을 찾아 범위(계급)를 만듦
- 계급값 : 계급을 대표하는 값, 주로 가운데 값을 선택
- 도수: 각 계급의 총 개수
- 상대도수: 도수가 차지하는 비율
*계급 안에 몇 개의 데이터가 있는 지는 알 수 있지만 정확히 각각 어떤 수치인지는 알 수 없음 --> "축약"
우리가 알고 싶은 건 데이터 전체가 아닌 데이터가 가지고 있는 "특징"
히스토그램
02. 평균값의 역할과 평균값을 이해하는 방법 : 평균값은 지렛대가 균형을 이루는 지점
- 통계량: 데이터의 특징을 하나의 숫자로 요약 , 모든 데이터를 대표하는 수
- 도수분포표에서의 평균값: {계급값 X 상대도수}의 합
*계급값으로 계산하는 이유는 같은 계급의 각 데이터의 합계가 {계급값X도수}로 바꿔도 큰 차이가 나지 않기 때문 => 평균값에 큰 영향을 주지 않음
- 히스토그램 평균값은 지렛대가 균형을 이루는 받침점이 됨
[연습문제]
계급값 | 도수 | 상대도수 | 계급값X상대도수 |
30 | 5 | 0.05 | 1.5 |
50 | 10 | 0.1 | 5 |
70 | 15 | 0.15 | 10.5 |
90 | 40 | 0.4 | 36 |
110 | 20 | 0.2 | 22 |
130 | 10 | 0.1 | 13 |
합계 100 | 합계 88 |
평균값
-널리 퍼져있는 데이터들 중 모든 데이터를 대표하는 수 로 뽑은 것
- 데이터들은 평균값 주변에 분포
- 많이 나타나는 데이터는 평균값에 영향력이 큼
- 히스토그램이 좌우대칭인 경우 평균값은 대칭이 되는 축에 위치
- 평균값에는 종류가 많음(산술평균, 기하평균, 제곱평균, 조화평균 등) -> 무조건 산술평균이 아니라 목적에 따라 선택
* 본 포스팅은 책 <세상에서 가장 쉬운 통계학입문> 을 바탕으로 작성되었습니다.
'통계학' 카테고리의 다른 글
[통계학 기초 스터디] 분산, 표준편차 (0) | 2022.06.10 |
---|