ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계학의 기초개념, 자료의 정리, 분포에 대한 특성
    메모/과제 2010. 7. 22. 13:32
    반응형

    제 1 장   통계학의 기초개념 
     제1절. 통계학이란 어떤 학문인가?

    관심의 대상에 대한 자료를 수집하고 정리․요약하며, 제한된 자료나 정보를 토대로 불확실한 사실에 대하여 과학적인 판단을 내릴 수 있도록 그 방법을 제시하여 주는 학문


    관심? -->  자료수집 --> 정리․요약 --> 분석 --> 결과 해석 --> 결과정리 및 판단

         (관측이나 과거 기록으로부터)  (통계패키지 사용)


    ◇ 통계학의 분야(의사결정에 도움을 주기 위해 사용)

       보건통계(Biostatistics), 경제통계(Econometrics), 심리통계(Psychometrics)


    < 통계학의 역사>

       statistik : 이탈리아어 statista(statesman을 의미)로부터 유래, Gottfreid Achenwall이라               는 교수에 의해 처음으로 사용

       statistics : E. A. W. Zimmerman에 의해 영국에 소개, John Sinclair의 “Statistical                     Account of Scotland 1791-1799"에 의해 대중화됨


    제2절 통계학의 기본용어

     모집단과 표본

         -모집단(population) : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합          -표본(sample) : 통계적 처리를 위하여 모집단에서 실제로 추출한 관측값이나 측정값        의 집합

     모수와 통계량

       -모수(parameter) : 모집단의 특성을 수치로 나타낸 것

       -통계량(statistic) : 표본의 특성을 수치로 나타낸 것



     

    기술통계학과 추리통계학


      -기술통계학(descriptive statistics) : 자료를 수집하고 표나 그림 또는 대표값, 변동의 크     기  등을 통하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리․요약하는      방법을 다루는 분야


      -추론통계학(inferential statistics) 또는 통계적 추론(statistical inference) : 표본에 내포된     정보를 분석하여 모집단의 여러 가지 특성에 대하여 과학적으로 추론하는 방법을 다루는     분야, decision theory에 이용될 수 있다.

        ․ 모수 통계학(parametric statistics) : 모집단의 분포에 대한 가정이 필요하며 대체로         수량적 자료 중에서도 연속적 자료가 사용된다.

        ․ 비모수 통계학(non-parametric statistics) : 모집단에 대한 가정이 필요하지 않으며         질적 자료나 수량적 자료 중에서 빈도수와 같은 비연속적 자료를 많이 사용한다.



    제 2 장 자료의 정리(Tables and Graphs)


    1. 자료의 종류


      -질적 자료(qualitative data) 또는 범주형 자료(categorical data)  : 원칙적으로 숫자로 표     시될 수 없는 자료

        교육수준 : 1. 국졸   2. 중줄   3. 고졸   4. 대졸  , 성별 : 1. 여  2. 남


      -양적 자료(quantitative data) : 자료자체가 숫자로 표현됨. 질적자료로 표현가능

        ․이산자료(discrete data) : 정수값을 취할 수 있는 자료(각 세대의 자녀수)

        ․연속자료(continuous data) : 실수값을 취할 수 있는 자료(키, 몸무게, 온도)


    <참고> 측정수준에 따른 자료의 종류

    변수를 측정하기 위해서는 척도(측정도구)가 필요

    척도에는 명목척도, 서열척도, 등간척도, 비율척도의 형태가 있음

    어떤 척도를 사용했는가에 따라 네가지 자료로 나뉘어짐

    자료

    질적자료

    명목자료(분류목적으로 사용)

    (남자:1, 여자:2)(양품:1, 불량품:2)

    서열자료(상대적 서열을 나타냄)

    키 순서로 번호부여, 아주만족--아주불만

    양적자료

    등간자료(척도점간의 간격 동일)

    온도, IQ

    비율자료

    나이, 소득, 길이, 무게

    등간자료와 비율자료의 차이 : 등간자료를 가지고 비율을 표시할 수 없다.

    (예 : IQ가 140 인 사람이 IQ가 70 인 사람보다 2배 똑똑하다고 말 할 수 없고, 섭씨 10도는 섭씨 5도보다 온도가 2배 높다고 말 할 수 없다.)


    2. 질적 자료의 분석


      -도수분포표(frequency distribution table)

      -상대적 도수분포표(relative frequency distribution table) : 관찰수가 다른 집단들을 비      교하는데 더욱 유용

      -막대그래프(bar graph)

      -원형그래프(pie graph)

    3. 양적자료의 해석


      -줄기․잎 그림(stem and leaf display)

      -도수분포표

       ․이산자료 : 누적빈도와 상대적 누적 빈도도 계산

       ․연속자료

         1) 자료의 최대값과 최소값을 찾는다.

         2) 자료의 크기에 따라 5개내지 20개 정도의 계급의 개수를 정한다.

         3) 계급구간을 정한다.

         4) 계급의 도수를 구한다.

         5) 계급의 상대도수를 구한다.

      -히스토그램(histogram)

      -도수다각형(frequency polygons) : 히스토그램에서 각 구간의 중점을 이용하여 작성

      -상대도수다각형(relative frequency polygons) : 두 개 이상의 자료집단 분포를 같은 그림     위에 놓고 비교할 수 있어서 편리

      -누적 상대도수(cumulative relative frequency)


    제 3 장 수리적으로 자료를 정리해 보자...(분포에 대한 특성)


    ◇ 자료의 특성을 잘 나타내주는 수리적 측도

      - 중심위치의 측도(central tendency) : 주어진 자료가 어떤 값을 중심으로 분포되어 있는      가를 나타냄

      - 산포도(dispersion) : 자료들이 흩어져 있는 정도를 나타냄

      - 비대칭도(skewness) : 분포의 모양이 대칭분포에서 얼마나 벗어났는지를 나타냄

      - 첨도(kurtosis) : 분포모양의 뾰족한 정도

      - 상대적 위치의 측도(relative standing) : 어떤 특정한 자료값이 주어진 자료의 어떤 위      치에 있는가를 나타냄


    1. 중심위치의 측도(measure of central tendency)

      1) 평균(Mean) 

        - 표본평균

        - 모평균

      2) 중앙값(Median)

      3) 최빈값(Mode)


    2. 산포도(measure of dispersion)

      1)분산(Variance)과 표준편차(Standard deviation)

      2)범위(Range) = 자료의 최대값 - 자료의 최소값

      3)사분위수범위(interquartile range) = 제3사분위수 - 제1사분위수


    3. 비대칭도(skewness)

        피어슨의 비대칭도 =

              skewed right(positively skewed) 

         


    4. 첨도(kurtosis)

       Karl Pearson에 의해 1906년 소개

       정규분포의 첨도 = 3

       첨도 = 3  => mesokurtic

       첨도 >3   => leptokurtic

       첨도 <3   => platykurtic


    5. 상대적 위치의 측도(measure of relative standing)

      1) 백분위수(percentiles)

        - 제25백분위수 = 제1사분위수

        - 제50백분위수 = 제2사분위수 = 중앙값

        - 제75백분위수 = 제3사분위수


      2) z-값(z-score)

         



    6. 상대적 산포의 측도(measure of relative dispersion)


      평균에 차이가 많이 나는 두 분포를 비교할 때 표준편차를 비교하는 것은 적절하지 않다.    변동계수(coefficient of variation) : 평균을 고려하여 표준편차를 비교할 수 있는 측도

              =

       

    신생아의 몸무게

    성인의 몸무게

    4.0   3.0   3.5   3.4   3.6

    71   64   67   66   59

     

            평균 = 3.5 (s=0.36)               평균 = 65.4 (s=4.39)

            변동계수 = 0.103                 변동계수 = 0.067      



    7. 이변량 자료의 정리와 요약

       - 자료 : 일변량 자료(univariate data), 이변량 자료(bivariate data), 다변량 자료              (multivariate data)

       - 이변량자료의 정리․요약

          * 공분산 : 두 변수의 값이 평균으로부터 떨어져 있는 정도

          * 상관계수 : 두 변수간의 선형관계의 정도를 나타내는 특성치

    반응형
Designed by Tistory.