프레젠테이션에서 데이터 배포 측정까지 통계 학습

통계는 데이터 수집, 처리, 분석 및 표현을 연구하는 수학적 과학입니다. 통계는 보험 회사에서 널리 사용되며 그중 하나는 보험 정책의 보험료 금액을 결정하는 것입니다. 모든 보험 보유자는 보험료라는 기여금을 지불해야합니다. 지불 된 보험료는 그가받는 보험에 따라 결정됩니다.

여기에서 보험 회사는 보험료가 보험자에게 제공 할 수있는 보상액과 일치하도록 통계를 사용합니다. 그렇게하면 두 당사자 모두 혜택을받을 수 있습니다.

앞서 언급했듯이 통계는 데이터를 수집하고 처리 할뿐만 아니라 표시합니다. 통계는 또한 데이터 처리에 여러 데이터 분포 측정을 사용합니다. 오늘 우리는 통계에서 데이터가 퍼지는 크기와 표현 유형에 대해 논의 할 것입니다.

데이터 표시 유형

통계에서 데이터 표시 유형에는 빈도 분포표, 히스토그램, 다각형 및 ogive가 포함됩니다.

데이터 표현의 첫 번째 형태는 빈도 분포표를 사용하는 것입니다. 이름에서 알 수 있듯이 테이블을 사용하여 얻은 데이터의 유형과 양을 표시합니다. 도수 분포 테이블에는 단일 데이터 및 그룹 데이터에 대한 도수 분포 테이블이라는 여러 유형도 있습니다.

(또한 읽기 : 통계의 두 측정 데이터)

단일 데이터 빈도 분포 테이블은 최소 30 개 미만의 데이터를 적은 양의 데이터로 표시하는 데 사용됩니다. 단일 데이터 도수 분포표를 사용하여 데이터를 제시하는 예는 다음과 같습니다.

아래 데이터는 30 명의 학생의 시험 점수입니다. 단일 데이터 빈도 분포 테이블에 제공하십시오!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

주의를 기울이면 가장 낮은 시험 점수는 3 점, 가장 높은 점수는 10 점입니다.이 점수에서 점수를받은 학생 수가 계산됩니다. 예를 들어 3 학년의 경우 학생 1 명만 해당됩니다. 4 학년에는 4 명의 학생이 있습니다. 이 그림은 다음과 같은 표에 표시됩니다.

해상 풍력 발전 단지의 지상 터빈

다음 유형의 도수 분포표는 그룹 데이터 도수 분포표입니다. 이 테이블은 30 개가 넘는 많은 데이터를 표시하는 데 사용됩니다. 아래 예를 살펴 보겠습니다.

다음은 고추 농장에서 고추 식물의 높이 (밀리미터)입니다. 데이터를 그룹 데이터 배포 테이블에 표시하십시오!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

단일 데이터와 달리 여기서는 테이블에 표시 될 클래스 수와 클래스 길이를 계산해야합니다. 위의 데이터를 사용한 계산은 다음과 같습니다.

많은 데이터 (n) = 40

최대 높이 (x최대) = 135

최소 높이 (x) = 120

범위 (J) = x최대 -x= 135 – 120 = 15

클래스 수 (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

수업 길이 (c) = J / k = 15/6 = 2.5 ≈ c = 3

이 결과에서 다음과 같이 그룹 데이터 분포 테이블을 표시 할 수 있습니다.

해상 풍력 단지의 지상에 터빈

다음으로 히스토그램, 주파수 폴리곤 및 오가 이브 형태의 다른 유형의 그룹화 된 데이터 표시에 대해 설명합니다. 80 명의 스포츠 클럽 회원에 대한 체중 정보가 포함 된 아래 빈도 표를 살펴보십시오.

해상 풍력 발전 단지의 지상 터빈

히스토그램 그래프를 사용하여 데이터를 표시하기 위해 먼저 데카르트 차트를 구성합니다. x 축은 각 클래스의 상한과 하한을 나타내고 y 축은 빈도를 나타냅니다.

통계 4 (1)

히스토그램과 달리 빈도 다각형 그래프는 클래스 간격의 평균값을 취하여 빈도에 따라 선으로 표시합니다.

통계 5 (1)

마지막으로 데이터 표시는 양의 누적 또는 음의 주파수 곡선을 사용합니다. 먼저, 각 간격 클래스의 누적 빈도 값을 y 축에 표시합니다. 그런 다음 간격 클래스 및 누적 빈도의 상한 쌍에 따라 점의 좌표를 표시하십시오. 점을 부드러운 곡선으로 연결하십시오.

데이터 확산 크기

통계에서 데이터 측정에는 데이터 집중 크기와 데이터 분포 크기의 두 가지 유형이 있습니다. 설명과 차이점은 무엇입니까?

데이터 센터 크기는 데이터의 위치를 ​​나타내는 값입니다. 데이터 중심 측정에는 평균, 모드 및 중앙값이 있습니다.

평균 또는 평균은 많은 수의 데이터가있는 모든 관측 데이터의 합 사이의 몫입니다. 평균은 다음과 같이 공식화 할 수 있습니다.

평균 = (모든 데이터의 합계) / (많은 데이터)

더 잘 이해하기 위해 다음 예제 문제를 해결해 봅시다. 5 명이 자신의 환경에서 사회 활동을하기 위해 1 주일에 필요한 시간은 10 시간, 7, 13 시간, 20 시간, 15 시간입니다. 그들이 사회 활동에 보내는 주당 평균 시간을 결정하십시오!

위의 문제를 바탕으로 다음과 같이 수식에 숫자를 입력 할 수 있습니다.

평균 = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

이것은 그들이 사회 활동에 보내는 평균 시간이 13 시간이라는 것을 의미합니다.

평균 또는 평균 외에도 모드도 있습니다. 모드는 데이터에서 가장 자주 나타나는 값입니다. 다음 문제의 예를 살펴 보겠습니다.

아래는 7 학년 학생들의 체중 데이터 (킬로그램)입니다. 데이터 모드를 결정하세요!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

우선, 각 값이 데이터에 나타나는 횟수를 계산해야합니다. 이 데이터를 기반으로 31 (x3), 32 (x2), 33 (x1), 34 (x2) 및 35 (x4)를 얻습니다. 35가 가장 자주 발생하므로 위 데이터의 최빈값은 35입니다.

데이터 중심 측정의 마지막 유형은 중앙값입니다. 중앙값은 데이터를 두 개의 동일한 부분으로 나누므로 중앙값은 정렬 된 데이터의 중간 값입니다.

중앙값을 결정하려면 먼저 모든 데이터를 내림차순 또는 오름차순으로 정렬해야합니다. 둘째, 많은 데이터를 정의하고 "n"으로 기호화하십시오. n이 홀수이면 우리가 사용하는 공식은 다음과 같습니다.

중앙값 = 데이터 수-((n + 1) / 2)

한편, n이 짝수이면 아래 공식을 사용합니다.

중앙값 = (ith 데이터 (n / 2) + ih 데이터 (n / 2 + 1)) / 2

통계에서 데이터의 두 번째 측정은 데이터 확산의 측정입니다. 데이터 분산의 크기는 데이터가 데이터 센터에서 얼마나 멀리 떨어져 있는지를 나타내는 값입니다. 데이터 분포의 크기는 범위, 사 분위수 및 사 분위수 범위로 구성됩니다.

범위는 가장 큰 데이터 값과 가장 작은 데이터 값의 차이입니다. 가장 작은 데이터에서 가장 큰 데이터를 빼서 도달 할 수 있습니다. 예를 들어 한 학급에서 가장 키가 큰 학생의 키가 160cm이고 가장 작은 학생의 키가 143cm 인 경우 23cm의 도달 범위를 얻게됩니다.

한편, 사 분위수는 통계 데이터를 4 개의 동일한 부분으로 그룹화 한 것입니다. 사 분위수 크기는 3, 즉 하위 사 분위수 (Q1), 중간 사 분위수 (Q2 또는 중앙값) 및 상위 사 분위수 (Q3). 각 사 분위수를 결정하려면 몇 가지 단계를 거쳐야합니다.

먼저 데이터를 오름차순 또는 내림차순으로 정렬합니다. 둘째, 데이터의 중간 또는 중간 값을 결정합니다. 셋째, 하위 사 분위수 (Q1), 중앙값 (Q2). 마지막으로 상위 사 분위수 (Q3), 즉 중앙값을 초과하는 데이터 그룹의 평균값 (Q2).

마지막 데이터 분포 측정 유형은 사 분위수 범위입니다. 사 분위수 범위는 상위 사 분위수와 하위 사 분위수 간의 차이입니다. 공식은 다음과 같습니다.

= Q3 -Q1

최근 게시물

$config[zx-auto] not found$config[zx-overlay] not found