统计分析(一)
1、极差【Range】
一组数据的最大值与最小值之差,计算简便易于理解,未充分利用中间部分数据的信息,因而无法全面反映数据的离散程度。

数据的离散程度描述了一组数据中各数值远离数据中心值的程度。
常用的离散程度度量指标:
? 极差
? 方差
? 离散系数
? (一)数据集中趋势的度量
? (二)数据离散程度的度量
? (三)数据分布形状的度量
? (四)数据的位次指标
? (五)箱线图
众数不易受到极端值的影响,但在数据量较小的情况下会失去代表性。
L、U:分别代表众数组下限和上限
d:代表众数组的组距
?1 :代表众数组的次数与前一组次数之差
?2 :代表众数组的次数与后一组次数之差
(2)分组数据:对于按照组距进行分组的数据,频数最多的那一组数据的组中值即为众数。在确定众数所在组后,可利用如下任意一个公式计算众数:


根据数据是否分组有两种计算众数的方式:
(1)未分组数据:对于未分组数据,统计该组数据中每一个数值出现的频数,找到出现频数最大的数值即为该组数据的众数。一组数据可以只有一个众数,也可以有多个众数,也可以没有众数。
3、众数(Mode)
众数是指在一组数据中出现频次最多的数值。

中位数是处于一组数据中心位置的数值,它作为一个位置代表值,不易受极端数值影响,当数据呈现出明显的偏态分布时具有较强的代表性。
L是中位数所在组的下限值,
U是中位数所在组的上限值,
∑f 是各组数据总频数,
Sm-1是小于中位数所在组的组频数之和,
Sm+1是大于中位数所在组的各组频数之和,
fMe是中位数所在组的频数,
d是中位数所在组的组距。
(2)分组数据
对于按照组距进行分组的数据,在确定中位数所在组后,可利用如下任意一个公式计算分组数据的中位数Me:


【计算举例】某车间甲、乙两个班组分别有9名和10名工人,其日产量资料如下(单位:件):
甲班组 20 21 21 23 24 25 25 26 27
乙班组 19 21 22 22 24 26 27 28 29 30
试确定中位数。
【解析】甲班组工人日产量中位数是24件,乙班组工人日产量中位数是25件。
(1)未分组数据
计算未分组数据的中位数时,首先需要将数据从小到大进行排序,然后确定中位数的位置,其位置确定公式为:
中位数位置=(n+1)/2(n为样本容量)
当样本容量n为奇数时,中位数Me为:

当样本容量n为偶数时,中位数Me为:

2、中位数(Median)
中位数是指将一组数据按照从小到大的顺序排序后,处于该组数据中间位置的数值。
根据数据是否分组有以下两种计算中位数所处位置的方式:
(1)未分组数据
(2)分组数据
平均数是统计学中最常用的集中趋势度量指标。
优点:可利用所有数据的信息且计算相对简单;
缺点:易受少数极端值和异常值的影响。
(3)几何平均数
设x1、x2、...、xn是来自总体的一组样本数据,则该样本数据的几何平均数为:

几何平均数主要用于计算指数或百分比数据的一般水平,如计算某经济体在一段时期内经济的平均增长速度或者资产在一段持有期内的平均收益率。
(2)加权算数平均数
设x1、x2、...、xn是来自总体的一组样本数据,将样本取值划分为k组后得到各组数据的组中值分别为M1、M2、...Mk,以及各组数据的频数分别为f1、f2、...、fk,则该样本数据的加权平均数为:

(1)简单算数平均数
设x1、x2、...、xn为一组样本数据,容量为n,则该样本数据的简单算术平均数为:

1、平均数(Average)
? 简单算数平均数
? 加权算数平均数
? 几何平均数
数据的集中趋势描述了一组数据中数值的集中程度,反映了一组数据的一般水平。
常见的集中趋势度量指标主要有:
? 平均数
? 中位数
? 众数
考点1:描述性统计★★?
? (一)数据集中趋势的度量
? (二)数据离散程度的度量
? (三)数据分布形状的度量
? (四)数据的位次指标
? (五)箱线图
本节考点
1.描述性统计
2.抽样分布
3.参数估计
4.假设检验
第一节?统计分析

第三章 统计与计量分析
2、方差(Variance)和标准差(Standard Variation)
【应用最广泛的离散程度度量指标】
方差是一组数据中每个数值与该组数据平均值离差平方和的平均,标准差为方差的平方根。
设x1,x2,...,xn为一来自总体的样本数据,则该样本的方差为:

对应的标准差为:

? 方差和标准差都是利用全部的样本数据信息计算得到的,用于度量数据离散程度时具有较高的灵敏度和全面性,数值越大表明数据中数值的分布越分散。
? 由于标准差与原始数据单位相同,其实际含义更加清晰,因此在实际中标准差应用更加广泛。
3、离散系数(Coefficient of Variation)
也称变异系数,度量数据离散程度的相对统计量,用于比较不同组数据的离散程度。消除了绝对数值和单位对于度量值的影响,反映不同组数据之间离散程度的差异。

? (一)数据集中趋势的度量
? (二)数据离散程度的度量
? (三)数据分布形状的度量
? (四)数据的位次指标
? (五)箱线图

1、偏度【Skewness】
也称偏态系数,度量一组数据分布的偏斜方向和偏斜程度。

? 当SK=0时,数据呈对称分布;
? 当SK>0时,数据呈右偏分布;
? 当SK <0时,数据呈左偏分布。
? |SK|越大,数据分布的偏斜越明显。
2、峰度【Kurtosis】
又称峰态系数,度量一组数据分布的陡峭或平坦程度。

? 当K=0时,数据呈标准正态分布;
? 当K>0时,数据呈尖峰分布,数据分布较集中;
? 当K<0时,数据呈扁平分布,数据分布较分散。
? (一)数据集中趋势的度量
? (二)数据离散程度的度量
? (三)数据分布形状的度量
? (四)数据的位次指标
? (五)箱线图
1、四分位数(Quartile):
? 将一组数据按照从小到大的顺序排序后,处于数据中25%和75%位次上的数值,这两个数值分别为下四分位数Ql和上四分位数Qu。
? 先确定数据中数值的位次,然后根据位次得出相应数值。
? 假设数据个数为n,其下四分位数Ql和上四分位数Qu对应位次分别为:(n+1)/4 和 3(n+1)/4。
【注意】如四分位位次不是整数,则取该四分位位次前后的两个整数位次上数值的加权平均数作为该组数据的四分位数。
计算该加权平均数时使用的权重取决于两个整数位次与四分位位次之间的距离:整数位次与四分位位次距离越远,则该位次所对应数值的权重越小。
2、四分位差(Quartile Deviation):
一组数据的上四分位数与下四分位数的差值:
d = Qu -Ql
反映了一组数据中间50%数值的离散情况,数值越大表明该部分数据分布越不集中,离散程度越深。
? (一)数据集中趋势的度量
? (二)数据离散程度的度量
? (三)数据分布形状的度量
? (四)数据的位次指标
? (五)箱线图
(五)箱线图
利用一组数据的最大值、上四分位数、中位数、下四分位数和最小值绘制而成的一种统计图。
箱线图不仅可以用来反映原始数据的分布特征,还可以用来比较多组数据分布特征的差异。
下图为根据2016-2020年北京、天津和上海非金融企业境内股票融资季度数据绘制的箱线图。
从箱线图中可以看出,3个城市的箱体更加靠近最小值一侧,可以判断这三个城市境内股票融资数据成右偏分布。其中,北京企业股票融资最为分散,且上四分位数、中位数、下四分位数较大;而天津企业股票融资最为集中,且各分位数较小。

