【统计】浅谈统计系列---资料类型及正态分布

yunchu1991 · 发表于 2019-5-12 16:50

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

统计分析中对资料类型的识别非常重要，决定了统计分析方法的选择，因为不同类型的资料要用不同的统计方法去分析。资料类型分为计量资料、计数资料和等级资料。

1. 计量资料的每个研究对象的变量值为一个数值，表现出有量的大小。其可以是离散型变量资料，离散型变量只能取整数值，如一年中的手术患者数、新生儿数；连续型变量可以取实数轴上的任何数值，“连续”是指该变量可以在实数轴上连续变动，如身高体重骨密度等。

2. 计数资料研究对象的变量值为互不相容的属性（类别），因此也叫定性变量资料，其包括二分类计数资料和无序多分类计数资料，二分类的计数资料如性别（男或女），无序多分类资料，如血型（O型、A型、B型、AB型）资料。

3. 等级资料研究对象的变量值为互不相容的类别之一，但与计数资料不同的是，这些类别之间有程度的递进或递减关系。如癌症分期（早、中、晚）；药物疗效（治愈、好转、无效、死亡）等。

4. 正态分布

通常统计学上我们会接触到几种分布，最常用到的就是t分布、F分布、χ2分布（卡方分布）。在这之前，我觉得还是有必要了解点正态分布和统计学史。我们都知道，在统计学研究或者遇到的实际问题中，我们真正得到的是散乱的数据，并且没有一个单个数据是确切的，但所有这些数据可以对真实值进行近似的估计。那么散布数据（统计量）所表现出来的数学规律模型就叫做分布，分布的统计模型能够更加真实地描述随机的数学性质，能够更加真实准确地用于推断结果。

正态分布是由德国数学家高斯提出，又叫钟形分布，因为概率密度函数曲线类似于钟形，横轴为随机变量X，纵轴为概率密度f(X)。

关于正态分布的最主要的特征就是其以X=μ为中心，左右对称，呈钟形分布曲线。正态分布有两个参数μ和σ，μ为总体均数，描述正态分布的集中位置，称为位置参数，决定了曲线在X轴上的位置；σ为总体标准差，描述正态分布的离散程度，决定了正态曲线的形状。下图为一个正态分布的图。可以看到μ（总体均数）决定了曲线的位置，值大，则曲线向横轴右边移动，值小，则曲线向横轴左边移动。而σ（总体标准差）决定了曲线的形状。σ越小意味着数据越集中，变异越小，曲线变得越“瘦高”，σ越大说明数据越分散，变异越大，曲线变得越“矮胖”。这个应该很好理解。

另外，正态曲线下的面积分布是有规律的，正态分布曲线与横轴之间的整个面积为1，那么我们可以μ（总体均数）为中心，以σ（总体标准差）为单位，在μ（总体均数）左右两侧分别截取不同倍数的σ（总体标准差），得到某一区间的面积占总面积的比例。用此估计变量值落在此区间内的概率。在区间μ±σ范围内的面积约为68.3%，在区间μ±1.96σ范围内的面积为95.0%，在区间μ±2.58σ范围内的面积约为99.0%。如下图所示。

5. 标准正态分布

如果一个正态分布参数其均值为0，标准差为1，我们管它叫做标准正态分布（standard normal distribution）,记做Z~N(0，1)，正态分布是由参数μ（均数）和σ（标准差）确定的，那么其实对于任意一个正态随机变量X~N(μ，σ2)，都能够通过标准化变换转化为一个唯一的正态分布。

随机变量经过标准化变换后总体参数μ=0，σ2=1。

那么说了这么多，大家一定会问，这个标准正态变换可以用来解决啥问题呢？因为标准正态分布其曲线下的各个区间内的面积都是恒定的，因此可以通过标准正态分布转换，可以简化非标准正态分布不同区间的概率计算问题。大家如果有这方面的计算需要，可参照《医学统计学与SPSS软件实现方法》（郭秀花主编）这本教材。之所以考虑要写这部分是为了之后写t检验时，大家能好理解一些，因为t分布也是正态分布的一种转换形式。

6. 参考值范围

医学上所指的参考值范围是指绝大多数“正常”人的解剖、生理、生化指标及组织代谢产物含量等数据的波动范围。比如定量体外诊断试剂中的阳性判断值范围很多时候要依据样本中检测物质的参考值范围来定，这就需要利用统计学对参考值范围进行估计。下面的表格里的计算公式我们经常见到，那么1.64 ，1.96，2.58这些数值是怎么来的呢？其实就是按照我上面所说的标准正态分布换算得来的，规定了固定的面积或者概率，换算得来的X的值。大家若想一探究竟，可以网上搜一下标准正态分布密度函数公式，将0.95 ，0.99代入，算出对应的X的值，看是否是我们常用的那几个数字。