IVD质量系列丨数据收集与统计

2020-6-21 00:00| 编辑: 小桔灯网| 查看: 5880| 评论: 0|来源: 小桔灯网丨作者：闻天

摘要: 上期回顾在上篇文章中我们已经了解到，随着人们认识的逐步加深，质量管理的发展可分为检验控制阶段，统计控制阶段，全面质量管理阶段和六西格玛管理阶段四个阶段，除了在质量管理初期检验控制阶段，企业对质量的管 ...

上期回顾

在上篇文章中我们已经了解到，随着人们认识的逐步加深，质量管理的发展可分为检验控制阶段，统计控制阶段，全面质量管理阶段和六西格玛管理阶段四个阶段，除了在质量管理初期检验控制阶段，企业对质量的管理都绕不过一门学科，那就是统计学。

统计学是个很麻烦的学问，虽然对于大部分质量管理人来说，不需要知道统计学理论，只要理解统计的使用方法和概念就可以了，但至少也要理解统计的思考方法才可以。如果只是热衷于统计手法和公式，那最终会变为数字的游戏，而忽略了数据背后代表的产品的质量问题。

收集数据的目的→行动

统计概念的第一步就是，要确定收集或记录哪些数据。收集的数据必定要有其目的性，不应为了取数据而取数据，而是为了使用和根据收集到的数据而采取行动。诚然在收集数据的过程中应做到尽可能的完整，但过多的，超必要的数据只会起到安慰剂的作用，并不会指导最终行动，因此在收集数据的过程中要明确目的，有的放矢。

2. 收集数据的方法→用样本代替总体

在平时研究中常采用抽样研究的方法，从某总体中随机抽取一定量样本进行研究，并根据样本提供的信息推断总体的特征。比如想了解某一批试剂盒原料耗材的长度，则可以通过随机抽样的方式抽取一定量耗材进行长度测量，并以此样本均数估计该批次耗材的长度分布。

由于存在个体差异，抽得的样本均数不大可能恰好等于总体均数，因此通过样本推断总体会有误差。这种由个体变异和抽样造成的样本统计量与总体参数的差异，称为抽样误差。抽样误差是由个体变异和抽样引起的，而抽样误差是不可避免的。

3. 数据的统计描述

统计分析包括统计描述和统计推断两部分。统计描述是统计推断的基础，它的作用是通过绘制统计图，统计表或者计算数据分布特征的基本统计量，来了解样本观察值的分布情况，为进一步统计推断打下基础。

3.1 频数分布表/图

对于一个需要研究的数据，首先要了解数据的分布范围、集中位置以及分布形态等特征。对于大样本数据，可以通过编制频数分布表（frequency distribution table）了解数据的分布情况，以便于根据数据分布情况选择合适的统计分析方法，作进一步的统计分析。编制频数分布表本质上就是把数据的取值范围分割成若干个互不相交的组段，统计每个组段内的观察值个数作为对应的频数，由各个组段的范围及其频数构成最基本的频数分布表。频数分布表的编制步骤如下

计算全距（rang, R）：全距是一组数据的最大值和最小值之差。
确定组段数与组距：根据数据量的多少，选择适当的组段数，如果组段数过少会导至资料分布不清晰，组段过多会导至个别组段频数太少，以致分布出现波动，如果数据量在100左右时，通常取8~15组，确定组段数后，组距≈全距/组段数。
确定组段的上下线：每个组段的起点和终点，分别称为该组段的下限和上限。第一组段必须包括最小值，最后组段必须包括最大值。
计算个组段频数（frequency）：即计算个组段内数据的分布个数。
计算各组段频率（percent）：即计算各组段频数与总数据个数之比，一般用百分数表示。
计算累计频数（cumulative frequency）和累计频率（cumulative percent）：累计频数是由上至下将频数累加；累计频率是由上至下将频率累加。
根据上述步骤，绘制频数分布图。
频数分布表/图的作用

① 揭示数据的分布特征：可以在不计算的情况下，大体估算数据呈正态分布还是偏态分布

② 揭示数据的集中趋势和离散趋势

③ 易于发现数据中的特大或特小的可疑值

3.2 数据的离散趋势和集中趋势

集中趋势的描述

集中趋势（central tendency）指的是一组数据的大多数数值所在的中心位置。描述集中趋势的主要统计指标有算术均数，几何均数和中位数，这些指标也称为位置度量指标（measures of location）。

算术均数（arithmetic mean）简称均数（mean）等于一组数据中所有数值和除以数值的个数。算数均值描述了一个变量所有观察值的平均水平。一般而言，总体均数用希腊字母μ表示，样本均数用符号表示。算数均值更适用于频数分布对称的数据。如果数据中存在极端值（outlier）也称为异常值或者数据中呈偏态分布时，算数均值不能较好的描述一个变量的中心位置。

几何均数（geometric mean，G）等于一组数据的所有n个值的乘积的n次方根。要注意的是当数据中有小于或等于零的数据时，不能计算几何均数。一般而言，几何均数更适合于取对数后近似呈对称分布的数据。因此几何均数常常用来描述右偏态分布的数据（经典的用法就是抗体滴度）

离散趋势的描述

离散趋势（dispersion）指的是一组数据所有值与中心位置的偏离程度。描述离散趋势的主要统计指标有全距、分位数区间、方差、标准差和变异系数。也称为变异性度量指标（measures of variation）。

全距（range，R）等于一组数据的所有值中的最大值和最小值的差值。对于计量单位相同的变量，全距越大，数据越发散，表明变异度越大。

分位数（quartile）是介于一组数据的最大值和最小值之间的一个数值，使得一部分数据小于等于它，另一部分数据大于等于它。统计学中常用的分位数是百分位数（percentile，P），它表示在按照升序排列的数列中，其左侧（即小于等于此值）的数据个数在整个样本中所占百分比为P%，其右侧（即大于等于此值）的数据个数在整个样本中所占百分比为（100-P）%。

比如一组数据的95%分位数是这样一个数值，它使得该组数据中有95%的观察值小于等于它，并且有5%的数据大于等于它。而前文中所说的中位数M就是一个特定的百分位数，即第50百分位数。统计学将25%，50%，75%分位数统称为四分位数。分别称之为第一四分位数，第二四分位数，第三四分位数，记Q1，Q2，Q3，将Q3 -Q1的差值称为四分卫间距。对于正态分布的数据，四分位间距越大，数据的离散程度越大。

方差（variance）描述一组数据所有值与总体均值的平均离散程度的指标。一般用σ2表示总体方差，用S2表示样本方差。对于计量单位相同的变量，方差越大，数据的离散程度越大。

标准差（standard deviation，S）描述一组数据所有值与均值的平均离散程度的指标，是方差的算术平方根。一般用σ表示总体标准差，用S表示样本标准差。对于计量单位相同的变量，标准差越大，数据的离散程度越大。

变异系数（coefficient of variarion，CV）是一个度量相对离散程度的指标，其计算方法为：

CV是无量纲的指标，可以用来比较几个量纲不同的指标变量之间的离散程度的差异，也可以用来比较量纲相同但均数相差悬殊的变量之间的离散程度的差异。CV越大，表示离散程度越大。

对比度量离散程度的几个指标，可以发现：

全距简单易求，单位和原变量的单位相同。但缺点是仅使用了原变量中很少的部分信息；没有涉及数据的集中位置的信息；对极端值敏感；与样本量n有关，n越大，全距可能越大。

分位数对极端值敏感度低于全距，受样本量影响较少。但缺点是仅用了原变量中的部分信息；没有涉及数据的集中位置信息。

方差的计算使用了全部信息，因此用方差来度量数据的离散程度远远优于全距和分位数。但缺点是方差单位是原单位的平方，使用起来不方便。

标准差是方差的算术平方根，单位与原单位相同，是描述离散程度的最常用的度量指标。

变异系数是无量纲指标，可以用来比较不同量纲变量之间的变异程度。

如上所述，如果根据从样品中所得的数据进行了处理和判断，那么下一步就是进行统计推断，根据抽样产品推断总体产品质量，并决定是否采取相应的行动。本篇文章简单介绍了在质量管理过程中数据的收集的意义与统计中常用的度量，以及各种度量的优缺点。希望对大家有所帮助。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏分享邀请

上一篇：IVD质量系列丨浅谈质量管理下一篇：IVD质量系列丨统计推断参数估计

IVD质量系列丨数据收集与统计

声明：

最新评论

相关分类

官方推荐 /3

个人中心