统计方面博士论文
统计学是一个前景非常明朗的产业,各行各业都在应用统计学的技术。统计学的发展迅速,其发展方向也是令人关心的一个课题。下文是学习啦小编为大家搜集整理的关于统计方面博士论文的内容,欢迎大家阅读参考!
统计方面博士论文篇1
浅谈统计调查及统计调查误差的及特征
种类
摘 要:随着社会的发展,统计调查作为各信息的来源势必会越来越受到人们更多地关注,也势必会有越来越多的人参与到统计调查活动中来。本文从统计调查的概念出发,通过对统计调查和其它调查的区别解释统计调查,并正确区分统计调查与非统计调查、理解统计调查的种类、统计调查误差的种类及其特征和产生的原因,这些问题是参与和搞好统计调查、提高统计调查质量的基本前提。
关键词:统计调查;误差;统计调查质量
一、统计调查的概念
统计调查不仅要有明确的调查对象,而且调查对象是由具有某一或某些共同特征的许多个体构成的总体,同时构成总体的个体数要足够地多,除此之外,还要求调查的个体单位数也要足够地多。统计调查对构成总体的许多独立个体的调查不是目的,综合与提炼许多独立个体信息资料才是统计调查的真正目的。因此,统计调查所获资料的真实、准确与否,直接取决于个体提供的信息资料是否真实、准确。而统计个体之所以有可能提供不真实、不准确的个体信息资料,是因为统计个体担心一旦提供了个体真实、准确的信息资料可能会为自己、他人或相关部门带来不必要的麻烦。不过,从统计调查的真实目的来看,统计个体的信息资料根本不是统计调查所关注的信息资料,个人信息资料只作为一种信息载体出现,仅起到显现总体一般属性或数量特征的作用———从对个体信息资料进行深入的加工、综合中提炼出总体的一般属性或数量特征。
二、统计调查的种类
众所周知,信息化时代信息的主体是统计信息,统计信息的获取建立在统计调查的基础之上。统计调查搜集到的个体信息资料的真实、准确与否将直接影响信息化时代信息的质量。统计调查获取个体信息资料的方式方法的不同决定了不同种类的统计调查获取个体信息资料质量的差异。
统计调查按是否对构成总体的全部个体进行调查,可以划分为全面统计调查与非全面统计调查两类。
全面统计调查指的是对构成总体的所有个体进行的调查,即要搜集总体中所有个体的个体信息资料的一种调查。再按对总体中个体信息资料收集方式的不同,全面统计调查又可以划分为普查和全面统计报表两种。普查通常通过调查员借助普查表直接向个体搜集其信息资料的一种调查方式。
非全面统计调查指仅从构成总体的全部个体中选取部分个体进行的调查。非全面调查又因从全部个体中所选部分个体的方式不同,分为抽样调查和非抽样调查。所谓抽样调查指从构成总体的所有个体中按照随机性原则选取部分个体的调查。同时,抽样调查又根据随机性原则在具体使用上的差异可以将抽样调查划分为简单随机抽样、系统随机抽样、分层随机抽样、整群随机抽样以及多阶段随机抽样等。另一方面,若从构成总体的所有个体单位中没有遵循随机性原则而选取部分个体单位进行调查,则这样的统计调查称之为非抽样调查。生活中常用的非抽样调查主要有重点调查、典型调查和滚雪球调查等。
因此,无论在抽样调查的理论研究方面,还是在抽样调查的实际应用中,抽样调查正越来越受到人们的重视。
三、统计调查误差的种类及特征
1、统计调查误差的概念。通常人们把由统计调查获取个体信息并综合得到的总体规律性与总体实际客观规律性之间的差异称之为统计误差。这种统计误差反映在统计调查指标上,就是由调查个体所得总体指标数值与总体实际指标数值之间的差别。
2、登记性统计调查误差、特征及其产生的原因。
统计误差通常可以分为登记性统计误差和代表性误差两大类。所谓登记性误差就是指由于调查者或被调查者的主观原因而导致调查所得总体指标与总体实际指标之间的差异。
登记性统计误差具有如下两大基本特征:一是登记性统计误差从理论上而言是可以完全避免的,但是,在实际统计调查中,登记性统计误差又不可避免。二是登记性统计误差一旦产生,误差的大小又不可以计量。
从理论上来说,只要被调查者提供了真实、准确的个体信息资料,而且调查者能准确记录与整理分析这些个体信息资料,就可以避免登记性统计误差的产生。事实上,统计总体中的个体可能会基于各种考虑或顾虑不愿提供真实、准确的个体信息资料。根源在于被调查者可能根本不理解统计调查的真实目的,或者把统计调查混同于非统计调查。在我国当前国民参与统计调查意识比较薄弱、基本统计常识比较缺乏以及保护统计个体信息资料的法律、法规还不健全的现实条件下,要避免这种登记性误差几乎是不可能的。
再者,即使调查总体中的个体主观想提供真实、准确的个体信息资料,但是由于被调查的个体缺少必要的数据记录,或没有相关数据,或个人信息资料记忆有误也可能无法提供真实、准确的个人信息资料。如在我国农村居民年收支情况的调查中,有些农村居民不是不想告诉你某年收支的准确数据,而是有些农村居民从来就没有对自己的年收支核算过,也没有详细的收支记录。
另一方面,即使被调查的个体提供了真实、准确的个体信息资料,也可能因调查者数据记录不熟练、责任心不强造成记录错误,或者发生数据丢失以及分析、整理个体信息资料有误等,也会产生登记性统计误差。
最后,不论何种原因一旦导致了登记性误差的产生,登记性统计误差的大小是无法准确计量的。这是因为被调查者提供的个体信息资料中不真实、不准确的程度有多大、调查记录中有多少差错、个体信息资料整理、分析中又有多大差错等,在实际统计调查中均是不可测度的。
综上所述,由于统计调查区别于非统计调查的特征之一就是要对构成总体的个体进行独立地调查,因此不管是全面统计调查还是非全面统计调查、不管是抽样调查还是非抽样调查都会产生登记性统计调查误差。
3、代表性统计误差、特征及产生的原因。
所谓代表性统计误差指仅对构成总体的所有个体中部分个体进行调查,且仅仅根据这部分个体提供的信息资料综合提炼出关于这部分个体的一般数量特征(如部分个体的均值),并据此对总体实际均值做出判断所产生的一种差异。
代表性统计误差可以根据它是来自抽样调查还是非抽样调查区分为抽样误差(也称随机误差)和系统性误差两类。由抽样调查所产生的代表性误差称之为抽样误差,由非抽样调查所产生的代表性误差称为系统性统计误差。
抽样误差具有如下基本特征:从理论上来说抽样误差无法避免,但是,在实际抽样调查中,抽样误差不仅可以采取一定手段加以防范和控制而且其大小也可以计算。一方面,代表性误差产生的根源在于构成总体的所有个体的普遍规律性不可能由其中的部分个体完全显现,否则,它就违背了部分与整体的基本哲学关系。另一方面,抽样调查从总体中选取部分个体时,尽管确保了每一个个体都有同等被选中的可能性,使得所选中的部分个体的构成与总体中所有个体的构成趋于一致,由此保证了选中的部分个体的数量特征能反映总体中所有个体的数量特征。然而,总体中的某个个体能否最终被选中又具有一定的随机性,从而使得所选中的部分个体数量特征又不能完全反映总体中所有个体的数量特征。由此表明,抽样误差不可避免。
数理统计关于抽样的原理已经表明:只要采用适当的方法对构成总体中的所有个体先做适当的编排或分组,然后再遵循随机性原则抽选个体,就可以有效地降低抽样误差的大小。即在样本容量一定的前提下,对同一现象总体分别采用分层随机抽样、系统随机抽样、整群随机抽样和简单随机抽样,其抽样误差是有显著差异的。另外,在其他条件相同的情况下,变重复抽样为不重复抽样也可以适当减小抽样误差。系统性代表误差具有如下基本特征:从理论上来说系统性代表误差是完全可以避免的,但是,系统性代表误差一旦产生其大小又是不可计量的。系统性代表误差产生的根源在于:在从构成总体的所有个体中选取部分个体时没有遵循随机性原则,而是主观地、或部分主观地从总体中选取个体作为调查单位。
因此,人们在实际统计调查中,如果能有意识地不受主观因素的影响、自觉地遵循随机性原则抽选部分个体,就可以避免系统性误差的产生。
四、结语
随着我国社会、经济改革开放程度的不断深入和社会主义市场经济体系的不断完善,社会各个阶层及个人对信息的种类、数量和质量的需求也在不断改变。统计调查作为各种信息的根本来源势必会越来越受到人们更多地关注,也势必会有越来越多的人参与到统计调查活动中来。通过分析不同调查现象总体的具体特征,根据统计调查的实际需要选择适当的调查方式方法,分析各种统计调查误差产生的可能原因,就可以有针对性地采取必要的手段防范某些统计调查误差的产生,从而实现在调查成本不变的情况下,有效地提高统计调查的数据质量。
统计方面博士论文篇2
谈统计方法在移动通信网络优化管理的应用
当前移动通信网络优化,各种运行质量评估体系并存,不同运营商,不同设备商的设备和不同地区都可能形成自己的考核评估体系。这些考核评估体系大多是基于设备商对各种移动通信网络的统计,以及dt、cqt等场测数据综合进行分析得出,能一定程度上反映移动通信网络的运行性能与质量。但是随着网络运营管理向系统化、精细化发展,原有的评估体系在某些方面不能适应当前网络优化工作的需要,如:对于各地区kpi(关键质量指标)纵、横向比较的标准。较低的指标使原有评估体系的局限性不断显现出来。要做到指标“与时俱进”的不断提高,又要切合目前的网络质量状态,达到最终的高指标、均衡化的目的,这就需要在指标门限制定的过程中运用统计学的若干方法。
联合国的专门机构国际电信联盟已为电信标准化部门制定了t标准。在文献[1]中,明确定义了(qos)的概念、目标值等等。并且提到,在当前存在的移动系统中,信道阻塞率一般为5%~10%,而公共陆地电话网络到固定电路网络的阻塞率设计为1%。itu给出的建议标准是一重要参考,但指标最低门限是各运营商根据实际经验、设备商的建议和统计自行制定。
本文的主要工作在于:
1)应用盒须图模型模型中的稳健统计量和异常值定义,对各种关键性能指标的异常门限或等级门限的制定给出鲁棒性强,符合数理统计规律的指导性建议。并应用盒须图的可视化功能,直观便捷的观察指标的统计规律,并对指标进行横向比较。
2)尊重地区差异,应用k-均值聚类的方法探索各不同地市之间在移动网络优化质量评价中的恰当分类。
1指标异常门限与等级门限
1.1网络均衡性
对用户而言,在平时进行通信时,若在不同时间、空间下有着不同的通话质量或者掉话率,就会引起用户总体的感知度差。当前由于移动通信话务统计指标的海量数据中,如果采用平均值得方式考核,就会忽略了指标的波动甚至异常。因此作为指标门限的制定的目的,要使网络kpi指标时刻和任何地点都有相对比较均衡的表现,并且要快速明显的找出突发事故,发现和判别异常值。另外,排除异常值干扰后,要对各指标设定门限等级进行好中差的评价。符合统计规律、并且引领向好方向发展的管理评价才能使网络优化工作臻于至善。
1.2盒须图模型
寻找合适的方法研究数据的合理范围,发现和处理粗大的异常值是十分重要的.统计学为解决相关问题进行了许多积极的有益的探讨,对单个变量且样本容量不大时,已有许多较好的检验方法,诸如:z-检验、dixon检验、grubbs检验、nair检验、偏度-峰度检验等,它们都是以数据总体呈正态分布为前提[2]。然而对于由移动通信系统kpi指标影响因素很多,数据分布未知且比较复杂。
根据中心极限定理和通信干扰统计的相关的研究[3],移动通信网络指标在受不同随机因素影响的标准环境下,服从正态分布。然而在实际环境中,移动通信网络呈各种不规则的偏态单峰分布,难于用已知分布去拟合所有指标的数值分布情况。为此,本文采用盒须图模型结合稳健统计量的方法[4]。
图1盒须图模型
如图1,盒须图模型可以清晰地表示指标数据的分布特征,通过数据样本的计算能得出五个次序统计量:中位数、内四分位距、偏态、最大/小观测值和异常值。
1)中位数:描述指标样本的数据中心位置。
2)四分位数:第一四分位数(q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数(q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
3)内四分位距:描述指标样本的数据离散程度。用盒形的高度表示。
4)最大/小观测值:描述指标样本合理数据存在的范围。用延伸的直线来表示,称为“触须”,触须的顶部和底部分别为样本指标数据中非异常数据的最大观测值。若没有异常值,样本的最大值为上触须的顶部,样本最小值为下触须的底部。
5)偏态(skewness):描述指标样本数据中心偏离的程度。用盒中横线在盒子的位置表示。s=
异常数据(outliers):大于盒形顶部或底部延伸1.5倍内四分位距的数据称为粗大异常数据。大于盒形顶部或底部延伸3倍内四分位距的数据称为极端异常数据在在图中红色‘+’表示该处数据为一粗大异常数据。
采用盒须图模型的优势[2],1.有强大的稳健性和耐抗性(抗崩溃),极端值几乎不影响。2.不需要分布的先验知识,对数据真实的呈现。3.能包含绝大多数带分布性质的合理数据,并且判断异常值是以四分位数和四分位距为依据,较为客观。多达25%的异常数据不能影响这个标准。4.可视化直观间接的观察数据的统计性质,可通过盒中横线、盒形长短、盒须长短和红十字观察到中位数、四分位距、合理范围和异常值等情况。此外,还可以观察到分布的偏态和尾重。若数据分布为正态分布,中位数和数学期望将重合,异常值判定约在±2.638σ以外,异常数据占全部数据不大于0.7%,与莱特准则接近。
1.3应用实例
我们以2010年11月1日到2011年2月23日,某省话务量最大的四个城市(一类城市)的寻呼成功率为例子,演示计算过程、画出盒须图(非异常数据占总数据比)。见图2:
我们再以这四个一类城市的2010.9.8~2011.2.23的pdch复用度所有指标数据,应用盒须图模型,考察它的合理数据(非异常数
据)的占比,见表1。
另外,我们对某省21个地级市的2010.11.1~2011.2.23信道完好率指标做盒须图横向对比,观察它所呈现的数据特性,见图3。
根据以上的结论,我们可以验证用盒须图模型的方法观察数据:
1)异常数据只是占数据总体的少量部分,并且都有明显的离群的现象。
2)考虑了数据的分布形态,尊重了地市的现实情况。
3)直观、可视化,并为从事质量管理提供了如数据中心、分布离散程度等其他相信息。
2地市分类
由于各地市在经济发展速度、网络建设、人口和社会环境等各种因素的不均衡,要有根据的对不同地市分类比较,才能做到尊重地区差异的情况。因此,要科学合理的根据话务统计指标划分地市,必须要采用统计学的方法,为网优管理提供有效的决策支持。
因此,我们尝试用移动通信kpi、话务量和数据业务量等数据,采用k-均值聚类的方法来研究移动通信的地市分类。
本节我们将根据多维度评估对kpi的分类,分别对指标进行k-均值聚类,我们采用matlab 7.1软件和数理统计工具箱的kmeans函数[5][6][7]来进行聚类。在这个阶段,k值(分类)的选择是是十分重要的,如果k取值过小,则不能发现有效的分类模式,使划分失去了意义;如果k值取值过大,分类指标将变得琐碎,各类之间的特征区分不是特别明显,对指导管理经营活动没有操作性。根据以往业务经验,分别取值2~5对样本进行尝试计算,然后用silhouette值观测区分确定有效的k值(分类数)。silhouette值数据点与它本身聚类中的点的距离比上它与其他聚类中的点的距离,
s(x)=
minb(x,y)-a(x,y)
max(a(x,y),minb(x,y)),其中b(x,y)=avg(d(x,y)),是x点与除开与x在同一聚类的点的平均距离。a(x,y)是x点与其同处于
一个聚类的点的平均距离。[9]
2.1话务量、数据量分类
我们以2010年11月1日至2011年2月23日表示话务量的指标——tch话务量(峰值)和表示数据量的指标——pdch占用数(20点),先对日指标求最大值,然后进行二维k-均值聚类。
我们设分类数k=2,3,4,5进行k-均值聚类,画出silhouette图。
从图4中我们可以看出,21个地市按tch话务量(峰值)、pdch占用数(20点)分类,当k=2和4,各组区分于其他组的silhouette值大部分都比较大(大于0.6),并且没有负值,说明分类比较好。
表2 tch话务量(峰值)、pdch占用数(20点)k-均值聚类(2010-11-1~2011-2-23)
从表2中可以看出,地市关于话务量和数据业务量的分类,符合当前人们对该地市的社会经济发展各因素的理解,因此可以作为地市网优管理分类的重要参考。
3结论
移动通信网络指标异常值的挖掘是一个很有实际意义的问题。目前从物理上没有确切的模型做为发现异常值的先验参考;在少样本,其他因素剧烈影响的影响和非标准环境下,各指标分布情况复杂;从统计量的稳健性考虑去判别异常波动指标,因此采用盒须图模型做了尝试和数据论证。经过计算说明:采用盒须图次序统计量模型制定异常门限,能包含大多数指标数据;并且由盒须图直观方便的可视化功能,能迅速的将统计结果转化为视觉映像,用此方法计算简单,效率高,较为合理,有利于管理的横向比较,具有一定的实用价值。
为了对网络产生的话务统计数据进行研究,科学、客观的参照,并尊重地市网络建设、话务分布乃至社会经济等各方面差别的因素,必须对网络分类。本文尝试采用k-均值聚类方法对某省21个地市的移动通信网络的话务量、数据量分类,并结合各分类的silhouette值选择k的大小。分类的效果说明这样的分类是有意义的。