2024年10月bootstrap方法得到误差的步骤(统计学基础概念:自举法、置信区间、标准误)

 更新时间:2024-10-12

  ⑴bootstrap方法得到误差的步骤(统计学基础概念:自举法、置信区间、标准误

  ⑵统计学基础概念:自举法、置信区间、标准误

  ⑶Bootstrap法是以原始数据为基础的模拟抽样统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。

  ⑷Bootstrap的基本思想是:在原始数据的范围内作有放回的再抽样(resamplingwithreplacement),样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为/n,所得样本称为Bootstrap样本。

  ⑸使用Bootstrap法时,原始数据个数最好大于等于。

  ⑹置信区间是指由样本统计量所构造的总体参数的估计区间,

  ⑺Bootstrap是计算置信区间的方法之一。假设我们要估计一群雌性小鼠的体重,抽样只小鼠并称重,如下图,红点为每只小鼠的体重,红线为只小鼠体重的均值。

  ⑻我们可以使用bootstrap方法,得出这个样本的均值的置信区间,步骤如下:

  ⑼所谓的%置信区间就是覆盖了中间%的均值的区间(如下图黑线所示

  ⑽常见的衡量数据误差的三个指标:

  ⑾标准误指多个样本某个统计量(均值、标准差等的标准差。假设从一个正态总体中抽样,共得到个样本,每个样本有个数据,分别用红、绿、蓝色小球表示,每个样本都有一个均值和标准差,如下图所示。

  ⑿对这个平均值求标准差,就得到均值的标准误了。标准误可以给出抽样均值的波动程度如何,而不像标准差只是单次抽样数据的波动,因此它往往更能估计总体均值。

  ⒀我们同样可以通过bootstrap法计算标准误,如下图。

  ⒁参考资料:StatQuest-置信区间StatQuest-标准误差

  ⒂在R语言中,用bootstrap来计算均值方差,怎样写语言

  ⒃Meta分析是一种对同一主题下的多个独立实验(研究进行综合的统计分析方法。它萌芽于本世纪初。直到年代,此方法才被生态学家发现,虽然目前它在生态学中的应用实例还很少,但已引起了生态学界的高度重视。Gurevitch(出版了第一部生态学中的Meta分析专著,并与人合作于年发行了MetaWin软件包。在我国,彭少麟(首次将此方法引入我国生态学界。Meta分析目前主要应用于对照实验的综合研究中,目的为判断实验中的处理会对实验对象产生正或负效应;效应是大还是小;同一主题下不同独立实验的结果是否一致,变异程度有多大等问题。但Meta分析决不仅仅是一个数学分析过程,它本身也是一项研究,需要认真设计。主要步骤如下所述。提出所要解决的问题并制定搜集、选择文献的标准。搜集文献,这是一项非常繁重且关键的工作。为了能搜集到全面的文献,通过各种途径来最大可能地收集已发表的和未发表文献(包括正式期刊中的论文、会议论文、摘要以及各种私人交换资料等。标定各研究的特点,并对其进行分类。根据研究背景特点的不同将所有研究分为几个级别(class,以作比较。定量测度研究特点。为了避免分析时对质量不等的研究给予相同的结合标准,导致分析结果的不准确,分析家们提出了定性Meta分析,即制定标准,对研究特点进行打分评估;综合研究结果并结合研究特点来分析结果。也有人称这一步为定量Meta分析,以相对于定性Meta分析。研究特征分析(敏感性分析,分析研究的基本特征(研究对象、研究环境等的特征和方法学特征对效应值之间的协变关系。目前已有发展出多种定量Meta分析方法。但它们的基本思想是一致的,那就是先提出假设,构造一个结合统计量,然后计算各研究的结合统计量,并用其在定性Meta分析中所得分数去权重它的结合统计量;计算各级别研究中的加权平均结合统计量(在平均过程中,要根据其各结合统计量的方差进行权重;做各级别研究间统计量的异质性检验。定量Meta分析方法的不同主要在于结合统计量和统计假设的不同。MetaWin软件的特点MetaWin是一个主要为生态学工作者设计的定量Meta分析软件,其主要特点如下所述。.提供了两种假设模型这两种假设模型为固定效应模型和混合效应模型,具体计算过程见文献。两者的区别主要在于前者假设所综合的研究共享一个真实效应大小,实际测量的效应大小不同是由于随机取样所导致,而后者却假设研究间具有不同的真实效应大小,即所测效应大小的不同是由两部分组成,真实效应的不同,随机取样造成误差。后者更切合实际,区间估计较保守,更受Meta分析家们欢迎。.提供多种可选择的结合统计量在生态学领域内的Meta分析中最常用的结合统计量为Hedges’d效应值:d=(Xe-Xc/(S?J(其中,Xe、Xc分别为实验组和对照组的测量平均值,S为两组共同标准差,J为小样本较正值,MetaWin还提供了反应比(responseratio:ln(Xe/Xc(Xe、Xc的意义同上这是从医学Meta中新引进的一种结合统计量;此外,MetaWin还为对Meta分析较为熟悉的分析者提供了更多的选择机会,如相关系数(correlationcoefficient等。.提供了两种数据输入方式对有经验的分析者可直接输入效应值、样本方差等所需数据,其格式称效应数据格式。这种数据输入法的好处在于分析者可根据所收集的文献的实际情况来自己构造结合统计量,也即MetaWin为分析者提供了较大的自由。在文献数据满足前两种结合统计量计算情况下,分析者可以输入原文献中的统计数据,如平均值、样本方差、样本大小来进行计算,比较方便,称原始数据格式。.提供了一项非参数检验——重取样检验上述参数模型检验是在假设所有研究中的实验组和对照组观测值均遵循正态分布情况下进行的;许多Meta分析方法基于大样本近似原理,即当实验组和对照组样本大小不小于时,效应值才趋于正态分布。但如果样本太小,实验组和对照组样本大小太悬殊或效应值太大时,大样本近似原理就变得不准确了。重取样检验法是取代传统参数和非参数检验的一种好方法。重取样检验是一种计算机加强(puterintensive非参数检验方法。MetaWin中提供了随机化检验法(randomizationtest和自助法或靴襻法(bootstrap。前者常被用来决定一个统计量的显著性水平,后者则用于给出统计量的置信区间。MetaWin中用自助法来计算所有研究总效应值和每一级别加权平均效应值的置信区间,对于样本含量为i的每一级别,我们均以放回式取样选取i个研究并计算其加权效应值,然后重复上述取样方法多次,按大小顺序将效应值排列起来,在两端取.%处的值做为%至信区间的上下限,置信区间包括零在内的级别被认为没有显著不等于零。但当样本含量太小时,会出现区间估计过低,此时,可用偏差较正法。MetaWin中用随机检验来判断级别间效应大小的差异是否显著。首先用原始数算出QB,然后将j个级别里的所有研究混在一起,再随机将它们分成j个级别,级别含量仍与原来相同,算出QB值,重复此过程多次,得出一个QB值的分布,QB的显著性水平为随机QB值大于等于实际QB值数占重复随机取样数的百分比。MetaWin软件的使用方法.MetaWin软件构成运行MetaWin,只需一台装有Windows、Windows.或WindowsNT的IBM兼容机,其中共包括个文件。(MetaWin.exe:在Windows和WindowsNT下的可执行文件。(MetaWin.hlp:在Windows和WindowsNT下的帮助文件。(MetaWin.t:在Windows和WindowsNT下的帮助文件的内容。(MetaW.exe:在Windows.下的可执行文件。(Meta.hlp:在Windows.下的帮助文件。(Raw.dta:以原文献统计数据输入数据的格式示范文件。(Effect.dta:以效应大小输入数据的格式示范文件。(Gur-hed.dta:作者的示范数据格式文件。Windows和Windows.版本的不同之处主要在于研究特征类型量、每一特征类型中级别数、每一数据文件中所含研究量及非参数检验中的重复数的最大值的不同,Windows比Windows.范围更广。.MetaWin软件使用方法..数据输入打开MetaWin文件,下拉file菜单,点击editdatafile,进入数据输入状态,可直接在弹出的窗口中输入数据,也可从file菜单中点击loadafile上载已有的文件。原始数据输入格式如下:sextreestate+/-NeXcXeScSeLabelmoakpa+....studymmapleny+....studyfmapleny--.-...study其中,第一行为标题行,前项为级别分类标准,事实上,Windows版本可允许个分类标准,Windows.为个;+/-为方向符,如果你所期待的效应值为正值时(即实验中的处理会对实验对象产生正效应,在按所期待趋势应该出现正效应值的研究项中加+,负效应值的研究中加-,它必须紧跟级别组,否则程序运行时不能识别数据文件中共有几项划分级别标准;Ne、Nc分别为实验组和对照组的样本含量;Xe、Xc分别为实验组和对照组的测量平均值;Se、Sc分别为实验组和对照组的标准差;Label为各研究的标记。标题行下面的每一行为一个研究的效应数据。效应数据输入格式为:sextreestate+/-NeeffectvarLabelmoakpa+...studymmapleny+..studyfmapleny-..study其中,effect一列为效应值;var为效应方差;其它同原始数据格式。..数据分析在打开MetaWin文件的同时,会自动弹出一个Meta-Analysis窗口。在此窗口上部TypeofInput一项中点击raw或effect(确定数据为原始还是效应格式,原来灰色的Datafile就会加亮,点击,从弹出的‘打开’窗口中选定并打开要分析的数据文件。在Meta-Analysis窗口中部选择固定效应或混合效应模型,结合统计量,也可增加重复检验;窗口下部gourpby中可选择划分级别的标准,并在RefineAnalysis中可以在不改变数据文件的情况下去掉一些级别或研究来纯化分析。所有这些选项选择好后,即可点start键进行运算。运算结束后,会自动弹出一个Meta-Analysisoutput窗口,显示分析结果。..结果显示在分析结果中,可看到分析时间,数据来源路径,以及名为Parametricmethods和Meta-Analysisresultsfroups的两个表。前者为所有研究的效应值表,每一行代表一个研究,包括其名称、所属级别、小样本校正值(J、对照和实验两组的共有标准差(spool、效应值(d、%的置信区间(%CI、各研究的方差(V、权重(W。一般先假设所有研究享有共同的d值进行分析,此时在第二个结果表中可看到所有研究的总平均效应值(d++、%的置信区间、同质性(Qwi,自由度(df、X检验的p值。如果其级别内异质性经X检验显著,则说明假设不正确,此时按一定的标准将所有研究划分为几个级别,再进行分析。此时的第二个结果表中会显示各级别内所有研究的加权平均效应值(di+、%的置信区间、同质性(Qwi,自由度(df、X检验的p值以及级别间同质性(Qb、级别内总同质性(Qw,总的同质性(Qtotal。如果级别间同质性(Qb经检验后显著,则说明级别间差异显著;如果某一级别内同质性(Qwi经检验显著,说明这一级别内各研究的效应值差异较大,应该进一步划分此级别,再分析,直到Qwi经检验不显著。如我们在做捕食关系的Meta分析中发现,捕食者导致被捕食者种群数量降低,d++=-.(固定效应模型d++=-.(混合效应模型;但不同标准划分的级别的效应大小有差异,捕食效应随地带性而变化,热带效应值最大,亚热带、温带、寒带也有效应,其中亚热带最小;按所在生态系统划分级别时,陆生生态系统级别为中效应,淡水生态系统为小效应。MetaWin是一个操作简单且功能较全的Meta分析软件,以Windows作支持,用户通过界面与机器直接对话,分析过程简单易学,结果输出明了。遗撼的是MetaWin中没有考虑定性Meta分析所得出的研究质量评估值,所以利用原始数据直接输入法不能对效应值进行研究质量权重。同时值得注意的是MetaWin只提供了定量Meta分析方法,而Meta分析本是一项研究,数量分析前需要认真设计,分析后也需对结果进行研究特征分析。一个好的Meta分析不仅要选择好的定量分析方法,而且分析前设计和分析后的特征分析都非常重要,因为统计的目的是为解决问题提供科学依据。另外,团IDC网上有许多产品团购,便宜有口碑

  ⒄--:一致性指数C-index

  ⒅《metacharset=“utf-“》

  ⒆C-index,英文名全称concordanceindex,中文里有人翻译成一致性指数,最早是由范德堡大学(VanderbiltUniversity生物统计教教授FrankEHarrellJr年提出,主要用于计算生存分析中的COX模型预测值与真实之间的区分度(discrimination,和大家熟悉的AUC其实是差不多的;在评价肿瘤患者预后模型的预测精度中用的比较多。一般评价模型的好坏主要有两个方面,一是模型的拟合优度(GoodnessofFit),常见的评价指标主要有R方、-logL、AIC、BIC等;

  ⒇另外一个是模型的预测精度,顾名思义就是模型的真实值与预测值之间差别大小,均方误差,相对误差等。在临床应用上更注重预测精度,建模的主要目的是用于预测,而C-index它就属于模型评价指标中的预测精度。

  ⒈C-index的计算方法是把所研究的资料中的所有研究对象随机地两两组成对子,以生存分析为例,两个病人如果生存时间较长的一位其预测生存时间长于另一位,或预测的生存概率高的一位的生存时间长于另一位,则称之为预测结果与实际结果相符,称之为一致。

  ⒉计算C-index=K/M。

  ⒊从上述计算方法可以看出C-index在.-之间(任意配对随机情况下一致与不一致刚好是.的概率。.为完全不一致,说明该模型没有预测作用,为完全一致,说明该模型预测结果与实际完全一致。一般情况下C-index在.-.为准确度较低:在.-.之间为准确度中等;而高于.则为高准确度,跟相关系数有点类似。

  ⒋光从C-index一个数字上还是很难以衡量到底是准确度高还是低,所以人们就想着用一个统计学检验来说服证明这个高低,正如筛选基因差异是光看差异倍数来判断表达差异还过于武断,此时引入重抽样技术(Bootstrap)来检验预测模型的准确度。Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。

  ⒌Bootstrap方法核心思想和基本步骤如下:

  ⒍采用重抽样技术从原始样本中抽取一定数量的样本,此过程允许重复抽样。

  ⒎根据抽出的样本计算给定的统计量T。

  ⒏重复上述N次(一般大于),得到N个统计量T。

  ⒐计算上述N个统计量T的样木方差,得到统计量的方差。

  ⒑另如果数据集很大的话可以按照不同的比例将数据集拆分,一部分用于建模一部分用于验证。关于交叉验证(Cross-validation,如-fold、-fold等。

  ⒒虽然看起来很复杂,但是事实上已经有人做了这些事情,在R中有包可以直接计算一致性指数:Hmisc、pareC,两个包都可以计算c-index。

  ⒓偏差矫正百分位的非参数Bootstrap在spss中如何使用

  ⒔两独立样本的非参数检验(WilcoxonM-WU检验+Bonferroni检验(Bonferronicorrection。楼主碰到的是参见的多重检验校正问题multipletesting或者称为posthoc,不管是在方差籂叮焚顾莳该锋双福晶分析、卡方检验还是非参数检验都会碰到。在方差分析中提供了诸如LSD-t、SNK-q检验之类方法,而在其它情况基本无公认方法(有方法,但不常用。但有一种通用的校正方法叫Bonferroni检验,即根据检验次数将检验水准降低(一般书本放在卡方检验这章,当然这是一种过于保守的校正方法,试想,检验了k次,alpha就要除以k,得到这样的阳性结果确实不太容易;当然根据概率的计算,如果k次检验完全相互独立,检验水准确实应该除以k。由于非参数检验两两比较主要采用WilcoxonM-WU检验,这时校正再加上Bonferroni即可。参数检验时因为LSD-t等检验的检验效率更高,所以一般不采用它;理论上其实也可以,这时用t检验+Bonferroni检验,只不过检验效率较低而已。

  ⒕bootstrap怎么对异方差检验

  ⒖Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,不需要额外的信息,Efron(认为该方法也属于非参数统计方法。Bootstrap方法从观察数据出发,不需任何分布假定,针对统计学中的参数估计及假设检验问题,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,即产生经验分布,这样,即使我们对总体分布不确定,也可以近似估计出该统计量及其置信区间,由此分布可得到不同置信水平相应的分位数——即为通常所谓的临界值,可进一步用于假设测验。因而,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。在Bootstrap的实现过程中,计算机的地位不容忽视(Diaconisetal.,),因为Bootstrap涉及到大量的模拟计算。可以说如果没有计算机,Bootstrap理论只可能是一纸空谈。随着计算机的快速发展,计算速度的提高,计算费时大大降低。在数据的分布假设太牵强或者解析式太难推导时,Bootstrap为我们提供了解决问题的另一种有效的思路。因此,该方法在生物科学研究中有一定的利用价值和实际意义非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:(采用重抽样技术从原始样本中抽取一定数量(自己给定的样本,此过程允许重复抽样.(根据抽出的样本计算给定的统计量T.(重复上述N次(一般大于,得到N个统计量T.(计算上述N个统计量T的样本方差,得到统计量的方差.应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.。

  ⒗三种中介效应检验方法及操作步骤

  ⒘介绍三种常见中介效应检验方法,分别是因果逐步回归检验法、系数乘积法、改良后的因果逐步回归法,以及如果使用SPSSAU进行操作。

  ⒙中介效应:如果自变量X通过影响变量M而对因变量Y产生影响,则称M为中介变量。

  ⒚例如,上司的归因研究:下属的表现→上司对下属表现的归因→上司对下属表现的反应,其中的“上司对下属表现的归因”为中介变量。

  ⒛中介作用的检验模型可以用以下路径图来描述:

  方程()的系数c为自变量X对因变量Y的总效应;

  方程()的系数a为自变量X对中介变量M的效应;

  方程()的系数b是在控制了自变量X的影响后,中介变量M对因变量Y的效应;

  方程()的系数c′是在控制了中介变量M的影响后,自变量X对因变量Y的直接效应;

  系数乘积a*b即为中介效应等于间接效应

  因果逐步回归法由Baron和Kenny()提出,其检验步骤分为三步:

  第一,分析X对Y的回归,检验回归系数c的显著性(即检验H:c=);

  第二,分析X对M的回归,检验回归系数a的显著性(即检验H:a=);

  第三,分析加入中介变量M后X对Y的回归,检验回归系数b和c’的显著性(即检验H:b=、H:c’=)。

  根据检验结果按下图进行判断:

  基于SPSSAU的操作

  第一步,登录SPSSAU,上传数据;

  第二步,选择【问卷研究】--【中介作用】;

  第三步,选择变量拖拽到右侧对应分析框内,点击开始分析。

  SPSSAU的“中介作用”可直接将中介作用的检验过程自动化,一键提供出上述提及模型结果。

  本次结果中共包含三个模型:

  模型:X对Y的回归模型,结果显示x与y存在显著影响关系,回归系数c=..

  模型:x对m的回归模型,结果显示x与y存在显著影响关系,回归系数a=..

  模型:加入中介变量m后x对y的回归模型,结果显示回归系数b、c’均呈现显著性,系数a、b均显著,说明存在中介效应。

  第一种因果逐步回归检验法简单易懂、容易理解和解释,因而受到广泛的应用,但有学者认为其检验效能较低,有时候本身有中介作用但却显示没有中介作用。有学者提出乘积系数法的统计功效优于因果逐步回归法,因此,系数乘积法逐渐受到研究者的青睐。

  其原理是检验a*b是否呈现出显著性。系数乘积法分为两类,一类是基于中介效应的抽样分布为正态分布的Sobel检验法,另一类是基于中介效应的抽样分布为非正态分布的Bootstrap抽样法。

  Sobel中介效应检验法

  Sobel检验的前提假设是中介效应^a^b是正态分布且需要大样本。

  使用Sobel系数乘积检验法存在的主要问题是,检验统计量依据的正态分布前提很难满足,特别是样本量较少时。因为即使a,b分别服从正态分布,ab的乘积也可能与正态分布存在较大差异。

  当前较为流行的检验方法为Bootstra

  R语言实现bootstrap和jackknife检验方法

  写在最前面:首先需要说一下,本文的bootstrap和jackknife都算是蒙特卡罗方法(MonteCarlomethod)的一种。应用广泛的的MCMC链(马尔可夫链蒙特卡洛方法;MarkovchainMonteCarlo)也是蒙特卡罗与马尔可夫链的结合。简单来说,蒙特卡罗方法就是从已知样本的分布中随机抽取新的样本集进行评估,然后放回,再次抽取的方法。根据具体方法的不同,抽取样本集的手段也不同。

  bootstrap抽样方法将观测到的样本视为一个有限的总体,是唯一的信息来源,从中有放回的随机抽样来评估总体特征,以及对抽样总体进行推断统计。bootstrap也分参数bootstrap和非参数bootstrap,前者的分布已完全知道。但在生信领域一般没有这种情况。所以下面讨论的是非参数bootstrap。

  直接上例子:假设现在有bootstrap包中的law数据集如下,

  现在我们要计算LSAT成绩(美国法学入学考试和GPA之间的相关系数。但因为样本量太少了,所以我们使用bootstrap重复抽样评估其标准误。

  次循环抽样后,计算得se.R标准误为.得到如下的图:

  e次循环抽样后,计算得se.R标准误为.得到如下的图:

  如果用bootstrap包的bootstrap函数会快一些:

  bootstrap函数的用法:bootstrap(抽取样本范围,重复次数,进行bootstrap的函数,bootstrap的数据集)

  偏差定义为bootstrap结果(多个数值与原数据统计结果(单个数值的均值:

  得到bias大约为.,比较小

  换一个包,boot包

  这里用了三种方法计算置信区间:basic、正态和百分数。样本相关系数分布接近正态,则正态置信区间接近百分数区间。此外还有“BetterBootstrapConfivendenceInterval”更好的bootstrap置信区间,称为BCa区间,使用偏差和偏度对百分数置信区间进行矫正。设置type=“bca“即可。

  简单的说,bootstrap是从原有真实样本中有放回地抽取n个。jacknife就是每次都抽取n-个样本,也就是每次只剔除一个原样本。

  同样地,如果以bootstrap包中的law数据进行演示:

  Jackknife计算的bias为-.。这里jackknife的偏差公式相比于bootstrap有一个(n-)系数,推导就不写了。

  标准误se为.,与bootstrap得出的比较接近。

  当统计量不太平滑的时候,Jacknife有很大误差。比如说对中位数进行统计,其变化很大。在进行Jacknife之后最好再跑一次bootstrap,看看是否相差很大。

  居然还能这么嵌套着玩,针对每次bootstrap形成的数列向量计算jackknife的标准差,这样可以看出bootstrap若干次取样之间的差异。

  算出来分别为.和.。后者较小,表面bootstrap取样之间的variance较小。

  简单来说就是一种数据分割检验的方法,将数据分割为K份,称为“K-fold“交叉检验,每次第i个子集作为测试集来评估模型,其余的用来构建模型。Admixture使用的就是这个原理。Jackknife也属于CrossValidation的应用之一。

  现在我创建一个这样的alignment:

  这棵树长这样,符合遗传距离:

  进行bootstrap:

  phylogeny的bootstrap是对每一个节点都进行bootstrap取样并建树,比如说在号节点,查看其bootstrap子集建的树符合系统发育关系((human,human,human)(human,human,human,human,human))的百分比(不管内部怎么样,先看这个节点。发现Node支持率是(次都符合。而后移到下一个节点,并且只看节点内部的分支支持率是多少。

  其实原理都比较简单,计算bootstrap也会有专门的软件。

  参考资料:中科大张伟平教授课件

  统计学(-利用Bootstrap法估计置信区间

  我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布,因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积.所对应的分值了。是不是就没有方法了呢?事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap法。Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

  统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体假定我们从某所学校中随机抽样调查了名学生的身高,打算通过这人的身高估计该学校所有学生(如人的身高。

  Bootstrap估计的思路就是从这人中重复抽样。具体来说,以这人作为抽样框,做次抽样(当然也可以是次、次、甚至次等,视具体情况而定,有放回抽样!

  根据Bootstrap抽样,可以对每次抽样都计算出一个均数。(然后以这个均数作为原始数据,求出这个均数的均数为.,这就是利用Bootstrap法进行的点估计。(对于%置信区间,则分别计算出第.%和第.%的分位数,如本例为.和.,这也就是估计的总体均值的%置信区间,与常规方法计算的%置信区间比较接近。

  百分位数法简单易懂,无须复杂计算,只要有了Bootstrap样本及每个样本的统计量,找到相应的百分位数即可。(它必须满足一个潜在的假定,即Bootstrap抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。(t法对于%置信区间,确定.和.的百分位数,则%置信区间为:

  传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量,Bootstrap法就十分有用了。

  事实上,即使对于参数推断,Bootstrap法也可以显示出与其同样的功效。(计算两个中位数之差的置信区间采用Bootstrap法的思路是:从样本数据中重复抽取次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出个中位数之差。然后根据这个中位数之差,计算出它们的第.百分位数和第.百分位数,这就是两个中位数之差的%置信区间。如果该置信区间不包含,则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。(计算回归系数的置信区间假定样本数据有因变量y和自变量x,采用Bootstrap法的思路是:从样本数据中重复抽取次样本,每个样本都包含y和x,每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b(当然我们关心的是回归系数b)。最终可计算出个回归系数b。然后根据这个回归系数,计算出它们的第.百分位数和第.百分位数,这就是回归系数的%置信区间。如果该置信区间不包含,则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(,我不懂,是无效假设吗?)回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂

  如何用自助法或刀切法估计偏差、方差

  有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟。)参数化的bootstrap假设总体的分布已知或总体的分布形式已知,可以由样本估计出分布参数,再从参数化的分布中进行再采样,类似于MC。)非参数化的bootstrap是从样本中再抽样,而不是从分布函数中进行再抽样。假设是我们的估计量为,样本大小为N,从样本中有放回的再抽样N个样本,原来每一个样本被抽中的概率相同,均为/N,得到新的样本我们称为Bootstrap样本,重复B次之后我们得到B个bootstrap样本集,在第i个样本集上都有对应的估计量,对于B个,我们可以计算得到标准误,置信区间,偏置等。Jackknife(刀切法)是有MauriceQuenouille()提出的一种再抽样方法,其原始动机是降低估计的偏差。Jackknife类似于“Leaveoneout”的交叉验证方法。令X=(X,X,…,Xn)为观测到的样本,定义第i个Jackknife样本为丢掉第i个样本后的剩余样本即统计函数不是平滑函数:数据小的变化会带来统计量的一个大的变化如极值、中值。如对数据X=(,,,,,,,,)的中值得到的结果为,,,,,,,,,偶数个数的中值为最中间两个数的平均值。Efron年文章指出了自助法与刀切法的关系。首先,自助法通过经验分布函数构建了自助法世界,将不适定的估计概率分布的问题转化为从给定样本集中重采样。第二,自助法可以解决不光滑参数的问题。遇到不光滑(Smooth)参数估计时,刀切法会失效,而自助法可以有效地给出中位数的估计。第三,将自助法估计用泰勒公式展开,可以得到刀切法是自助法方法的一阶近似。第四,对于线性统计量的估计方差这个问题,刀切法或者自助法会得到同样的结果。但在非线性统计量的方差估计问题上,刀切法严重依赖于统计量线性的拟合程度,所以远不如自助法有效。

  什么是bootstrap方法

  网格系统的实现原理,是通过定义容器大小,平分份(也有平分成份或份,但份是最常见的),再调整内外边距,最后结合媒体查询,就制作出了强大的响应式网格系统。Bootstrap框架中的网格系统就是将容器平分成份。

  bootstrap优缺点:

  bootstap最近发布了bootstrap,拥有了box-flex布局等更新,紧跟最新的web技术的发展

  比较成熟,在大量的项目中充分的使用和测试

  拥有完善的文档,使用起来更方便

  有大量的组件样式,接受定制

  如果有自己特殊的需求,就需要重新定制样式,如果一个网站中有大量的非bootstrap“风格”的样式存在,那么你就需要做大量的css重写,因此也就失去了使用框架的意义。

  会有兼容问题,虽然网上存在很多兼容IE的办法,但需要引入其他文件,有些还不小,势必导致加载速度变慢,影响用户体验。

您可能感兴趣的文章:

相关文章