统计学自用小记 PDF Typst 1Estimation对于一个总体,当然这个总体满足一定的分布 𝑋∼𝒟︀(𝜃),其中 𝑋 是随机变量,𝒟︀(𝜃) 是任意一种参数分布,𝜃 是这个分布的参数。如果我们知道总体的所有单位的观测值,那么这个分布的参数就已经是确定的了。例如正态分布 𝑋∼𝒩︀(𝜇,𝜎2),那么自然有𝜇=1𝑁∑𝑁𝑖=1𝑥𝑖,𝜎2=1𝑁∑𝑁𝑖=1(𝑥𝑖−𝜇)2,问题在于,我们拿到的只是 𝑛 个样本的抽样总体,因此我们的对参数的估计是不准确的(因为我们只能拿到部分的信息)。1.1点估计估计不准确?去他妈的,我管你那么多,我能给你估计一个合理的参数就不错了。所谓估计,那本质上就是我现在有一堆抽样观测值 𝑥𝑖,然后把他们搞在一起,弄成一个值,然后把这个值作为我估计的值。所以可以说点估计本质上就是用一个统计量来估计总体参数。用观测值构造的统计量最简单当然是我们最爱的矩啦!然后用样本的矩来估计总体的矩,美哉美哉!好,没错,你估计出总体的矩了,这有什么用?你最终估计出总体分布的参数了吗?你说,估计出来了,正态分布的两个参数分别就是一阶原点矩(总体均值)和二阶中心矩(总体方差),这不就估计出来了?我说,那对于那些参数不是啥啥矩的的分布呢,阁下当如何应对?你说,客官莫急,我自有锦囊妙计!你不等我反应便当即提问:试问我们最终要做什么事情?——“估计出总体分布的参数”。那我随便把观测数据搞在一起弄一个值出来,算不算一个估计?我想了想,确实算。不对不对,不能算,你这也太随便了吧,至少得弄个准一点的估计吧!哈哈哈,你脸上暗自窃笑,追问道,那怎么才称得上“准”呢?我搅拌脑汁,突然冒出灯泡——你看,所谓分布,我可以想象成随机变量的一种分布形状。假设现在我已经确定我的参数了,那么这个形状就确定了,而抽样分布也形成一种分布的形状。我只需要比较一下这两者的匹配程度即可!我给你举个抛硬币的例子,假设这枚硬币正面朝上的概率为 𝑝,反面朝上的概率为 1−𝑝,那么这个分布的形状就是 (𝑝,1−𝑝)。假设现在我投掷了10次,有7次正面,3次反面,此时我观测的形状就是 (0.7,0.3)。而我只需要调整我的待估计参数 𝑝,使得其形状能够匹配上 (0.7,0.3),这样就可以说我估计出来的 𝑝 是“准”的估计!哈哈哈哈,你大笑,不错不错,问题在于,什么是你衡量分布“匹配度”的标准呢?1.1.1MDE我想到了一个最简单的:就是对每个随机变量的取值都计算其距离:𝐿(𝜃)=∑𝑖|𝑃(𝑋=𝑥𝑖|𝜃)−𝑝𝑖|2.如果把分布写成向量的形式,总体分布向量 𝒙(是一个与参数 𝜃 有关的向量)和抽样分布向量 ̂𝒙 的距离𝐿(𝜃)=‖𝒙−̂𝒙‖2,所以估计的参数 𝜃 就是最小化这个距离𝜃=argmin𝜃‖𝒙−̂𝒙‖.此外,既然可以最小距离,那也可以直接最大化相似度(点积)𝜃=argmax𝜃𝒙⋅̂𝒙.1.1.2MLE如果不用向量这种图形化的语言来观察两个分布,而是这样想:观测值是总体分布的抽样结果,那么就可以算出这个结果出现的概率!假设只抽一个样本,那么这个样本的分布就是服从整体的分布,例如 𝑥∼ℬ︀(1,𝑝), 那么结果要么是1, 要么是0. 假设结果为1, 则可以计算出现这个结果的概率𝑃(𝑋=1|𝑝)=𝑝1⋅(1−𝑝)0=𝑝,如果一次抽样有多个独立同分布的样本,那么抽样的结果应该是一个抽样分布。在这个投掷硬币的例子中,抽样分布是一个伯努利分布。设随机变量 𝑌 表示抽样结果中正面朝上的个数,则7次正面、3次反面的概率𝑃(𝑌=7|𝑝)=(107)⋅𝑝7⋅(1−𝑝)3=120𝑝7⋅(1−𝑝)3≡𝐿(𝑝),记为似然函数 𝐿(𝑝), 估计参数就是最大化使这个结果出现的可能性𝑝=argmax𝑝𝐿(𝑝)=argmax𝑝𝑝7⋅(1−𝑝)3.当然为了求其最大值,使用取对数求导的方法:(ln𝐿(𝑝))′=(7ln𝑝+3ln(1−𝑝))′=7𝑝+31−𝑝,另之等于0, 可以解得 𝑝=0.7, 美哉快哉!1.1.3KL散度我感觉我泉思喷涌,因为一想到我要做的实际实际上是调整参数 𝜃 使得总体分布 𝐹(𝜃) 和样本分布 ̂𝐹 的“匹配度”最大,我就想到了更多的方法!这里我要说的就是KL散度。KL散度是从信息论的角度出发来定义分布 𝐵 相对于分布 𝐴 的信息损失量(信息熵)。回顾一下信息量的定义,对于一个系统,如果一件事件发生的概率为 𝑝,则其信息量为 −log𝑝。这样的定义满足了这样几个性质:当事件发生的概率为1时,我们知道它一定会发生,因此它发生与否都没有带来更多的信息,因此其信息量为0; 当事件发生的概率趋于0时,一个几乎不可能发生的事情竟然发生了,那么他的信息量应该趋于无穷大。信息熵衡量了一个随机变量的平均信息量,即 𝐻(𝑋)=−∑𝑖𝑝(𝑥𝑖)ln𝑝(𝑥𝑖). 这样你应该能理解KL散度的定义了:𝐷KL(𝐴‖𝐵)=∑𝑖𝐴(𝑥𝑖)⋅ln(𝐴(𝑥𝑖)𝐵(𝑥𝑖)).1.1.4卡方距离与MDE直接算平均距离不同,卡方距离是“相对”距离,或者更准确地说应该是相对频次。样本量为 𝑛理论 𝑥𝑖 的频次应该是 𝑛𝑝𝑖,实际统计出的频次是 𝑓𝑖,则其卡方距离𝜒2=∑𝑖(𝑓𝑖−𝑛𝑝𝑖)2𝑛𝑝𝑖.记住我们给出这些统计量的定义是为了进行点估计,效果可嘉。但是上述方法你不觉得有点随便吗?哪里随便了,我问。你看,你是利用样本的观测值来估计总体的参数,本质上是用样本观测值的一个统计量来估计总体参数,那么这个统计量肯定服从一个抽样分布吧,在MLE的时候已经提到了。我说,对啊,那咋了?呵呵,要是这个分布很狗屎呢,比如很偏、方差很大之类?嗷嗷,有道理啊!那怎么办呢?你自信微笑,没事儿,一个值直接估计固然有些勉强,对于这种拿不准的事情,我们只需要油滑一些——给出一个估计的区间就行!1.2区间估计区间估计的想法其实很简单。假设现在老板说:啊,小伙子,给我估计一下这个分布的参数,我允许你有5%的误差,要有九五成的把握,咳咳。你想想,你要是只丢给老板一个值的话,这包不准的啊,你估计完全正确的概率是0, ZERO!那咋办?你灵机一动,那我不给一个值了,而是给出一个估计的区间,这样真实值总有概率落在我的区间里面嘛!而我呢,只需要精密地调整我的区间位置,使让它尽量小一点,并且真实值落在里面的概率要高于九五成即可!显然区间越小容错越小,那么我要做的就是调整区间使得真实值落在里面的概率恰好是95%。问题来了,啥是“真实值落在我区间的概率”?我区间不是给定的吗,而且真实值不也是确定的吗?这不都是确定的,何来概率一说?嘿嘿,你微微一笑,这就是随机变量的确定的观测值和其随机性的辨证统一关系的体现了。啥意思,我问?就是说,你以为你的区间是给定的,但其实它也是某种随机变量,只需要注意到你通过样本搞出来的统计量也是一个随机变量!我们以这个统计量 𝑌=𝑦 作为中点,以一定的误差值 𝐸(边际误差)左右延展构成最终的估计区间 [𝑌±𝐸],那么这个区间也具有随机性。而我们之前说的“真实值落在区间的概率”是哪个随机变量的概率呢?是“真实值落在区间中”,也就是 |𝜃−𝑌|≤𝐸,也就是𝑃{|𝜃−𝑌|≤𝐸}=1−𝛼.注意看⚠️,由于统计量 𝑌 服从一个抽样分布,所以其累计密度函数 𝐹 是可以得到的,我们要做的就是调整 𝐸 的值,使得上述等式成立即可,哦耶✌️!当然,为了更好得使用标准的分布,我们通常会构造一个枢轴量。例如对于估计正态分布的参数 𝜇,在已知 𝜎2 的情况下,我们直接使用统计量 𝑋 来估计,也就是𝑃{|𝜇−𝑋|≤𝐸}=1−𝛼然后把它搞成正态分布参数的形式(由于 𝑋−𝜇𝜎/√𝑛∼𝒩︀(0,1))𝑃{|𝑋−𝜇𝜎/√𝑛|≤𝐸𝜎/√𝑛}=1−𝛼即𝑃{𝑋−𝜇𝜎/√𝑛≤−𝐸𝜎/√𝑛}≡𝐹(−𝐸𝜎/√𝑛)=𝛼2,这里𝑍=𝑋−𝜇𝜎/√𝑛∼𝒩︀(0,1)就是我们构造的枢轴量,是一个很标准的分布,主要就是为了方便。然后就是为了快速确定 𝐸 的值,统计学家搞出来了个“分位数”的概念,就不用写累计分布函数的庞杂的式子了。分位数的定义很简洁,对于累计分布函数 𝐹(𝑥)=𝑃{𝑋≤𝑥},给定一个累计概率 𝛼,满足 𝐹(𝑥𝛼)<𝛼,就称 𝑥𝛼 是随机变量 𝑋 的 𝛼 分位数。由上面那个式子,可以显然得到−𝐸𝜎/√𝑛=𝑧𝛼/2⟹𝐸=−𝜎√𝑛𝑧𝛼/2.所以最后估计的区间(置信区间)为[𝑝±𝜎√𝑛𝑧𝛼/2]1.3评价估计量的标准上述点方案都是通过“准”的方式选择估计量,但是评价一个估计量的好坏还不至于此,下面是一些其他的指标:Definition 1.1无偏性估计量的数学期望等于被估计的总体参数Definition 1.2有效性对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。Definition 1.3一致性随着样本容量的增大,估计量的值越来越接近被估计的总体参数。待估参数其他参数枢轴变量及其分布1.4样本容量的确定2Hypothesis Test假设检验的思想同样是一种“油滑”的思想😎,还是拿牛马的例子来说。现在老板有一批货,这批货有一个指标 𝑋 满足正态分布 𝑋∼𝒩︀(𝜇,𝜎2)。现在你统计了这批货的平均指标 𝑥,发现 𝑥≠𝜇,因此老板怀疑这批货的指标有问题。不会有问题的老板!你说。咋可能,明明你统计出来的值和我想要的不一样。你娓娓道来,老板,你看,这个货物的指标并不是一个固定的值,而是在你想要的值 𝜇 左右波动。你看,现在我这批货有 𝑛 个样本,假设这批货真的有问题没达到您想要的指标,那我们就假设它的指标为 𝜇0,并且我们假定这种波动的效果是一样的(就是同方差)。假设每个样本独立同分布,那么我统计出的平均指标 𝑋 是一个随机变量,并且也服从正态分布 𝑋∼𝒩︀(𝜇0,𝜎2𝑛)。这就是说平均指标也是一个上下波动的值,老板你看,你说我这批货指标有问题是不是太过武断了😁?老板作深思状🤔,确实,那你这样一说你的指标随便取什么值都有可能一样,这显然不合适吧?如果这个偏差太离谱了话,怎么看你这批货都有问题啊!你顺势说道,没错老板,就是这个意思,只要我的偏差不要太离谱,那我都可以接受这批货的指标是没问题的。因此,我先假设我的货就是没问题的(这样就把我可接受的的分布确定了),即假设𝐻0:𝜇=𝜇0,那么我这批货应该服从均值为 𝜇 的正态分布 𝒩︀(𝜇,𝜎2𝑛),即 𝑋∼𝒩︀(𝜇,𝜎2𝑛),这是一个已知的分布。我们可以设置一个离谱值 Δ,只要最终我的结果在 [𝜇−Δ,𝜇+Δ] 内,那我就可以接受这批货的指标是没问题的。假如我们设定的离谱值使得我这批货统计出的平均指标太离谱的概率小于一个水平 𝛼,也就是犯错误的概率为 𝛼,即𝑃{|𝑋−𝜇|>Δ}<𝛼,那么我们就有 1−𝛼 的把握说我们这批货的指标确实是没问题的。2.1第I类错误和第II类错误好,你假设了 𝜇=𝜇0,但如果我假设𝐻1:𝜇≠𝜇0怎么办?也就是说现在有两种可能的情况——要么我这批指标货没问题(𝐻0),要么有问题(𝐻1)。当我们判断我们这批货到底有没有问题时,我们可能判断错❌,也可能判断对✔。于是我们可以组合出下面四种情况没问题有问题没问题✅正确判断1−𝛼❌第I类错误𝛼判断结果有问题❌第II类错误𝛽✅正确判断1−𝛽真实情况其中 𝛼 和 𝛽 分别为弃真错误和取伪错误允许的概率。假设检验的方法是承担第I类错误的风险(通过设定 𝛼 值),但没办法承担第II类错误的风险,因为通常我们没法知道备择假设成立时统计量的分布。2.2检验的一般步骤我们把上面的式子先标准化一下𝑃{𝑍≡𝑋−𝜇𝜎/√𝑛<−Δ𝜎/√𝑛≡𝑧𝛼/2}<𝛼2.(2.1)这个式 (2.1) 展示了下图中的红色区域。−4−3−2−101234𝑥00.10.20.30.4𝑦𝑃(𝑧−𝛼/2≤𝑍≤𝑧𝛼/2)𝒩︀(0,12)假设平均值的观测值 𝑥 落在这个红色区域内,即𝑥−𝜇𝜎/√𝑛<𝑧𝛼/2,则说明我们这批货的平均指标还算正常(95%的把握认为);如果超出了这个值,说明假设 𝐻0 就不成立了(黑话说的是“拒绝了原假设”),说明我们这批货质量确实不行。⚠️注意上述的推导是基于双侧置信区间(双尾检验)。当然,你也可以反过来做,也就是拿着现有的统计值 𝑥,计算出 𝑧=𝑥−𝜇𝜎/√𝑛 值,然后看他是否在红色区域内,即先计算𝑝=𝑃{|𝑍|>𝑧}这个值代表了比我们现在的值还离谱的概率。比较 𝑝 值与 𝛼 的大小,如果 𝑝<𝛼 说明比我们还离谱的值太少了,比老板允许的离谱值 𝛼 还少,说明我们这批货质量确实不行。2.3卡方检验还记得小节 1.1.4 中我们定义了一个卡方距离吗?也就是实际频次相对于理论频次的“吻合程度”。在Z检验中,我们通过给出样本统计量的抽样分布,通过假定原假设成立来假设该统计量的分布参数,通过给出允许的弃真容错概率 𝛼 来计算统量的观测值是否在拒绝域中。走完上述流程,我们检验了统计量的观测值是否有 1−𝛼 的把握是没问题的。在我们现在要说的卡方检验中,这个统计量服从卡方分布,也就是我们的主角——卡方距离。Definition 2.1卡方分布𝑛 个独立同分布于标准正态分布的随机变量 𝑋1,𝑋2…,𝑋𝑛 的平方和 ∑𝑛𝑖=1𝑋2𝑖 构成的一组新的随机变量,其分布规律称为卡方分布 𝜒2(𝑛)。卡方统计考察的是这样一个问题:设总体中类别 𝑖 的概率为 𝑝𝑖,满足 ∑𝑘𝑖=1𝑝𝑖=1. 从该总体中抽取 𝑛 个独立观测,记观测频数为 𝑓𝑖,满足 ∑𝑘𝑖=1𝑓𝑖=𝑛. 检验的原假设𝐻0:𝑝𝑖=𝜋𝑖,𝑖=1,2,…,𝑘其中 𝜋𝑖 是事先给定的理论概率。下面给出卡方统计量的定义。Definition 2.2卡方统计量卡方统计量定义为𝑋2=∑𝑘𝑖=1(𝑓𝑖−𝑛𝜋𝑖)2𝑛𝜋𝑖,其中 𝑓𝑖 是观测频次,𝑛𝜋𝑖 是理论频次。若原假设成立,则统计量 𝑋2 服从自由度为 𝑘−1 的卡方分布 𝜒2(𝑘−1)。容易证明卡方统计量服从自由度为 𝑘−1 的卡方分布,只需要注意到进行 𝑛 次实验,𝑘 个互斥类别出现的频数 (𝑓1,𝑓2,…,𝑓𝑘) 服从自由度为 𝑘−1 的多项分布。当实验次数 𝑛 较大时,每个观测频数 𝑓𝑖 近似服从正态分布,并且𝔼(𝑓𝑖)=𝑛𝜋𝑖,Var(𝑓𝑖)=𝑛𝜋𝑖.可以标准化𝑍𝑖=𝑓𝑖−𝑛𝜋𝑖√𝑛𝜋𝑖∼𝒩︀(0,1),因此𝑋2=∑𝑘𝑖=1𝑍2𝑖∼𝜒2(𝑘−1).若理论分布 𝜋𝑖 中有 𝑟 个参数由参数需由样本估计,则自由度减少为 𝑘−1−𝑟,证明思路类似,但需考虑参数估计带来的约束。除此之外,任何可以被构造为卡方分布的统计量都可以使用卡方检验,例如:1.检验某个连续变量的分布是否与理论分布一致;2.检验某个分类变量各类的出现概率是否等于指定概率;3.检验某两个分类变量是否相互独立。如吸烟是否与呼吸道疾病有关;4.检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。2.3.1卡方拟合优度检验也就是假定理论的分布(或者分类变量每个类别的概率),做 𝑛 次实验,统计每个值(或每个类别)出现的频率。𝐻0:观察分布等于期望分布值(类别)期望频数实际频数120182201932023⋮⋮⋮自由度 df=𝑘−1。2.3.2卡方独立性检验独立性检验只是多了一个步骤,也就是需要计算理论分布,再按照上面同样的步骤检验。参考方差分析中因子的概念Definition 3.1,卡方拟合优度检验只有一个因子(或者说一种分类方式),可以直接构造卡方统计量𝑋2=∑(𝐴−𝐸)2𝐸.但是当有多个因子时,假设每个类别的理论分布(期望频数)都是固定的,那么我们可以直接写成笛卡尔积的形式:值(类别)期望频数实际频数(1,1,1)2018(1,1,2)2019(1,2,1)2023⋮⋮⋮然后我们又可以美汁汁儿计算卡方统计量来检验实际频数是否拟合期望频数了,嘻嘻😁。问题是在独立检验中,我们压根不知道理论频数,我们只知道分类变量的实际频数!A\B12A的实际频数1439613922884112B的实际频数71180总计251好在我们并不需要知道真正的理论分布,别忘了我们的目的是判别这两个分类自变量是否独立!因此我只可以直接假设因子的期望频数就是实际频数,即𝑃{𝐴=1}=139251,𝑃{𝐴=2}=112251;𝑃{𝐵=1}=71251,𝑃{𝐵=2}=180251.给出我们的原假设𝐻0:A与B独立那就应当满足𝑃{𝐴=𝑖∧𝐵=𝑗}=𝑃{𝐴=𝑖}⋅𝑃{𝐵=𝑗}这样我们就可以计算出每个因变量的理论频数A\B121251×139251×71251≈39.3296×139251×180251≈99.68228×112251×71251≈31.6884×112251×180251≈80.32这样我们就得到了(𝐴,𝐵)期望频数实际频数(1,1)4339.32(1,2)9699.68(2,1)2831.68(2,2)8480.32自由度为行数-1✖️列数-1:df=(𝑅−1)(𝐶−1)=1.2.4Z检验2.4.1单总体均值的差异检验2.4.2双总体均值的差异检验2.5T检验通过对卡方检验我们理解了,这个某某检验无非是把要检验的量构造成某某分布。T检验当然是对于能搞成t分布的检验,其实跟Z检验差不多,无非是此时方差是通过样本算出来的而不是已知的。Definition 2.3T分布设随机变量 𝑋 服从标准正态分布 𝒩︀(0,1),随机变量 𝑌 服从自由度为 𝑛 的卡方分布 𝜒2(𝑛),且 𝑋 与 𝑌 相互独立,则随机变量𝑇=𝑋√𝑌/𝑛的分布称为自由度为 𝑛 的T分布,记为 𝑇∼𝓉︀(𝑛)。2.5.1单样本t检验2.5.2配对样本t检验2.5.3独立样本t检验2.6F检验3ANOVA3.1因素在小节 2 我们知道了Definition 3.1因素/因子称影响因变量(通常是频数)的分类自变量为因素或因子。3.2单因素方差分析3.3双因素方差分析4Linear Regression5Cluster Analysis6Discriminant Analysis7Priciple Component Analysis8Factor Analysis