族谱网 头条 人物百科

泊松回归

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:635
转发:0
评论:0
泊松回归模型x∈∈-->Rn{displaystylemathbf{x}inmathbb{R}^{n}}代表由一组相互独立的变量组成的向量,其泊松回归的模型形式为:log⁡⁡-->

泊松回归模型

x ∈ ∈ --> R n {\displaystyle \mathbf {x} \in \mathbb {R} ^{n}} 代表由一组相互独立的变量组成的向量,其泊松回归的模型形式为:

log ⁡ ⁡ --> ( E ⁡ ⁡ --> ( Y ∣ ∣ --> x ) ) = α α --> + β β --> ′ x , {\displaystyle \log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\mathbf {\beta } "\mathbf {x} ,} α α --> ∈ ∈ --> R {\displaystyle \alpha \in \mathbb {R} } , β β --> ∈ ∈ --> R n {\displaystyle \mathbf {\beta } \in \mathbb {R} ^{n}} .

亦可简洁表示为: log ⁡ ⁡ --> ( E ⁡ ⁡ --> ( Y ∣ ∣ --> x ) ) = θ θ --> ′ x , {\displaystyle \log(\operatorname {E} (Y\mid \mathbf {x} ))={\boldsymbol {\theta }}"\mathbf {x} ,\,}

此处, x {\displaystyle \mathbf {x} } 是 n+1维的向量,由n个独立变量(自变量向量)一个常向量(元素取值全为1)构成,用一个 θ 代表第一个表达式当中的 α 和 β 。

因此,当已知泊松回归模型当中的 θ 和解释变量 x {\displaystyle \mathbf {x} } , 其满足泊松分布的被解释变量的期望值可以由下式来预测:

Y i 是被解释变量的观测值,相应的解释变量为 x i ,可由极大似然估计(Maximum Likelihood estimation)的方法来估计参数 θ 。 极大似然估计不能通过解析表达式获得解析解,是由其对数似然函数为凸函数的特性,可通过Newton–Raphson 或其他基于梯度下降的思想方法来进行参数估计。

极大似然估计

如上所述,已知泊松回归模型当中的 θ 和解释变量 x {\displaystyle \mathbf {x} } , 其回归表达式为:

泊松分布的概率密度函数为:

现已知解释变量的观测值为由 m 个向量组成 x i ∈ ∈ --> R n + 1 , i = 1 , … … --> , m {\displaystyle x_{i}\in \mathbb {R} ^{n+1},\,i=1,\ldots ,m} , 对应 m 个被解释变量的观测值, y 1 , … … --> , y m ∈ ∈ --> R {\displaystyle y_{1},\ldots ,y_{m}\in \mathbb {R} } . 若同时已知 θ , 则该组观测值所对应的联合概率可由下式表达:

极大似然方法估计 θ 的核心思想是,去找到能使得基于当前观测值的联合概率尽可能达到最大的 θ 。(可理解为:变量的取值当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。 既然目标是寻找到最优的 θ ,可以先将上式的等号左边简单表达为关于 θ 的表达式:

注意等号右边的表达式并未改写,但通常难于付诸计算,因而采用其对数变化后的表达式( log-likelihood )即:

由于 θ 仅出现在似然函数的前两项,因而在极大化似然函数的运算过程中,可以只考虑前两项。可以删去第三项 y i !,待优化的似然函数可以简洁表达为:

ℓ ℓ --> ( θ θ --> ∣ ∣ --> X , Y ) = ∑ ∑ --> i = 1 m ( y i θ θ --> ′ x i − − --> e θ θ --> ′ x i ) {\displaystyle \ell (\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta "x_{i}-e^{\theta "x_{i}}\right)} .

为了找到极大值,需要求解方程:

∂ ∂ --> ℓ ℓ --> ( θ θ --> ∣ ∣ --> X , Y ) ∂ ∂ --> θ θ --> = 0 {\displaystyle {\frac {\partial \ell (\theta \mid X,Y)}{\partial \theta }}=0}

可以通过对其似然函数取负值 (negative log-likelihood), − − --> ℓ ℓ --> ( θ θ --> ∣ ∣ --> X , Y ) {\displaystyle -\ell (\theta \mid X,Y)} 是一个凸函数, 标准的凸优化方法可以考虑来求解 θ 的最优值。统一的方法是Newton-Raphson 与Iterative Weighted Least Square(IWLS)算法。 给 θ 一组初始值,IWLS 是通过多次迭代更新直到 θ 收敛。

泊松回归的应用

泊松回归常用于被解释变量为计数(Count)形式时,包括事件发生的次数,比如:客服中心接到的电话次数。其满足相互独立的假设。在此例子中,即为:拨打客服电话的人们之间不存在相互关联。不会因为甲拨打了客服,而影响乙拨打的可能性。但在建模时,需要考虑统计该事件发生的时期,比如目标变量统计的是一天接到的电话次数,还是一个星期,或者一个月。这个时期的数据作为回归模型中的抵消值,在下面解释。

"量"(Exposure) 与 偏移量 (trade off)

泊松分布也可以适用于比率数据,即事件发生次数与其测量时间或测量范围的比值。比如生物学家测量某森林中树木种类的数目, 比率变量即为每平方千米的树木种类数。人口学家关注的是每个人口年(person-year)的人口死亡数。通常来说,比率变量表达的是单位时间内该事件发生的次数。这些例子中,平方米”,“人口年”这些变量就是所谓的"量"(Exposure)。泊松回归中将其视为偏移量放在等式右边。

which implies

在R中运行广义线性模型时,可用offset()来指定表示“量”的变量:

glm(y ~ offset(log(exposure))+ x, family=poisson(link=log))

过度离势和零膨胀

服从泊松分布的变量,具有期望与方差相等的特征。若观测样本的方差远大于期望值的时,则认为存在过度离势,当前的模型不合理。其常见的原因是缺失重要的解释变量。解决该问题的方法,通常采用准似然估计(quasi-likelihood) 或者负二项分布(negative binomial distribution)来估计。

泊松回归的另一个常见的问题是零膨胀zero-inflated model。标准的泊松分布其定义域为非负整数,被解释变量y取值为0的概率为:

但如果观测样本中添加大量的0,则取值为0的频率远大于理论概率,此时不适宜直接采用泊松回归。比如观测一组人在一小时内的吸烟情况,目标变量是每人吸了多少根烟。但当观测人群中有大量的非吸烟者,就会有过多的目标变量为0, 这就是零膨胀。可以采用其他的广义线性模型,比如负二项分布negative binomial来建模,或者零膨胀模型zero-inflated model 来解决。


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 泊松流形
定义M上一个泊松结构(Poissonstructure)是一个双线性映射使得这个括号反对称:服从雅可比恒等式:是C(M)关于第一个变量的导子:上一个性质有多种等价的表述。取定一个光滑函数g∈C(M),我们有映射f↦↦-->{g,f}{\displaystylef\mapsto\{g,f\}}是C(M)上一个导子。这意味着存在哈密顿哈密顿向量场Xg使得对所有f∈C(M)。这说明这个括号只取决于f的微分。从而,任何泊松结构有一个相伴的从M的余切丛TM到切丛TM的映射将df映为Xf。泊松双向量余切丛与切丛之间的映射意味着M上存在一个双向量场η,泊松双向量(Poissonbivector),一个反对称2张量ηη-->∈∈-->⋀⋀-->2TM{\displaystyle\eta\in\bigwedge^{2}TM},使得这里⟨⟨-->,⟩⟩-->{\displaystyle\langle,\ran...
· 泊松代数
定义一个泊松代数是域K上一个向量空间装备着两个双线性乘积,⋅⋅-->{\displaystyle\cdot}与{,},满足如下性质:乘积⋅⋅-->{\displaystyle\cdot}构成一个结合K-代数;乘积{,},叫做泊松括号,构成李代数,从而反对称并满足雅可比恒等式。泊松括号是结合乘积⋅⋅-->{\displaystyle\cdot导子的导子,即对此代数中任何三个元素x,y与z,都有{x,y⋅⋅-->{\displaystyle\cdot}z}={x,y}⋅⋅-->{\displaystyle\cdot}z+y⋅⋅-->{\displaystyle\cdot}{x,z}。最后一个性质通常保证了这个代数有其他给出表述,可见下面例子中所指出。例子泊松代数出现于多种不同场合。辛流形辛流形上实值光滑函数组成一个泊松代数。辛流形上每个实值函数H{\disp...
· 泊松过程
性质考虑一个泊松过程,我们将第一个事件到达的时间记为T1。此外,对于n>1,以Tn记在第n-1个事件与第n个事件之间用去的时间。序列{Tn,n=1,2,...}称为到达间隔时间列。Tn(n=1,2,...)是独立同分布的指数随机变量,具有均值1/λ。参见泊松分布马尔科夫链
· 泊松光斑
历史1814年,菲涅耳开始致力于光的本性的研究,他再度重现了托马斯·杨于1801年建立的光的双缝干涉实验,并用惠更斯原理对这一现象作出完美的解释。与此同时,他开始研究小孔衍射问题。1817年,法兰西学术院举行了一次关于光的本性问题的科研成果最佳论文竞赛,菲涅耳加紧了研究工作;他在他弟弟的帮助下,成功地提出了惠更斯-菲涅耳原理(后人的称呼),他用这一原理出色地解释了光的直线传播规律,提出了光的衍射理论的子波解释,并于1818年提交了论文。科学院成立了一个评委会,评委会的成员中有波动的支持者弗朗索瓦·阿拉戈(1786—1853),有波动说的反对者泊松(1781—1840)、让-巴蒂斯特·毕奥(1774—1862)、皮埃尔-西蒙·拉普拉斯(1749—1827),有一中立者路易斯·盖-吕萨克(1778—1850)。尽管不少成员不相信菲涅耳的观念,但是最终还是被菲涅耳数学上的巨大成功及其与实验上的一...
· 泊松方程
方程的叙述泊松方程为在这里ΔΔ-->{\displaystyle\Delta}代表的是拉普拉斯算子,而f{\displaystylef}和φφ-->{\displaystyle\varphi}可以实数流形上的实数或复数值的方程。当流形属于欧几里得空间,而拉普拉斯算子通常表示为∇∇-->2{\displaystyle{\nabla}^{2}},因此泊松方程通常写成在三维直角坐标系,可以写成如果有f(x,y,z){\displaystylef(x,y,z)}恒等于0,这个方程就会变成一个齐次方程,这个方程称作“拉普拉斯方程”。泊松方程可以用格林函数来求解;如何利用格林函数来解泊松方程可以参考screenedPoissonequation。现在有很多种数值解。像是松弛法(英语:relaxationmethod),不断回圈的代数法,就是一个例子。数学表达通常泊松方程表示为这里ΔΔ...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信