机器学习理论入门-统计学习之逻辑斯蒂回归与最大熵


在讲逻辑斯蒂回归之前先复习下感知机的一些知识:

感知机的公式:f(x) = sign(w·x + b) 输出+1或-1

那么问题来了,1.只输出-1和+1是不是太生硬了?这样的判别方式真的有效吗?

2.超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗?

同时感知机的缺陷不容忽视:感知机通过梯度下降更新参数,但在sign函数中,x=0是间断点,不可微

怎么解决极小距离带来的+1和-1的天壤之别?2.怎么让最终的预测式子连续可微呢?

逻辑斯蒂回归可以解决以上问题


逻辑斯蒂回归


逻辑斯蒂回归的定义

P(Y = 1|x) = 取值范围:(0 1)

P(Y = 0|x) = 取值范围:(0 1)

用图表表示为

若将P(Y=1|x)记作A,P(Y=0|x)记作B,则 A/A+B + B/A+B = 1

逻辑斯蒂回归是连续可微的

参数估计

逻辑斯蒂回归模型学习时,对于给定的训练数据集 T = {(,),(,)...,(,)} , 其中,,{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

设: P(Y = 1 | x) = (x),P(Y = 0|x) = 1 - (x)

似然函数为


对数似然函数为

上图的对数似然函数看似简单的三个步骤,其用到了很多知识,下面进行详细步骤说明,如些图





再次说明下,机器学习有关对数的小知识点:和熵有关的默认,简写成log;和商没有关系的默认,简写成log或ln

似然函数对w的求导


总结

1.逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别。同时概率也可以作为模型输出的置信程度

2.逻辑斯蒂使得最终的模型函数连续可微。训练目标与预测目标达成了一致

3.逻辑斯蒂采用了极大似然估计来估计参数


最大熵

什么是最大熵?

在我们猜测概率时,不确定的部分我们认为是等可能的,就好像骰子一样,我们知道有6个面,因此认为每个面的概率是1/6,也就是等可能

换句话说,趋向于均匀分布,最大熵使用的就是这么一个朴素的道理:

凡是我们知道的,就把它考虑进去,凡是不知道的,通通均匀分布

终极目标是求概率 P(Y | X)

熵:H(P) = -

将终极目标代入熵:H(P) = -

做些改变,调整熵:

H(P) = H(y | x) = -

注:1.H(P) = H(y | x)为条件熵

2. 代表从训练集中统计出来的

下面看下训练集中的统计概率

(X=x) =

特征函数及特征函数f(x,y)关于经验分布(x,y)的期望值

特征函数f(x,y)关于模型P(Y|X)与经验分布(x)的期望值:





最大熵模型

拉格朗日乘子法:


总结

1.最大熵强调不提任何建设,以熵最大为目标

2.将终极目标代入熵的公式后,将其最大化

3.在训练集中寻找现有的约束,计算期望,将其作为约束。使用拉格朗日乘子法得到P(y|x),之后使用优化算法得到P(y|x)中的参数w


参考视频链接:https://www.bilibili.com/video/BV1i4411G7Xv?p=6&vd_source=7621d9b6568d814ad80158fea1c47dcc

#头条创作挑战赛#

展开阅读全文

页面更新:2024-04-29

标签:逻辑   对数   简写   天壤之别   概率   函数   终极目标   入门   模型   机器   距离   参数

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top