基于范畴论的机器学习比较


摘要

近年来,机器学习广泛应用于网络工程的数据分析中。不断增加的模型和数据类型增加了机器学习的复杂性。本文提出了一个基于范畴论的数学结构,作为机器学习的结合,结合了多种数据挖掘理论。我们的目标是从分类理论的角度研究机器学习。范畴论利用数学语言来连接机器学习的各种结构。我们使用范畴论来实现机器学习的表示。在实验部分,详细介绍了切片范畴和函子来建模数据预处理。我们使用函子对基准数据集进行预处理,并评估了九个机器学习模型的准确性。一个重要的贡献是切片范畴的表示。本研究提供了机器学习的结构性视角,以及范畴论和机器学习结合的通用方法。

关键词:网络工程,大数据,机器学习,预处理,范畴论,准确性。

1 引言

机器学习是计算机系统用于执行特定任务的算法和统计模型的科学研究。这些算法和统计模型被用于数据挖掘、图像处理和预测分析等各种目的[1]。一项调查已证明数字领域存在各种算法和模型[2]。各种算法和模型的组成部分需要结合到应用领域中。机器学习算法的组合涉及数据归一化、非平衡数据处理、模型训练和预测等。与各种机器学习算法的结合共同推动了各个领域的发展[3-5]。然而,越来越难以理解组合的各个部分是如何相互作用的。几十年来,提出了机器学习优化的方法[6]。Alves等人[7]解决了机器学习模型的过程公平性,以改善表格和文本数据的分类公平性。Zhu等人[3]提出了一种用于表示复杂特征的混合数据的无监督表示器mix2vec,用于提供表示的可解释性。但是这些研究存在一些局限性:在多种数据和模型的情况下,机器学习模型的可解释性很困难[4]。

为了更好地管理众多的模型和数据,在本研究中引入了范畴论作为20世纪中期引入的数学结构。近年来,范畴论的研究数量逐渐增加。Yi等人[10]将植物形态的计算机视觉建模作为研究对象,结合范畴论这个形式化的数学工具进行建模,探索了一套用于部分植物测量系统的概念建模方法和工具。Lu等人[11]提出了基于范畴论的柱度规范与验证集成的数据建模方法,并通过函子的变换实现了模型的各种操作。机器学习与范畴论的结合不断发展,范畴论为不同理论的组合提供了建模方法。范畴论在机器学习领域的研究逐渐被引入。Culbertson等人[12]通过范畴论方法构建了参数化和非参数化贝叶斯推断模型,为监督学习问题提供了基础。他们还展示了如何使用函子范畴来观察一般的随机过程。

Kamiya等人 [13] 引入了一个范畴框架将贝叶斯推理和学习形式化的框架基于贝叶斯反演和梯度学习函子GL的概念,由Cruttwell等人构建[14]。此外,他们还获得了批量和顺序贝叶斯更新的范畴论形式。从范畴论的角度研究机器学习是一个新的研究领域,虽然历史不长,但前景很有希望[15]。

在本文中,我们应用范畴论构建机器学习的表示。特别是,它解释了切片范畴如何为机器学习提供服务,以及函子如何表示数据集和模型的连接。模型包括九种流行的机器学习分类器,包括独立分类器(如逻辑回归[16]、支持向量机[17]、K近邻[18]和决策树[19])和决策树集成(如随机森林、AdaBoost[20]、Bagging[21]、梯度提升[22](GBDT)和XGBoost[23])。我们的目标是基于范畴论的基础上比较在包含不同过采样方法的基准数据集上训练的机器学习分类器的性能。

本文的其余部分安排如下:第2节概述了范畴论。第3节从范畴论的角度解释了如何定义机器学习建模。第4节详细介绍了应用范畴论的分类模型的性能。第5节讨论了范畴论在机器学习中的作用,并详细阐述了未来工作的方向。

2 范畴论的介绍

为了说明如何用范畴论来表示机器学习,我们在一个抽象级别上给出了范畴论的基本概念。范畴论提供了一个框架,其中一个范畴可以被看作是描述数学结构的有向图,一个函子作为两个范畴之间的关系,自然变换作为两个函子之间的关系。

2.1 范畴

范畴被定义为一组对象、这些对象之间的态射或箭头的类别,以及态射的组合( )和对象的恒等态射(id)[24]。范畴是一组通过使用态射相互关联的对象的集合。图1显示了范畴C的示意图。其中a、b和c表示C中的对象。


箭头g表示了从a到b的对象关系,复合箭头f g:a c 定义为g:a b, f :b c。 为了说明如何通过切片范畴来表示机器学习的组合,这里给出了切片范畴的基本概念。切片范畴是逗号范畴的一个特例。 逗号范畴是从三个范畴和与这些范畴相关的一对函子派生一个新的范畴,如图2所示。 逗号范畴包括函子G: A C,箭头F: A0 C,以及C中的其他箭头h和h 0。为了定义逗号范畴,我们通过查看F(A),G(A)和它们之间的箭头h: F(A) G(A)的方式来连接范畴A和A'。

切片范畴是从原始范畴中获得新范畴的另一种方式,称为基于A 的切片范畴。基于逗号范畴,指定了以下条件:C = A,函子F是恒等函子,范畴A0仅包含一个对象 和一个态射。以A 为基础的切片范畴可以定义为:设C为一个范畴,A为C对象。C箭头h表示A A 。构造态射f满足h = f h'。机器学习的组合可以用切片范畴的术语来解释。例如,训练数据的过程被视为一个C箭头f:A A0。具体过程在第3节中描述。

函子

函子在范畴上进行两种操作,包括对对象和箭头的操作[25]。函子F是一个在这项研究中,函子被用作数据预处理和模型预测。函子之间的映射关系保留了类别之间的结构和态射的复合,包括F(f g) = F(f) F(g)和恒等映射F(id) = idF。

3 表格数据分类的范畴

使用范畴论表示的一般工作流程如图3所示。在本节中,我们利用幺半范畴来定义包括数据归一化、非平衡数据处理、模型训练和预测的机器学习的组合。我们的目标是在机器学习的组合之间创建一个可解释的抽象。

3.1 数据归一化和非平衡数据处理

我们首先定义数据归一化和非平衡数据处理的范畴。给定输入示例X的数据集,我们将z-score归一化定义为函子f,归一化过程可以表示为

f:X X0 ;范畴X0是归一化后的数据。我们可以将这个过程写成


其中x.mean是输入数据的平均值,x.std是训练样本的标准差。

在处理数据集的缺失值和归一化后,数据集被过采样来产生类别不平衡。本研究中使用的数据集的类分布如下:标签“>50K”的概率为23.93%,标签“<=50K”的概率为76.07%,这表明数据的类分布是不平衡的。过采样数据的最简单方法是复制来自较少类的实例;然而,这些实例并没有为数据集添加任何新的信息。相反,一些新的实例是从现有的示例中合成的。通过向少数类添加样本的数据增强称为合成少数类过采样技术(SMOTE)[26]。在使用SMOTE技术时,数据必须是数值类型且没有缺失值。在处理缺失值和数据归一化后,我们使用了三种基于SMOTE的技术进行过采样,包括距离SMOTE[27],随机SMOTE[28]和高斯SMOTE[29]。给定三种基于SMOTE的技术,我们有函子F:


3.2 模型在切片范畴中的表示

在对输入数据进行预处理后,使用切片范畴来表示机器学习的组合。图4显示了从切片范畴和函子中的规范构造模型训练和预测。

假设机器学习及其内部复杂性被视为一个切片范畴。X代表原始输入数据的范畴,即一组示例。F是用于预处理原始数据的函子。预处理后的数据及其内部关系形成了机器学习的模型。



范畴X’ .我们假设H:X0 Y是一个函子,Y是带有分类数据类型的标签类别。基于数据 X0的样本空间和内部关系,形成了训练函子G。建议将G定义为在切片范畴G:X0 Z中的一个函子,其中X0是标准化和过采样后的输入数据,并在Y上构建切片范畴。此外,H0:Z Y满足H=H0 G。在计算时间上,函子H的求解是具有挑战性的,但我们可以通过构建切片范畴来定义适当的Z,并基于训练函子G计算机器学习模型的决策规则H0。与在X上相比,函子G可以更快地在Z上找到理想的决策规则H0。图5显示了范畴Z的快照。事实上,诸如逻辑回归(LR)之类的机器学习模型可以被视为属于范畴Z的对象,其中Z表示一组机器学习模型。

5 结论

本研究使用范畴论这一管理机器学习各个组成部分的数学概念来表示机器学习的组合。我们解释了范畴和函子的概念,以及它们如何用于表示数据预处理和模型。此外,我们确定了切片范畴的概念作为该研究的关键特征;切片范畴从结构性的角度简化了对机器学习的理解和管理。在一系列的实验中,将基于SMOTE的三种过采样方法和九种机器学习模型相结合,比较了分类性能。分析结果揭示了机器学习的组合特性。

本文提出的框架对应于原型。在未来的工作中,框架需要针对“工业”应用进行具体化。此外,还可以引入更多的范畴论方法。此外,为了用范畴论表示深度学习,选择其他概念可以提供一种新的、简单的语言来理解和管理深度学习算法。

展开阅读全文

页面更新:2024-03-04

标签:范畴   机器   组合   箭头   切片   建模   模型   定义   对象   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top