深度剖析基于LAMOST数据与机器学习方法测定大样本恒星年龄

引 言

星系是构成宇宙的基本单元,银河系是我们目前唯一能进行详细解剖的星系。对银河系结构和形成历史的研究是我们理解星系的基础。年龄是研究银河系目前结构和形成历史最重要的基本参数之一。对银河系目前结构和形成历史的描述,需要对分布在整个银河系的大量恒星样本进行准确的质量和年龄估计。

通过恒星的光谱,我们可以得到恒星的视向速度和一些恒星参数。但是恒星的年龄一般难以通过直接测量的方法得到,通常采用观测得到的数据与恒星演化模型进行匹配的方式得到,例如等年龄线方法。等年龄线方法对于星团可以获得较高精度的年龄,但是对于场星通常还需要距离、红化等参数,其获得的年龄精度较低。也有人发现碳和氮的丰度与巨星的年龄之间存在一定的联系,并尝试用其来预测巨星的年龄,但是结果不确定性依然较高。星震学目前是预测恒星质量和年龄的有效方法,对单颗恒星进行预测的精度很高,但需要高精度长时间的测光观测,因此目前样本较少,导致该方法难以广泛适用。还有人发现类太阳恒星的年龄与其表面自转具有相关性,并用星震学数据对其进行了详细研究。

目前虽然对恒星年龄进行预测的方法有很多,但其精度和效率仍有待提高,因此还需要利用大数据获取更多的样本,尝试更多的方法来提高恒星年龄预测的精度和效率,从而更有效地探索银河系的动力学演化。

1 数 据

1.1 交叉匹配

Xiang等提供了LAMOST巡天数据中8,162,566颗带有化学丰度的恒星,其化学丰度由DD-Payne模型导出。在我们的实验中通过这个星表来获取恒星的化学丰度。

Ting 等筛选出了LAMOST巡天数据中的175,202颗红团簇星,并且还附带了 P和 ν这两个星震学参数,其通过恒星光谱获得。我们通过这个星表来获取红团簇星样本,并再通过新方法测定年龄。

Pinsonneault等提供了6,676颗恒星的年龄,其年龄使用质量、半径、[Fe/H]和[α/Fe]这4个参数从模型中导出,我们用这个星表中的年龄作为参考年龄来训练自己的模型。

通过上述的三个星表来进行交叉匹配,在删除掉具有空缺值的样本之后,一共获得了1,806颗具有化学丰度、星震学参数以及年龄信息的红团簇星。

1.2 样本筛选

将交叉匹配得到的这批样本按照顺序进行轮流放回抽样,每次抽出一颗恒星,然后使用随机森林(Random Forest)将化学丰度和星震学参数作为输入参数对未被抽到的所有恒星进行模型训练,接着对被抽中的恒星进行一次年龄预测,如果其预测的绝对误差小于3 Gyr并且相对误差小于40%,则将其挑选出来。在经过上述过程之后一共筛选出了1,384颗红团簇星作为高质量训练样本。

2 方 法

本文所使用的机器学习方法源于Scikit-learn,Scikit-learn也简称sklearn,是机器学习领域当中知名的Python模块之一。它所包含的机器学习方法主要可以分为六大类:分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing)

2.1 训练集和测试集

在正式开始对恒星年龄进行预测之前,首先将筛选出来1,384颗红团簇星分为训练集和测试集,训练集用于训练模型,测试集用于进行对照验证,由此来对我们所构建模型的预测性能进行评估。对于划分的方案我们进行过多种考虑,虽然随机取样不失为一种便捷的好方法,但是鉴于其具有一定的不确定性,为了保证训练集和测试集各个参数的均匀分布,我们最终决定采用以下的方法来对训练集与测试集进行划分:筛选出来的样本中包含恒星年龄和其他19个恒星参数,首先对第一个参数进行从小到大的排序,然后将其按照恒星的数目尽量等分为34个网格,然后取出每个网格中当前所排序的那个参数所对应数值最小的红团簇星,将其加入测试集。接着再对下一个参数进行同样的操作,直到对20个参数都完成了抽样。所有被抽到的红团簇星作为测试集,没有被抽到的作为训练集

这种取样方法可以保证训练集与测试集样本数量尽量均分,更重要的是它保证了训练集和测试集所有参数在数值上分布均匀,这种合理分配数据的方法有利于提高机器学习的精确性,便于我们在科学研究中对模型的训练。

2.2 训练模型

在划分完训练集和测试集后,我们尝试使用核主成分分析(KPCA)结合随机森林的方法来对训练集训练模型,然后使用训练的模型对测试集的恒星年龄进行预测,通过比较预测值与参考值的拟合程度,我们将从众多模型中挑选出一个较好的来作为我们的最终预测模型。

首先将19个恒星参数作为输入参数,为了消除不同恒星参数之间的量纲差异我们对其进行了标准化,然后再将核主成分分析所导出的主成分作为随机森林的输入参数来对恒星年龄进行拟合。在这里主要探究核主成分分析所导出的主成分数与模型的预测精度之间的关系。

从中可以发现一个规律:当主成分数较少时,训练集和测试集的平均相对误差都随着主成分数的增加而降低;在当主成分数达到4之后,其平均相对误差的值基本上均趋于稳定。

3 结 果

首先,针对于测试集的预测值与原有的星震学样本的数值,对最终模型的预测结果进行分析。展示了对恒星年龄的预测值与原来的数值之间的差异,弥散为0.72,其较好的拟合程度对我们所构建模型的正确性提供了支撑;可以看出绝对误差随着年龄的增大而逐渐增大,但绝大部分都处于1 Gyr以下。

其次,我们将Xiang 等的星表与Ting 等的星表进行交叉匹配,获得了163,105颗具有化学丰度和星震学参数但是没有年龄标签的红团簇星,我们把之前经过样本筛选的1,384颗红团簇星用来训练我们的最终预测模型,然后对这163,105颗红团簇星进行了年龄预测,并描绘出了它们在银河系上的分布,可以明显地看出年轻的恒星主要都分布在低银纬地区,这也比较符我们的预期,因为银河因为银河系盘附近是主要的恒星形成区

4 结论

年龄是研究银河系结构与演化历史基本参数。在这篇文章中,我们使用了核主成分分析结合随机森林的机器学习方法对163,105颗红团簇星进行了恒星年龄预测。在训练模型的过程中,我们探究了核主成分分析所导出的主成分数与模型预测精度的关系。我们发现当主成分数到达4之后,模型的预测性能开始趋于稳定;测试集显示年龄预测的弥散为0.72;绝对误差的平均值为0.46 Gyr,中位值为0.25 Gyr;相对误差的平均值为13%,中位值为8%。之后,我们绘制了163,105颗红团簇星在银河系上的分布,发现年轻的恒星主要分布在低银纬地区,这与当前银河系结构图像一致。

这篇文章是我们针对大样本恒星年龄测定,在技术与方法论上的一次探索。将来我们会进一步改进方法如:尝试对与恒星质量和年龄具有高度相关性的恒星参数进行提取,探究多种机器学习方法的预测性能,以及凸包算法的参与,但不会使用核主成分分析,因为经过核主成分分析之后的数据我们无法进行物理解释。在之后的工作中我们还将尝试更多的机器学习方法来对各种类型的恒星进行测试,包括恒星类型的分类,恒星参数的测定以及恒星质量和恒星年龄的预测等,期待我们未来会有更多的工作展示。

参考文献

[1] WANG H F, LIU C, XU Y, et al. Mapping the Milky Way with LAMOST -III. Complicated spatial structure in the outer disc[J]. Monthly Notices of the Royal Astronomical Society, 2018, 478(3):3367-3379.

[2] ZHANG B, LI J, YANG F, et al. Self-consistent stellar radial velocities from LAMOST Medium-resolution Survey DR7[J]. The Astrophysical Journal Supplement Series, 2021, 256(1):14.

[3] ZHANG B, LIU C, DENG L C. Deriving the stellar labels of LAMOST spectra with Stellar LAbel Machine (SLAM)[J]. The Astrophysical Journal Supplement Series, 2020, 246(1):9.

[4] SODERBLOM D R. The ages of stars[J]. Annual Reviews of Astronomy & Astrophysics, 2010, 48(1):581-629.

[5] XIANG M S, LIU X W, SHI J R, et al. Ages and masses of million Galactic disk main sequence turn-off and sub-giant stars from the LAMOST Galactic spectroscopic surveys[J]. The Astrophysical Journal Supplement Series, 2017, 232(1):2.

展开阅读全文

页面更新:2024-05-13

标签:恒星   样本   年龄   银河系   学习方法   误差   深度   成分   模型   机器   参数   测试   方法   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top