YNAO OpenIR  > 抚仙湖太阳观测和研究基地
一种基于主成分分析的太阳活动时序数据压缩方法
向南彬; 王志勇; 许婷婷; 邓林华; 万苗
申请(专利权)人中国科学院云南天文台
专利号ZL202410971691.3
申请号CN202410971691.3
2024-12-20
申请日期2024-07-19
公开(公告)号CN119167075A
公开日期2024-12-20
IPC 分类号G06F18/2135 ; G06F18/213 ; G06F18/15 ; G06F18/2411 ; G06F18/243
授权国家中国
专利类型发明
专利状态公开
学科领域天文学 ; 太阳与太阳系
产权排序1
摘要本发明公开了一种基于主成分分析的太阳活动时序数据压缩方法,包括以下步骤:S1、数据预处理:对太阳活动时序数据进行预处理;S2、构建数据矩阵:将处理后的时序数据构建成一个数据矩阵,每一行代表一个时间点,每一列代表一个特征或变量;S3、计算协方差矩阵:对数据矩阵进行协方差矩阵的计算,该矩阵描述数据中各个变量之间的相关性;S4、计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量,特征向量代表数据中的主要变化方向,本发明通过PCA可以将原始数据投影到一个低维的子空间中,通过保留主成分,从而实现数据的降维,有助于减少数据中的冗余信息,提高数据的紧凑性和有效性。
主权项1.一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:包括以下步骤:S1、数据预处理:对太阳活动时序数据进行预处理;S2、构建数据矩阵:将处理后的时序数据构建成一个数据矩阵,每一行代表一个时间点,每一列代表一个特征或变量;S3、计算协方差矩阵:对数据矩阵进行协方差矩阵的计算,该矩阵描述数据中各个变量之间的相关性;S4、计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量,特征向量代表数据中的主要变化方向,特征值表示各个主成分的重要性或方差;S5、选择主成分:根据特征值的大小,选择前几个特征值对应的特征向量作为主成分,选择能够解释大部分数据方差的主成分;S6、投影和重构:使用所选的主成分对原始数据进行投影,将数据映射到主成分空间中,然后,选择性地保留投影后的数据,使数据被压缩;S7、评估压缩效果:比较压缩后的数据与原始数据之间的差异来评估压缩效果;S8、应用压缩后的数据:利用压缩后的数据进行后续分析。2.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:所述步骤S1中数据预处理包括数据清洗、去除异常值及数据归一化处理,使获得的数据更加的准确和可靠;数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等;去除数据异常值是采用拉依达准则或格拉布斯准则剔除数据中的异常值;①拉依达准则当重复测试次数远大于10次时,用贝赛尔公式计算实验标准偏差s,某个可疑值xa与n个结果的平均值x-之差(xa-x-)的绝对值大于等于3s时,判定xa为异常值;当xa剔除后,以上述方法继续计算、判断,直到/xa-x/<3s为止。②格拉布斯准则一组重复测试的n个数据中,残差v的绝对值最大值为可疑值xb,在给定置信区间p=0.99或p=0.95,也就是显著水平α=1-p=0.01或0.05时,满足下式,则可以判定xb为异常值:(s为实验标准偏差,G(α,n)查格拉布斯准则的临界值表,n≤30)当xb剔除后,以上述方法继续计算、判断。直到为止;数据归一化就是把所有数据都转化成[0,1]或者[-1,1之间的数,其目的是为了取消各维数据之间的数星级差别,避免因为输入输出数据数量级差别大而造成网络预测误差过大,采用线性归一化对原始数据进行线性变换,将数据值映射到将数据值快射到(0,1]之间,公式表示为:差标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围的最简单的方法。3.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:所述步骤S2中,构建数据矩阵中,假设进行主成分分析的指标变量有m个:x1,x2,...xm,共有n个评价对象,第i个评价对象的第j个指标的取值为xij转换成标准化指标(i=1,2,...,n;j=1,2,...,m)为标准化指标变量。4.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于,所述步骤S3中计算相关系数矩阵中R=(rij)m×m(i,j=1,2,...,m),其中,rii=1,rij=rji,rij是第i个指标与第j个指标的相关系数。5.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:所述步骤S4中计算特征值和特征向量,特征值由大到小排序,计算相关系数矩阵R的特征值λ1≥λ2≥...≥λm≥0,及对应的特征向量u1,u2,...,um,其中,uj=(u1j,u2j,...,unj)T,由特征向量组成m个新的指标变量:式中y1是第1主成分,y2是第2主成分,...,ym是第m主成分。6.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:所述步骤S5选择主成分时,选择p(p≤m)个主成分,计算综合评价值:①计算特征值λj(j=1,2,...,m)的信息贡献率和累计贡献率,称(j=1,2,...,m)为主成分yj的信息贡献率;为主成分y1,y2,...,yp的累积贡献率,当αp接近于1(αp=0.85,0.90,0.95)时,则选择前p个指标变量y1,y2,...,yp作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析;②计算综合得分其中bj为第j个主成分的信息贡献率,根据综合得分值即可进行评价。7.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于:所述步骤S7中使用重构误差或信息保留率指标进行评估压缩效果;重构误差(Reconstruction Error):重构误差是指在将数据从主成分空间重新映射回原始空间时所引入的误差;信息保留率(Variance Retained):信息保留率是指通过保留部分主成分所能保留的原始数据中的方差比例。8.根据权利要求1所述的一种基于主成分分析的太阳活动时序数据压缩方法,其特征在于,所述步骤S8中利用压缩后的数据进行模式识别、异常检测和预测。
语种中文
专利代理人陈贞贞
代理机构北京箐昱专利代理事务所(普通合伙)
文献类型专利
条目标识符http://ir.ynao.ac.cn/handle/114a53/27908
专题抚仙湖太阳观测和研究基地
作者单位中国科学院云南天文台, 650000云南省昆明市官渡区羊方旺396号
第一作者单位中国科学院云南天文台
推荐引用方式
GB/T 7714
向南彬,王志勇,许婷婷,等. 一种基于主成分分析的太阳活动时序数据压缩方法. ZL202410971691.3[P]. 2024-12-20.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CN119167075A-一种基于主成分(2030KB)专利 开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[向南彬]的文章
[王志勇]的文章
[许婷婷]的文章
百度学术
百度学术中相似的文章
[向南彬]的文章
[王志勇]的文章
[许婷婷]的文章
必应学术
必应学术中相似的文章
[向南彬]的文章
[王志勇]的文章
[许婷婷]的文章
相关权益政策
暂无数据
收藏/分享
文件名: CN119167075A-一种基于主成分分析的太阳活动时序数据压缩方法-公开.PDF
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。