摘 要: 本发明公开了一种基于综合数据分析的亚麻籽品种筛选方法,具体涉及农作物品种筛选技术领域;构建包含表型特征数据、籽粒理化指标数据及环境气象数据的多维数据集;对数据集进行多尺度特征重组与变量压缩,生成高维特征向量;基于环境响应与性能波动指标构建自适应加权评分模型,并引入图结构注意机制与鲁棒性调参网络提升评分稳定性;对评分结果实施分位分析与聚类处理,结合异构环境模拟识别适配性优异的候选品种;最终通过多目标决策模型筛选出综合性能最优的目标亚麻籽品种;本发明方法在提升筛选效率、增强模型鲁棒性与适应多生态场景推广方面具有显著优势。
权利要求书
1.一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:包括:
S100、采集多个亚麻籽品种在多个生长环境下的表型特征数据、籽粒理化指标数据与环境气象数据,构建多维数据集D;
S200、基于所述多维数据集D,进行多尺度特征重组与变量增强,构建亚麻籽品种在各环境下的高维特征向量T,所述特征向量通过主成分保留率不低于90%的特征压缩机制生成;
S300、依据各品种特征向量T与对应生长环境特征分布,建立自适应加权评分模型W,其中评分权重系数依据品种在极端环境下的性能波动性与稳定性加权调整,包含表型鲁棒性判别子模块;
S400、利用模型W对各亚麻籽品种进行动态评分,得到品种评分集合S,并对S中的评分数据进行多分位数分布分析,识别在不同目标应用场景下具备最优适配度的候选品种集C;
S500、输出候选品种集C中综合性能最优的亚麻籽品种,作为目标筛选结果。
2.根据权利要求1所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
S100具体包括:所述表型特征数据包括生育周期动态变化曲线、叶面积指数及生物量变化率,所述理化指标数据包括α亚麻酸含量、木酚素积累速率及籽粒水分代谢参数,所述环境气象数据包括温度、日照、降水频率与气候异常因子。
3.根据权利要求1所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
S200具体包括:对多维数据集D中不同类型的数据进行结构标定,依据时间序列一致性与变量相关性划分尺度层级,分别构建表型理化双通道特征路径与气象影响因子耦合通道;
对不同尺度下的变量进行非线性映射与耦合转换,输出候选特征组,并依据变量的重要度评分生成第一轮候选特征矩阵T′;
对特征矩阵T′进行逐维主成分分析处理,提取累计贡献率不低于90%的主成分向量,形成高维压缩特征向量T,并同步保留跨尺度协同变化趋势因子;
将所述高维特征向量T映射至品种特征空间中,作为后续评分模型的输入特征集合。
4.根据权利要求1所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
S300具体包括:根据每一亚麻籽品种对应的高维特征向量T及其所属生长环境的特征分布密度,构建环境特异性响应因子矩阵E,用于表征品种对不同环境变量的适应性曲面;
对T中的各维主成分在典型与极端环境下的稳定性进行区间扰动模拟,计算品种性能波动度指标V,并以此作为评分权重的动态调节因子;
构建带有表型鲁棒性判别子模块的多核融合评分模型W,其中子模块采用双向特征稳定性滤波器,对表型异常点与短周期波动信号进行识别与抑制;
综合E、V及鲁棒性输出参数,通过贝叶斯优化算法对模型W中各评分通道的权重进行迭代更新,形成具备自适应调整能力的加权评分结构,实现对亚麻籽品种在不同气候情境下的精准评价。
5.根据权利要求4所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:评分模型W进一步包括图结构注意增强模块GAMR和鲁棒性双层动态调参网络DRN,其具体包括:
将亚麻籽品种间的特征向量T通过欧氏距离及环境相似度指标构建成加权图结构,节点表示各品种特征,边权反映环境交互程度,引入改进型图注意力机制对不同品种间在异质环境下的权重影响进行特征重分配,生成注意增强特征矩阵A_T;
将A_T输入鲁棒性双层动态调参网络DRN,第一层网络用于提取表型与环境变量间的非线性失配模式,第二层网络以误差传播路径为调节基准,动态调整W中各权重系数,优化评分模型的稳健性;
最终将DRN输出的优化参数集应用于评分模型W。
6.根据权利要求1所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
S400具体包括:利用所述评分模型W对每一亚麻籽品种在不同生长环境下进行动态评分,生成评分时间序列矩阵S;
对评分矩阵S执行多分位数分布拟合分析,构建分位值环境因子响应模型Q,用于识别各品种在设定环境组合下的稳定表现区间;
基于Q模型输出结果,设计品种场景匹配函数F,函数F以评分中位值、上下四分位距与目标应用环境权重因子为参数,计算品种适配度得分;
按照适配度得分排名,从评分矩阵S中筛选出在目标环境及目标需求下综合性能最优的品种集合C,形成高适应性候选品种集。
7.根据权利要求6所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
进一步提升候选品种集C的适应性包括:对评分矩阵S中具有高稳定性评分结构的样本子集实施改进型密度敏感聚类算法DSDBC,所述算法基于评分分位分布密度变化率构建评分结构梯度场,识别具备潜在多目标适应能力的聚类中心品种;
在每一聚类中引入环境异质性变异模拟器,对候选品种的评分轨迹进行目标场景重构,通过扰动推演方式生成候选品种在非采样环境下的拟合评分响应;
基于重构结果计算各候选品种的泛化适应度指标G,并对C中品种进行二次筛选,仅保留在多场景模拟中表现最优的子集,形成最终推广级候选品种集合C'。
8.根据权利要求1所述的一种基于综合数据分析的亚麻籽品种筛选方法,其特征在于:
S500具体包括:基于候选品种集C中各品种的评分分布特征,构建改进型层次多目标决策模型IMHMOD,所述模型融合表型稳定性指标、理化特征指标与环境适应性评分作为决策层输入向量;
对每一品种评分值构建置信区间并引入稳定性权重函数,对评分波动范围进行修正,排除高波动低置信度样本;
利用IMHMOD模型对C中各品种进行逐级加权打分,并对得分前5%的品种执行环境互异性应对能力检验,最终筛选出综合性能最优且跨环境通用性强的目标亚麻籽品种T*;输出所述目标亚麻籽品种T*作为筛选终点。
技术领域
本发明涉及农作物品种筛选技术领域,具体涉及一种基于综合数据分析的亚麻籽品种筛选方法。
背景技术
亚麻作为兼具经济价值与功能营养价值的作物,其籽粒品质在不同品种间存在显著差异,且对生态环境响应敏感。目前亚麻籽品种的筛选主要依赖小区试验和田间观测,通过人工评分或单指标统计分析获取结果,虽然能在一定程度上反映品种特性,但无法准确识别在多变环境或极端气候条件下仍具有稳定产出与优质指标的品种。尤其在目标育种方向日趋多元化的背景下,传统方法已难以满足多性状耦合、多环境协同、多场景应用的亚麻籽品种评价需求。
现有筛选技术通常采用横向指标比较方式,对单个环境下的少量样本进行评估,忽视了品种间在多维特征空间中的耦合关系和响应规律。同时,缺乏对数据中非线性、多尺度、变量间依存关系的深入建模,难以实现对具有潜在优势但表现“非典型”的品种的准确识别。此外,大多数方法未能将分子层面、表型层面与生态数据进行融合建模,不具备跨区适应性预测能力。
因此,亟需一种结合多环境试验数据、表型表现数据与环境变量数据,并引入多层特征融合与加权判别机制,能够对亚麻籽品种进行全局性、客观化、多维动态评价的系统化方法,以实现对优势亚麻籽品种的快速、智能化筛选,从而显著提升筛选效率并拓展其适应推广能力。
发明内容
本发明的目的是提供一种基于综合数据分析的亚麻籽品种筛选方法,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种基于综合数据分析的亚麻籽品种筛选方法,包括:
S100、采集多个亚麻籽品种在多个生长环境下的表型特征数据、籽粒理化指标数据与环境气象数据,构建多维数据集D;
S200、基于所述多维数据集D,进行多尺度特征重组与变量增强,构建亚麻籽品种在各环境下的高维特征向量T,所述特征向量通过主成分保留率不低于90%的特征压缩机制生成;
S300、依据各品种特征向量T与对应生长环境特征分布,建立自适应加权评分模型W,其中评分权重系数依据品种在极端环境下的性能波动性与稳定性加权调整,包含表型鲁棒性判别子模块;
S400、利用模型W对各亚麻籽品种进行动态评分,得到品种评分集合S,并对S中的评分数据进行多分位数分布分析,识别在不同目标应用场景下具备最优适配度的候选品种集C;
S500、输出候选品种集C中综合性能最优的亚麻籽品种,作为目标筛选结果。
优选的,S100具体包括:所述表型特征数据包括生育周期动态变化曲线、叶面积指数及生物量变化率,所述理化指标数据包括α亚麻酸含量、木酚素积累速率及籽粒水分代谢参数,所述环境气象数据包括温度、日照、降水频率与气候异常因子。
优选的,S200具体包括:
对多维数据集D中不同类型的数据进行结构标定,依据时间序列一致性与变量相关性划分尺度层级,分别构建表型理化双通道特征路径与气象影响因子耦合通道;
对不同尺度下的变量进行非线性映射与耦合转换,输出候选特征组,并依据变量的重要度评分生成第一轮候选特征矩阵T′;
对特征矩阵T′进行逐维主成分分析处理,提取累计贡献率不低于90%的主成分向量,形成高维压缩特征向量T,并同步保留跨尺度协同变化趋势因子;
将所述高维特征向量T映射至品种特征空间中,作为后续评分模型的输入特征集合。
优选的,S300具体包括:
根据每一亚麻籽品种对应的高维特征向量T及其所属生长环境的特征分布密度,构建环境特异性响应因子矩阵E,用于表征品种对不同环境变量的适应性曲面;
对T中的各维主成分在典型与极端环境下的稳定性进行区间扰动模拟,计算品种性能波动度指标V,并以此作为评分权重的动态调节因子;
构建带有表型鲁棒性判别子模块的多核融合评分模型W,其中子模块采用双向特征稳定性滤波器,对表型异常点与短周期波动信号进行识别与抑制;
综合E、V及鲁棒性输出参数,通过贝叶斯优化算法对模型W中各评分通道的权重进行迭代更新,形成具备自适应调整能力的加权评分结构,实现对亚麻籽品种在不同气候情境下的精准评价。
优选的,评分模型W进一步包括图结构注意增强模块GAMR和鲁棒性双层动态调参网络DRN,其具体包括:
将亚麻籽品种间的特征向量T通过欧氏距离及环境相似度指标构建成加权图结构,节点表示各品种特征,边权反映环境交互程度,引入改进型图注意力机制对不同品种间在异质环境下的权重影响进行特征重分配,生成注意增强特征矩阵A_T;
将A_T输入鲁棒性双层动态调参网络DRN,第一层网络用于提取表型与环境变量间的非线性失配模式,第二层网络以误差传播路径为调节基准,动态调整W中各权重系数,优化评分模型的稳健性;
最终将DRN输出的优化参数集应用于评分模型W。
优选的,S400具体包括:
利用所述评分模型W对每一亚麻籽品种在不同生长环境下进行动态评分,生成评分时间序列矩阵S;
对评分矩阵S执行多分位数分布拟合分析,构建分位值环境因子响应模型Q,用于识别各品种在设定环境组合下的稳定表现区间;
基于Q模型输出结果,设计品种场景匹配函数F,函数F以评分中位值、上下四分位距与目标应用环境权重因子为参数,计算品种适配度得分;
按照适配度得分排名,从评分矩阵S中筛选出在目标环境及目标需求下综合性能最优的品种集合C,形成高适应性候选品种集。
优选的,进一步提升候选品种集C的适应性包括:
对评分矩阵S中具有高稳定性评分结构的样本子集实施改进型密度敏感聚类算法DSDBC,所述算法基于评分分位分布密度变化率构建评分结构梯度场,识别具备潜在多目标适应能力的聚类中心品种;
在每一聚类中引入环境异质性变异模拟器,对候选品种的评分轨迹进行目标场景重构,通过扰动推演方式生成候选品种在非采样环境下的拟合评分响应;
基于重构结果计算各候选品种的泛化适应度指标G,并对C中品种进行二次筛选,仅保留在多场景模拟中表现最优的子集,形成最终推广级候选品种集合C'。
优选的,S500具体包括:
基于候选品种集C中各品种的评分分布特征,构建改进型层次多目标决策模型IMHMOD,所述模型融合表型稳定性指标、理化特征指标与环境适应性评分作为决策层输入向量;
对每一品种评分值构建置信区间并引入稳定性权重函数,对评分波动范围进行修正,排除高波动低置信度样本;
利用IMHMOD模型对C中各品种进行逐级加权打分,并对得分前5%的品种执行环境互异性应对能力检验,最终筛选出综合性能最优且跨环境通用性强的目标亚麻籽品种T*;
输出所述目标亚麻籽品种T*作为筛选终点。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明提供的技术方案中,通过引入多源数据融合与多尺度特征提取机制,显著提升了亚麻籽品种在不同生长环境下的性状表现与适应性分析的准确性。相比传统依赖单一指标或单点试验的品种筛选方法,本发明实现了表型信息、理化指标及气象变量的高维融合,并结合改进的主成分压缩与图注意机制评分模型,具备更强的环境鲁棒性与性能识别能力。
2、本发明构建的分位响应模型、异构环境变异模拟器及改进型多目标决策机制,解决了现有方法中对跨环境适应性识别不足的问题。通过模拟环境下的评分预测与置信区间动态调整,实现了目标品种筛选结果的稳定性与可推广性,大幅提升了育种选拔效率和推广成功率,具有明显的实际应用价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的方法思维导图。
图1
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,请参阅图1所示,本实施例所述一种基于综合数据分析的亚麻籽品种筛选方法,包括:
S100、采集多个亚麻籽品种在多个生长环境下的表型特征数据、籽粒理化指标数据与环境气象数据,构建多维数据集D;
S200、基于所述多维数据集D,进行多尺度特征重组与变量增强,构建亚麻籽品种在各环境下的高维特征向量T,所述特征向量通过主成分保留率不低于90%的特征压缩机制生成;
S300、依据各品种特征向量T与对应生长环境特征分布,建立自适应加权评分模型W,其中评分权重系数依据品种在极端环境下的性能波动性与稳定性加权调整,包含表型鲁棒性判别子模块;
S400、利用模型W对各亚麻籽品种进行动态评分,得到品种评分集合S,并对S中的评分数据进行多分位数分布分析,识别在不同目标应用场景下具备最优适配度的候选品种集C;
S500、输出候选品种集C中综合性能最优的亚麻籽品种,作为目标筛选结果。
在本发明实施例中,基于综合数据分析的亚麻籽品种筛选方法的关键在于建立高质量、时空统一、结构标准化的多维数据集D。该数据集由三个维度的数据源组成:表型特征数据、籽粒理化指标数据和环境气象数据。为确保该数据集具备高精度、高维度与强适应性的综合特征提取能力,步骤S100具体包括:
本发明优先通过布设于多地的多环境联合试验平台采集亚麻籽品种在典型与边缘生态区的多时空生长表现。利用具备自动图像识别与多光谱处理能力的表型监测装置(如高通量田间表型采集平台、无人机携带可见光与红外成像设备),在生长季内按照设定频率(如每日1次或每阶段关键生育节点)对每一测试品种进行连续图像采集。系统自动提取高频图像中的表型特征变化轨迹,包括但不限于:
生育周期动态变化曲线:基于图像序列中主茎发育特征提取生长节点时间点,计算生育阶段长度;
叶面积指数(LeafAreaIndex,LAI):通过图像分割算法和近红外通道植被指数反推叶面积;
生物量变化率:利用时间序列图像中植株高度与冠幅变化趋势,结合标准干物质转换系数构建估算模型,动态输出生物量估算值。
以上表型数据经多维特征编码后,构成表型特征子数据集,为后续多尺度特征融合提供高分辨率结构支持。
为反映亚麻籽品种在营养功能性方面的差异性,本发明采用多通道近红外光谱成分解析技术(Multichannel NearInfrared Spectral Decomposition, MCNIR)对田间采收籽粒样本进行快速、非破坏性检测。该方法通过多通道波长设置分别获取亚麻籽在不同成分响应峰区的光谱信息,结合建立的反演校准模型,精准计算如下关键指标:
α亚麻酸含量:位于脂类吸收区的特征谱带强度与含量高度相关;
木酚素积累速率:通过多期采样与成分时间序列变化速率计算获得;
籽粒水分代谢参数:采用水分迁移模型估算籽粒脱水速率、终点水分稳定性等。
通过上述理化分析,形成标准化理化指标数据子集,具备高重复性与可比性,并能支撑对籽粒品质的纵向追踪与横向比较。
为全面评估各品种对生态环境的适应性与抗逆性表现,本发明进一步融合标准气象数据接口与遥感卫星数据模块,调取与试验地点及时间严格对应的环境气象数据。具体包括:
逐时温度变化序列:采集各试验点逐小时温度数据,分析温度峰谷变幅与持续热/冷时长;
有效光照时长:利用遥感图像中光照强度反演每日有效光照总量;
降水频率统计:统计生长季内单位时间降雨天数与强度分布,评估水分胁迫;
气候异常指数:基于多年气象平均值,计算目标试验年度偏离程度,标注环境压力因子水平。
以上数据采用统一格式编码,并与表型采集时点严格对齐,确保数据时间同步与环境响应闭环建模的可行性。
为实现数据一致性与完整性处理,本发明引入以下数据处理机制:
时间对齐处理:统一各类数据的采样频率与时间戳,补全非同时采样数据,构建完整时间序列;
空间同步校准:将遥感数据按经纬度精准配准至试验地块中心坐标,确保数据反映实际地块情况;
缺失补插与异常剔除:采用基于多变量协同预测的时序插值方法填补缺失数据,并对异常值进行Mahalanobis距离检测剔除;
统一编码结构生成多维数据集D:将经上述处理后的三类子数据集统一标准化、结构编码,并合并构建成用于后续建模分析的多维数据集D。
数据集D包含每个品种在多个环境中、多个时间点的完整表现特征,并形成结构化、多尺度、高语义层次的数据结构,为后续的特征重组、评分建模与目标品种筛选奠定坚实的数据基础。
在本发明中,为实现对亚麻籽品种在不同生长环境、多个特征维度下的全面评价,需要对构建完成的多维数据集D进行深入的数据结构重构、特征提取与变量压缩处理。步骤S200的核心在于构建一套融合时间序列一致性、变量耦合性与尺度分层结构的高维特征生成机制,输出能够准确表征品种特性的高维特征向量T,作为后续评分模型W的关键输入。
首先,对数据集D中包含的三类数据(即表型特征数据、理化指标数据和环境气象数据)进行结构标定与逻辑层级划分。为克服不同数据来源在时间频率、数据尺度和变量维度方面存在的不一致性,本发明采用如下标定逻辑:
时间序列一致性检查:对各变量的采样频率与时间分布进行自动对齐,确保后续分析基于统一的时间基准;
变量相关性分析:采用Spearman秩相关与互信息矩阵,对变量之间的关联强度进行建模,从而识别存在耦合关系的变量群组;
尺度层级划分:将表型特征与理化指标因其共同描述个体性状与籽粒内在品质,归为“表型理化双通道路径”;而环境气象数据则形成独立的“气象影响因子耦合通道”。
该结构标定机制打破了常规线性融合方式,通过通道分离建模方式,有效提升模型对变量间潜在交互关系的辨识能力。
为进一步提取深层次变量间的协同变异特征,本发明采用非线性映射算法对分通道变量进行转换。具体技术手段包括:
对各通道分别实施核主成分映射(Kernel PCA)与独立成分分析(ICA),以提取非线性主特征与源信号特征;
引入多通道交叉特征耦合层(Crosschannel Coupling Layer),将双通道(表型与理化)中的重要特征进行双向交叉组合,与气象因子通道共同作用,构建耦合特征空间;
依据变量重要度评分机制(如Gini系数排序或信息增益指标),筛选对品种特征差异贡献显著的变量,形成第一轮候选特征矩阵T′。
T′不仅包含原始变量的压缩表示,还融合了交叉通道之间的交互因子,具有更强的判别力。
在获得T′后,为控制后续模型的复杂性并提高计算效率,本发明采用逐维主成分分析(PCA)方式对T′进行高效压缩:
通过计算每一主成分的累计贡献率,动态选择主成分数量,确保累计解释方差不低于90%;
为保持变量间尺度协同特性,同时提取跨尺度变化趋势因子(如线性拟合斜率、周期性波动幅度等),并将其附加嵌入至主成分空间;
将最终输出的主成分向量与协同变化因子拼接,构建形成压缩后高维特征向量T。
T不仅代表了各品种在多变量维度下的聚合表现,同时保留了原始变量间的协同与扰动响应特征,为评分模型的鲁棒性与泛化能力提供了支撑。
最后,将构建完成的高维特征向量T映射至品种特征空间中,形成标准化、结构统一的输入数据集。该数据集具备以下特征:
每一行代表一个品种在特定环境下的特征表现;
每一列为经过压缩与融合处理后的高判别性特征维度;
数据矩阵结构具备良好的数值稳定性与可训练性,适合于后续多模型评估与评分处理。
该标准输入结构的建立,显著提升了评分模型W在训练时的收敛速度与评价时的准确度,并能有效识别在高复杂度环境下仍具备潜在优势的亚麻籽品种。
为实现对亚麻籽品种在多变气候环境下的全面适应性评价,本发明提出一种融合高维特征建模与鲁棒评分机制的多核加权评分模型W。模型W旨在充分挖掘各品种在不同生长环境中表现出的多维表型、理化反应及其稳定性差异,以实现对目标品种综合表现的精确评估。
本发明首先根据每一亚麻籽品种的高维特征向量T及其对应的生长环境变量,构建环境特异性响应因子矩阵E。技术路径包括:
计算每一特征向量T在多个生长环境下的响应梯度;
对环境因子(如温度、光照、降水)按空间分布密度建模,形成环境特征空间;
使用核密度估计方法(Kernel Density Estimation, KDE)量化每一品种对不同环境变量的响应强度,输出连续响应曲面;
矩阵E可视为“品种环境”二元交互空间中的适应性曲面模型,用于支持后续评分权重的调整机制。
为捕捉品种在典型与极端气候条件下的稳定性表现,本发明设计区间扰动模拟机制,具体流程为:
在原始环境数据基础上,引入边界条件扰动,构造极端情境(如高温胁迫、干旱延迟);
对T中的各维主成分在该情境下重新评估其变异性,计算均值偏离与方差扩散比;
以变异幅度和响应一致性综合构建品种性能波动度指标V;
V作为品种稳定性的重要反映,用于动态调节模型W中对应特征通道的权重,以提高模型对不稳定品种的识别灵敏度。
在前述数据基础上,构建包含表型鲁棒性判别子模块的多核融合评分模型W,其结构如下:
模型W由多个核函数并行组成,分别负责不同维度(表型、理化、环境适应性)特征的评分;
表型鲁棒性子模块内嵌“双向特征稳定性滤波器”,该模块基于滑动窗口机制检测评分序列中的异常突变点,并通过自适应滤波算法抑制短周期波动噪声;
每一核函数的输出经归一化处理后送入融合层,构成初步评分矩阵S0;
该模型结构强化了对评分中噪声、漂移和不稳定点的敏感性控制,提升评分精度。
为进一步提升评分模型在跨环境应用中的泛化能力,本发明引入贝叶斯优化算法 (Bayesian Optimization)对模型W中的各通道权重进行迭代学习,技术细节包括:
将评分误差作为目标函数,以稳定性、准确性为约束条件;
利用高斯过程模型预测不同权重组合的性能表现;
在每轮评分后自动调整核函数组合的权重,实现动态自适应;
该机制可快速逼近最优权重解,确保评分模型在新环境下具备高迁移性能。
进一步提升模型的结构辨识能力,本发明引入图结构注意增强模块GAMR,将品种特征向量T间的结构关系显性建模:
以欧氏距离与环境相似度双指标构建品种间加权图结构,节点表示品种特征,边权表示环境交互程度;
引入改进型图注意力机制,对节点间信息传递进行动态加权,识别出在异质环境中表现稳定或突出的关键品种;
输出重分配后的注意增强特征矩阵A_T,作为模型W的新输入基础;
该模块有效提升模型对潜在关键特征的捕捉能力,防止评分受稀疏样本干扰。
最后,构建鲁棒性双层动态调参网络DRN,以进一步优化评分模型参数:
第一层网络聚焦于表型与环境变量间的非线性失配模式识别,采用卷积归一反馈结构提取冲突信号;
第二层网络以误差传播路径为引导,实时调整W中各核函数的通道参数,增强模型对评分偏离的纠正能力;
DRN输出的最终调参参数集将同步应用于W,完成评分模型的整体鲁棒性迭代优化;
该双层结构显著提升评分模型在噪声干扰、高环境复杂性下的稳定性与准确性。
综上,步骤S300通过构建高阶图结构建模、动态鲁棒调参与非线性稳定性建模三重机制,不仅突破了传统评分算法对数据波动与多源耦合的敏感性,而且形成了一套具备高迁移能力、自适应调整能力和结构识别能力的创新性评分框架,为最终目标品种的精准判定奠定了技术基础。
为实现对亚麻籽品种综合适应性与多目标性能的准确评估,本发明在构建完加权评分模型W的基础上,进一步提出了一套评分时间序列分析、分位模型响应建模与多目标适配性筛选机制,旨在从全局评分分布中识别出在特定应用环境中具备最优表现的候选品种集合C。为提高结果稳定性与实际可推广性,步骤S400还引入了密度敏感聚类与异构环境变异模拟模块,用以精细化筛选出最终推广级候选品种集合C'。
在评分模型W构建完成后,系统调用模型W对每一亚麻籽品种在所有设定生长环境(包含典型与边缘环境)下的综合特征向量T进行评分,生成评分时间序列矩阵S,其中:
行表示各亚麻籽品种;
列表示环境条件;
单元格为模型W输出的评分结果,数值越高表示综合表现越优;
该评分矩阵不仅反映出品种的整体表现,还揭示了品种在多环境情景中的评分波动结构。
为识别在不同环境组合中保持稳定输出的品种,本发明对评分矩阵S中的每一行向量进行分位数分布拟合分析:
对每个品种评分序列构建评分分布密度函数;
提取关键统计分位值:如25%分位值(Q1)、中位数(Q2)与75%分位值(Q3);
将分位结构与其对应环境变量建立响应关系,构建分位值环境因子响应模型Q;
模型Q用于识别品种在特定生态场景下是否具备稳定输出区间,是判断品种稳定性与抗扰动能力的基础工具。
为实现候选品种的场景匹配度评估,本发明设计匹配函数F,输入参数包括:
分位结构三要素(Q1、Q2、Q3);
环境权重因子矩阵(根据目标应用区域的重要环境变量设定);
函数F通过加权公式计算每一品种在目标场景下的适配度得分A_score。得分越高者,说明其稳定性与中位表现越贴合目标需求。
系统根据A_score对所有品种进行降序排列,取前N%作为高适应性候选品种集C。该集合具备对特定应用场景高契合度、评分结构稳定、潜在可推广性强等特性,为下一步深度筛选奠定基础。
为了进一步提升候选品种集C的广域推广能力,本发明引入改进型密度敏感聚类算法(DensitySensitive DistributionBased Clustering, DSDBC),主要步骤如下:
对C中评分序列结构稳定性高的子集进行分布密度分析;
构建评分分位密度梯度场,依据局部密度变化率识别潜在聚类中心;
在品种评分结构图上形成若干聚类,每一聚类中心代表一种典型的多目标适应能力模型;
通过此聚类方法,可识别出评分模式具有共性的品种群体,提升结构代表性与筛选广度。
针对每个聚类,本发明进一步引入环境异质性变异模拟器,模拟候选品种在未观测(或新设)环境条件下的潜在表现:
利用原始环境变量扰动模块,构建多个拟合环境场景;
对每个品种原始评分轨迹进行扰动推演,生成其在变异环境下的拟合评分响应;
计算拟合评分稳定性指数与变异响应幅度,形成泛化适应度指标G;
仅保留那些在多数模拟环境中仍保持高适配性的品种,构成最终推广级候选品种集合C'。
该机制有效规避了模型对“环境过拟合”现象的依赖,提高了目标品种在实际推广中跨生态区域的适应能力与稳定性。
在本发明的筛选流程中,步骤S500为整个亚麻籽品种筛选流程的终极决策环节,其目标是从已筛选出的候选品种集C中,进一步优选出在表型稳定性、理化特征与环境适应性三方面均表现卓越,且具备跨生态区推广潜力的目标亚麻籽品种T*。为此,本步骤引入改进型层次多目标决策模型(Improved Hierarchical MultiObjective Decision Model,简称IMHMOD)与评分置信区间调整机制,实现高精度与高鲁棒性的目标品种识别。
在候选品种集C中,每个品种已具备完整的评分记录与多维特征描述。为系统性地融合不同特征维度信息,本发明设计IMHMOD模型,具体包括:
模型结构:采用三层层次决策结构:底层为指标分组(表型稳定性、理化品质、环境适应性);中层为子权重归一化加权计算;顶层为总评分融合;
输入特征向量构建:每一品种作为一个样本,输入其三大指标群组构成的特征子向量,其中:
表型稳定性指标包括变异系数(CV)、连续性评分斜率、短周期波动频度;
理化特征指标包括α亚麻酸含量、木酚素积累速率、籽粒干物质浓度;
环境适应性评分为评分模型W输出在各环境条件下的加权得分序列的均值与分布特征;
模型特点:IMHMOD在传统AHP(层次分析)模型基础上引入自学习权重修正模块,并允许决策函数非线性映射,使其可根据数据特征自动调整维度重要度;
IMHMOD模型可高效聚合复杂多维属性,生成全面反映品种综合表现的目标评分。
为避免评分受极端值或数据噪声干扰,本发明在IMHMOD评估前对每个品种的评分值执行置信区间构建与稳定性调整,流程如下:
对每个品种的多环境评分数据构建95%置信区间[L,U],计算区间长度Δ;
引入稳定性权重函数W_s=1/Δ,Δ越小则稳定性越高,权重越大;将W_s作为乘因子作用于IMHMOD模型的最终评分结果,对评分波动范围大的样本进行惩罚;
该机制保障最终评分的稳定性,并在数据波动严重时防止模型误判。
在IMHMOD模型输出评分并经置信区间调整后,本发明对候选品种集C执行逐级打分和优先排序,并执行如下筛选步骤:
根据加权评分从高到低对C中品种排序,选取得分排名前5%的样本进入最终检验;
对这部分高分品种执行“环境互异性应对能力检验”,方法包括:
对评分分布在典型环境与边缘环境下进行对比分析;
若其在极端环境下评分显著下降(大于设定阈值),则排除该样本;
若其评分曲线在多环境中均表现稳定,则视为具备跨环境通用能力;
最终保留通过上述验证的品种,选出综合性能最优的目标亚麻籽品种T*,即为筛选流程终点结果。
该决策机制避免了对“平均高但极端不稳”品种的误选,确保目标品种T*在不同气候与栽培区域下均具有高可预期性与稳定表现。
最后,系统将T*输出至数据库与应用接口,供后续的育种推荐、区域布局种植模型或数字农业平台调用。T*的全指标记录、评分轨迹、特征结构将保存在数据库中,以支持后期追踪与反馈优化。
实施例2:为了验证本发明所述筛选方法(包括步骤S100–S500)在实际筛选高产、高质量且适应多环境的亚麻籽品种能力,对15个候选亚麻籽品种(标记为P1–P15)在三个环境区域(E1:温带湿润区,E2:亚热带干旱区,E3:高海拔低温区)进行实地试验,采用完整流程筛选目标品种。
实验材料与试验设计:
候选品种:P1–P15,来自不同育种机构,育性和遗传背景多样。
试验区域:
E1:年均温15℃,降雨800mm;
E2:年均温25℃,降雨400mm;
E3:年均温10℃,降雨600mm。
采样频率:每日1次图像采集,籽粒采样每品种每环境采3次,气象数据逐小时记录。
实验过程:
采用本发明技术完成图像监测、近红外分析与气象融合数据采集,共构建出15×3×120(天)×(12+8+4)=15×3×120×24维度的多维数据集D,通过S200流程提取出每个品种50维压缩特征向量。
构建评分模型W。通过5折交叉验证调整模型权重,最终生成每个品种在不同环境下的50个评分值。
各品种在三个环境下评分P1–P15:
利用Q模型识别评分稳定区间。计算中位值及IQR,对应适配度评分F,取前40%高适配品种形成集合C(选出P1、P4、P7、P9、P12共5个品种)。
在C中应用DSDBC聚类分析,结果聚为两类:
聚类A(P1、P4、P7):群间内评分密度梯度一致,拟合泛化良好;
聚类B(P9、P12):评分波动集中但响应单环境优异。
使用环境扰动模拟后计算泛化适应度G,聚类A中P1和P7在10个模拟环境下均获得G≥0.8,符合选拔条件。形成最终集合C'={P1,P7}。
将C'中两品种输入IMHMOD进一步优选:
表型稳定性指标(CV):P1:0.12;P7:0.08;
理化指标(α亚麻酸含量%):P1:35;P7:33;
环境适应性均值评分:P1:80;P7:81;
模型计算得到置信区间(P1:[78–82];P7:[79–83]),稳定性权重W_s分别为1/4=0.25和1/4=0.25。综合评分结果为:
P1:综合得分0.81;
P7:综合得分0.84;
进一步环境应对检验中,P7在边缘环境低温条件下依然保持中位评分≥77,符合要求,因此最终筛选出目标品种T*=P7。
有益效果与分析:多维数据融合与评价模型显著提高判别能力:15个品种中,仅P7达到所有环境下稳定评分≥79;传统单环境甄别法难以同时满足此级别适应性。多阶筛选机制提高普适性:从15→5→2→1的筛选路径,逐步排除环境适应性差或稳定性低的品种,过程可追溯、透明度高。评分方法鲁棒且可推广:模型对极端环境评分漂移。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
文章摘自国家发明专利,一种基于综合数据分析的亚麻籽品种筛选方法,发明人:牛艳,石欣,张锋锋,王彩艳,李彩虹,杨静,吴燕,王莹,张萍,陈虹,申请号:202510933371.3,申请日:2025.07.08。


