作者:窦新存等   来源:   发布时间:2025-06-12   Tag:   点击:
一种合成大麻素分类方法

  本发明涉及一种合成大麻素分类方法,该方法是获取多种合成大麻素的光谱数据,建立光谱数据集;通过注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型的结构参数和/或超参数,获得合成大麻素分类模型;根据待分析合成大麻素的光谱数据,利用合成大麻素分类模型对待分析合成大麻素进行分类步骤完成。本发明利用合成大麻素的拉曼光谱具有多个特征峰的特点,引入注意力模型以有效识别提取光谱之间的细微差异,利用多种合成大麻素的光谱数据进行训练获得分类模型,从而实现合成大麻素的准确分类。

 

权利要求书

1.一种合成大麻素分类方法,其特征在于,按下列步骤进行:

a、获取多种合成大麻素的光谱数据,建立光谱数据集,在建立光谱数据集之前,对光谱数据进行归一化和去噪预处理,所述光谱数据为拉曼光谱数据;

b、通过步骤a中的注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型为SE_ResNet34的结构参数和/或超参数,获得合成大麻素分类模型;

c、根据待分析合成大麻素的光谱数据,利用步骤b得到的合成大麻素分类模型对待分析合成大麻素进行分类。

2.根据权利要求1所述的合成大麻素分类方法,其特征在于,所述步骤a中合成大麻素的拉曼光谱具有多个特征峰。

3.根据权利要求1所述的分类方法,其特征在于,步骤b中所述结构参数包括卷积核大小、网络层数或神经元数量;所述超参数包括学习率、迭代次数、批大小、优化器、动量。

4.根据权利要求1所述的分类方法,其特征在于,通过随机搜索算法确定步骤b中注意力模型的最优结构参数和/或最优超参数。

5.根据权利要求1所述的分类方法,其特征在于,通过归因算法确定步骤b中所述注意力模型进行训练时偏重的光谱波段,所述偏重的光谱波段为注意力模型进行训练时对应权重值大于预定值的光谱波段。

6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现根据权利要求15中任一项所述的方法的步骤。

 

技术领域

本发明属于化学物质识别技术领域,具体地,涉及一种合成大麻素分类方法。

 

背景技术

合成大麻素作为一种典型的新精神活性物质,具有种类繁多、变体间结构差异小、更新迭代快等特点,且比传统毒品具有更强的兴奋及致幻效果。尤其是针对酰胺键为连接基的合成大麻素占比较高,实现结构高度相似的合成大麻素的精准区分识别能够有效遏制其滥用态势的高发。

拉曼技术作为经典的谱学表征手段,可提供指纹信息且具有无损检测、不受水干扰等优势。拉曼技术可将官能团相互作用直接反映出来,但是其缺点在于谱图复杂,无法通过肉眼观察解析且难以将局部基团变化与谱图变化直接关联起来。除此之外,由于拉曼散射效率低,目标物中细微的光谱差异很容易被背景噪声掩盖,难以获得满意的识别结果。因此,谱学解析是限制拉曼技术应用推广的主要问题之一。

近年来,以卷积神经网络(CNN)为代表的深度学习算法受到广泛的关注,它具有泛化能力强、并行计算效率高且能从大量数据中自动提取有用特征等特点。在专利CN109543763A(一种基于卷积神经网络的拉曼光谱分析方法)提出,将CNN引入分析拉曼光谱数据是近年研究的热点,目前已取得一定成效,但仍存在一定的问题。

一是针对结构极其相似的合成大麻素的分类问题,提高模型获取具有差异性特征的能力是保证模型检测性能和鲁棒性能优异的关键。参考专利CN117911390A(一种基于ResNet34模型的带钢表面缺陷分类方法),然而,特征提取能力不足将会导致分类效果欠佳。

二是针对模型训练过程中的可解释性问题,由于深度学习算法无法给出其在训练过程中更为直观的理解,因此使得无法理解模型内部是如何处理数据的输入以及获取输出结果的。

 

发明内容

本发明的目的是提供一种合成大麻素分类方法,以解决现有技术中没有一种针对合成大麻素区分识别的深度学习模型问题。该方法包括:获取多种合成大麻素的光谱数据,建立光谱数据集;通过注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型的结构参数和/或超参数,获得合成大麻素分类模型;根据待分析合成大麻素的光谱数据,利用合成大麻素分类模型对待分析合成大麻素进行分类。本发明利用合成大麻素的拉曼光谱具有多个特征峰的特点,引入注意力模型以有效识别提取光谱之间的细微差异,利用多种合成大麻素的光谱数据进行训练获得分类模型,从而实现合成大麻素的准确分类。

本发明所述的一种合成大麻素分类方法,按下列步骤进行:

a、获取多种合成大麻素的光谱数据,建立光谱数据集,在建立光谱数据集之前,对光谱数据进行归一化和去噪预处理,所述光谱数据为拉曼光谱数据;

b、通过步骤a中的注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型为SE_ResNet34的结构参数和/或超参数,获得合成大麻素分类模型;

c、根据待分析合成大麻素的光谱数据,利用步骤b得到的合成大麻素分类模型对待分析合成大麻素进行分类。

所述步骤a中合成大麻素的拉曼光谱具有多个特征峰。

步骤b中所述结构参数包括卷积核大小、网络层数或神经元数量;所述超参数包括学习率、迭代次数、批大小、优化器、动量。

通过随机搜索算法确定步骤b中注意力模型的最优结构参数和/或最优超参数。

通过归因算法确定步骤b中所述注意力模型进行训练时偏重的光谱波段,所述偏重的光谱波段为注意力模型进行训练时对应权重值大于预定值的光谱波段。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现根据权利要求15中任一项所述的方法的步骤。

本发明所述的一种合成大麻素分类方法,该方法所述多种合成大麻素包括:

3,3二甲基丁酸甲酯系列:2[1(5氟戊基)1H吲哚3甲酰氨基]3,3二甲基丁酸甲酯(MDMBPENINACA)或2[1(4氟丁基)1H吲唑3甲酰氨基]3,3二甲基丁酸甲酯(4FMDMBBINACA);

二甲氨基丁酮系列:N(1氨甲酰基2,2二甲基丙基)1(4氟苄基)吲唑3甲酰胺(ADBFUBINACA)、N(1氨甲酰基2,2二甲基丙基)1丁基吲唑3甲酰胺(ADBBUTINACA)、N(1氨甲酰基2,2二甲基丙基)1戊基吲哚3甲酰胺(ADBICA)或N(1氨甲酰基2,2二甲基丙基)1(环己基甲基)吲哚3甲酰胺(ADBCHMICA);

JWH系列:1丁基3(1萘甲酰基)吲哚(JWH073)、1己基3(1萘甲酰基)吲哚(JWH019)或1戊基3(1萘甲酰基)吲哚(JWH018)。

本发明提供一种合成大麻素分类方法,该方法包括:

获取多种合成大麻素的光谱数据,建立光谱数据集;

通过所述注意力模型对光谱数据集进行训练,并在训练过程中调整所述注意力模型的结构参数和/或超参数,获得合成大麻素分类模型;

根据待分析合成大麻素的光谱数据,利用所述合成大麻素分类模型对待分析合成大麻素进行分类。

具体地,首先获取多种合成大麻素的光谱数据,建立光谱数据集,利用拉曼光谱进行合成大麻素的识别分类,即光谱数据为拉曼光谱数据,合成大麻素的拉曼光谱具有多个特征峰;

拉曼光谱是一种散射光谱,当入射光与物质中的分子发生相互作用时,部分光会被散射并发生频率的变化,这种散射光的频率与入射光频率之差即为拉曼位移,拉曼位移提供了关于分子内部振动和转动能级的信息,从而可以用于物质的定性和定量分析。

拉曼光谱通常由一定数量的拉曼峰构成,每个拉曼峰代表了相应的拉曼散射光的波长位置和强度,对应于一种特定的分子键振动;拉曼光谱的特征峰是指在拉曼散射光谱中出现的明显的峰值,这些峰值具有特定的物理和化学特征,对于分析物质的性质和组成具有重要意义。常见的拉曼光谱特征峰包括CH吸收峰、C=C吸收峰、CO吸收峰等;

对于某些物质,由于其分子内部缺乏复杂的振动和转动模式,无法产生明显的拉曼光谱;此外,对于某些高度对称的分子,由于其振动模式的特殊性,也可能导致拉曼光谱的缺失或难以检测;

合成大麻素具有明显的拉曼光谱,其拉曼光谱具有多个特征峰,因此利用拉曼光谱进行合成大麻素的识别分类,其中合成大麻素包括:2[1(5氟戊基)1H吲哚3甲酰氨基]3,3二甲基丁酸甲酯(MDMBPENINACA)、2[1(4氟丁基)1H吲唑3甲酰氨基]3,3二甲基丁酸甲酯(4FMDMBBINACA)、N(1氨甲酰基2,2二甲基丙基)1(4氟苄基)吲唑3甲酰胺(ADBFUBINACA)、N(1氨甲酰基2,2二甲基丙基)1丁基吲唑3甲酰胺(ADBBUTINACA)、N(1氨甲酰基2,2二甲基丙基)1戊基吲哚3甲酰胺(ADBICA)、N(1氨甲酰基2,2二甲基丙基)1(环己基甲基)吲哚3甲酰胺(ADBCHMICA)、1丁基3(1萘甲酰基)吲哚(JWH073)、1己基3(1萘甲酰基)吲哚(JWH019)、1戊基3(1萘甲酰基)吲哚(JWH018)等。

优选地,在建立光谱数据集之前,对光谱数据进行预处理;预处理包括对光谱数据进行归一化和去噪处理,以去除环境噪声和背景干扰。

然后,通过注意力模型对光谱数据集进行训练,并在训练过程中调整所述注意力模型的结构参数和/或超参数,获得合成大麻素分类模型。

具体地,以光谱数据集作为样本数据,以合成大麻素的种类作为标签,对注意力模型进行训练;

注意力模型模拟人脑注意力机制,旨在从众多信息中选择出对当前任务更关键的信息;注意力模型在处理输入信息时,是分块或分区域进行的,对不同的块或区域采用不同的权值;权重越大,越聚焦于其对应的内容信息,从而使得关键信息对模型的处理结果影响较大;具体来说,注意力模型通过计算一系列权重,来决定在生成输出时应该注意输入序列的哪些部分;其将一系列权重与光谱数据集中的数据序列相乘并进行加权求和,提取并聚焦于最具信息量的部分。

具体地,在本实施例中,使用SE_ResNet34模型,SE_ResNet34模型是一种结合了压缩激励(SqueezeandExcitation,SE)模块和ResNet34(34层深度残差网络)架构的深度学习模型;

SE模块通过显式地建模通道间的相关性来增强卷积神经网络(CNN)的表示能力;SE模块包含两个关键操作:Squeeze和Excitation;Squeeze操作将每个通道的全局空间特征编码为一个通道描述符;这通常是通过全局平均池化来实现的,它将每个通道的特征图压缩为一个标量值;Excitation操作利用一个简单的全连接神经网络来学习每个通道的权重;这些权重表示了不同通道对于最终输出特征的重要性;然后,这些权重被用于重新缩放原始特征图的通道,从而增强有用的特征并抑制不重要的特征。

 ResNet34架构的核心特征是采用了残差块(Residual  Block),这些块允许输入信号通过跳跃连接直接传递至深层网络,有效解决了深度网络训练中的梯度消失问题。ResNet34的结构主要由重复的残差块组成,外加首尾的卷积和全连接层。

SE_ResNet34模型的集成方式通常是在每个残差块的末尾添加SE模块,以捕获和 利用通道间的相关性信息来增强特征表示。通过这种方式,SE_ResNet34模型能够在保持ResNet34架构优点的同时,进一步提高模型的表示能力和性能。

在本实施例中,将光谱数据集中的数据按照预设比例例如7:3随机分为训练数据集和测试数据集,训练数据集用于进行模型训练,测试数据集用于进行模型评价;在训练过程中,通过随机搜索算法搜索注意力模型的最优结构参数为卷积核大小、网络层数、神经元数量等和超参数为学习率、迭代次数、批大小、优化器、动量等。

经过上述训练,得到合成大麻素分类模型。即可根据待分析合成大麻素的光谱数据,利用该合成大麻素分类模型对待分析合成大麻素进行分类。该分类方法特别适用于拉曼光谱具有多个特征峰的合成大麻素,能够得到准确的分类结果。

优选地,可采用混淆矩阵、损失值曲线、受试者工作特征(Receiver Operating Characteristic,ROC)曲线、精确召回(PrecisionRecall,PR)曲线等结果对分类性能进 行评估。

优选地,可以通过归因算法确定注意力模型进行训练时偏重的光谱波段,偏重的光谱波段为注意力模型进行训练时对应权重值大于预定值的光谱波段。归因算法可揭示模型中不同拉曼位移的区分贡献度,实现了模型的可解释性。偏重的光谱波段即最具区分度的光谱波段,通过这种明确的位置信息可间接得出光谱特征峰基团归属。例如,可以通过基于支持向量机的归因算法确定注意力模型进行训练时偏重的光谱波段。

本发明的有益效果在于:利用合成大麻素的拉曼光谱具有多个特征峰的特点,引入注意力模型以有效识别提取光谱之间的细微差异,利用多种合成大麻素的光谱数据进行训练获得合成大麻素分类模型,从而实现合成大麻素的准确分类。特别地,利用SE_ResNet34模型可以进一步提升分类模型的特征提取能力、泛化能力和鲁棒性,能够弥补单独使用ResNet34模型所出现的过拟合问题。通过归因算法识别注意力模型中不同拉曼位移对分类的贡献度,从而明确最具区分度的光谱特征波段,实现了对模型的可解释性。

 

附图说明

1为本发明合成大麻素分类方法的流程图;

  

1

2为本发明的合成大麻素分类方法的混淆矩阵评估结果;

  

2

3为本发明的合成大麻素分类方法的损失值曲线评估结果;

  

3

4为本发明的合成大麻素分类方法的受试者工作特征曲线评估结果;

   

4

5为本发明的合成大麻素分类方法的精确召回曲线评估结果;

  

5

6为本发明的合成大麻素分类方法针对MDMB4enPINACA利用归因算法得到的最具区分度的拉曼谱峰位置

  

6

 

具体实施方式

通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

实施例

一种合成大麻素分类方法,按下列步骤进行:

a、获取多种合成大麻素的光谱数据,建立光谱数据集,在建立光谱数据集之前,对光谱数据进行归一化和去噪预处理,所述光谱数据为拉曼光谱数据;

b、通过步骤a中的注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型为SE_ResNet34的结构参数和/或超参数,获得合成大麻素分类模型;

c、根据待分析合成大麻素的光谱数据,利用步骤b得到的合成大麻素分类模型对待分析合成大麻素进行分类。

所述步骤a中合成大麻素的拉曼光谱具有多个特征峰。

步骤b中所述结构参数包括卷积核大小、网络层数或神经元数量;所述超参数包括学习率、迭代次数、批大小、优化器、动量。

通过随机搜索算法确定步骤b中注意力模型的最优结构参数和/或最优超参数。

通过归因算法确定步骤b中所述注意力模型进行训练时偏重的光谱波段,所述偏重的光谱波段为注意力模型进行训练时对应权重值大于预定值的光谱波段。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现根据权利要求15中任一项所述的方法的步骤。

参见图1本实施例提供一种合成大麻素分类方法,该方法:

步骤1:获取多种合成大麻素的光谱数据,建立光谱数据集;

3,3二甲基丁酸甲酯系列:2[1(5氟戊基)1H吲哚3甲酰氨基]3,3二甲基丁酸甲酯(MDMBPENINACA)、2[1(4氟丁基)1H吲唑3甲酰氨基]3,3二甲基丁酸甲酯(4FMDMBBINACA);

二甲氨基丁酮系列:N(1氨甲酰基2,2二甲基丙基)1(4氟苄基)吲唑3甲酰胺(ADBFUBINACA)、N(1氨甲酰基2,2二甲基丙基)1丁基吲唑3甲酰胺(ADBBUTINACA)、N(1氨甲酰基2,2二甲基丙基)1戊基吲哚3甲酰胺(ADBICA)、N(1氨甲酰基2,2二甲基丙基)1(环己基甲基)吲哚3甲酰胺(ADBCHMICA);[0065]JWH系列:1丁基3(1萘甲酰基)吲哚(JWH073)、1己基3(1萘甲酰基)吲哚(JWH019)、1戊基3(1萘甲酰基)吲哚(JWH018)。

通过自搭建的拉曼光路采集各种合成大麻素的拉曼光谱数据,建立光谱数据集,实施例中使用532nm的激发波长,采集条件为激发时间10s、激发次数1次、激光功率50mW、光谱范围12001800cm1,共采集937条拉曼光谱数据,建立光谱数据集;

步骤2:通过注意力模型对光谱数据集进行训练,并在训练过程中调整注意力模型的结构参数和/或超参数,获得合成大麻素分类模型;

将光谱数据集中的数据按照7:3的比例随机分为训练数据集和测试数据集,训练数据集用于模型训练,测试数据集用于模型评价,注意力模型为SE_ResNet34模型,通过随机搜索算法搜索模型的最优结构参数和超参数,结构参数包括卷积核大小、网络层数、神经元数量,超参数包括学习率、迭代次数、批大小、优化器、动量;

本实施例中确定的卷积核大小为3×3,网络层数为34层,神经元数量为120个;学习率设置为0.0001,训练轮数为15轮(epoch),训练和测试的批次样本数均为32,优化器为Adm,此时模型性能达到最优;

步骤3:根据待分析合成大麻素的光谱数据,利用合成大麻素分类模型对待分析合成大麻素进行分类;

类似地获得待分析合成大麻素的拉曼光谱数据,利用合成大麻素分类模型对待分析合成大麻素进行分类;

步骤4:对分类结果进行评估;

本实施例中,分别采用混淆矩阵、损失值曲线、受试者工作特征曲线、精确召回曲线对分类结果进行评估;图2显示了利用混淆矩阵进行评估的结果,其中测试样本量分别为:编号为0的MDMB4enPINACA;编号为1的5FADB;编号为2的ADB4enPINACA;编号为3的5FMDMBPICA;编号为4的5FEMBPICA;编号为5的EDMBCHMICA,分类准确率为100%;图3显示利用损失值曲线进行评估的结果,当训练轮数为2时,分类准确率已达到100%,曲线达到平台期不再上升;图4显示利用受试者工作特征曲线进行评估的结果,其中AUC(Area Under Curve,AUC)均为1,表明该模型分类性能优异;图5显示利用精确召回曲线进行评估的结果,结果均为1,表明该分类模型具有优越性;

步骤5:通过归因算法确定所述注意力模型进行训练时偏重的光谱波段;

采用基于支持向量机的归因算法计算得出SE_ResNet34模型在训练过程中偏重的拉曼位移,即最具区分度的光谱特征波段位置,通过明确位置信息间接得出光谱谱峰基团归属。图6显示了以MDMB4enPINACA为例的最具区分度的光谱波段,其中在1646cm1特征峰处,颜色为红色表示其为最具区分度的特征波段,在1255cm1特征峰处,颜色为蓝色表示其为不具区分度的特征波段;

通过本发明所述方法获得的6种合成大麻素的连接基为酰胺(CA)时,可以写成CA系列合成大麻素;

1种:MDMB4enPINACA的中文名为3,3二甲基2[1(4戊烯基)吲唑3甲酰氨基]丁酸甲酯;

2种:5FADB的中文名为3,3二甲基2[1(5氟戊基)吲唑3甲酰氨基]丁酸甲酯;

3种:ADB4enPINACA的中文名为N(1氨甲酰基2,2二甲基丙基)1(4戊烯基)吲唑3甲酰胺;

4种:5FMDMBPICA的中文名为3,3二甲基2[1(5氟戊基)吲哚3甲酰氨基]丁酸甲酯;

5种:5FEMBPICA的中文名为N(1乙氧基羰基2甲基丙基)1(5氟戊基)吲哚3甲酰胺;

6种:EDMBCHMICA的中文名为N(1乙氧基羰基2,2二甲基丙基)1(环己基甲基)吲哚3甲酰胺。

以上已经描述了本发明的实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

 

文章摘自国家发明专利,一种合成大麻素分类方法,发明人窦新存杜玉婉刘媛李文龙申请号202510084055.3申请日2025.01.20

 

 


更多阅读