Research on coal and rock identification method of excavation working face based on optimized U-net network
-
摘要:
为了提高煤岩识别的精准度, 采集了内蒙古上海庙矿业有限责任公司榆树井煤矿掘进工作面煤岩原始图像并制作了深度学习数据集, 通过FCN全卷积神经网络(FCN网络)、U-net语义分割网络(U-net网络)与加入Canny边缘检测算法改进后的U-net网络等3种网络模型对数据集进行训练, 并对训练结果进行对比分析。分析结果表明: 在训练次数达到100次时, 3种网络模型准确率分别为89.25%, 93.52%及94.55%, 改进U-net网络模型准确率相较改进前提高1.03%; 在煤岩识别方面, U-net网络模型比FCN网络模型取得了更高的准确率, 在测试环节中也表现出了更好的性能; 在预测环节中, 对煤岩边缘部分的识别做到了更为精准的处理。该方法可为煤岩识别的精准度的提高提供参考。
-
关键词:
- 煤岩识别 /
- 深度学习 /
- U-net网络 /
- Canny边缘检测算法
Abstract:To improve the accuracy of coal rock recognition, this study collected the original images of coal rock from the excavation face in Yushujing coal mine of Shanghai Temple Mining Co. Inner Mongolia, and produced a deep learning dataset. The dataset is trained by three kinds of network models, including FCN fully convolutional neural network (FCN network), U-net Semantic Segmentation Network (U-net Network), and U-net Network improved by adding Canny Edge Detection Algorithm, and the training results were compared and analyzed. The results show that the accuracy of the three network models is 89.25%, 93.52% and 94.55%, respectively. When the number of training times reaches 100, the accuracy of the improved U-net network model increased by 1.03%. In coal rock identification, the U-net network model achieved higher accuracy than the FCN network model and showed better performance in the testing session. In the prediction session, the recognition of the edge part of the coal rock was achieved with more accurate treatment. The method can provide a reference for improvement of the accuracy of coal rock recognition.
-
随着采矿技术和装备的发展, 机械化已经在煤炭开采中得到普及, 它在一定程度上提高了煤矿的生产效率。如再进一步提高生产效率, 目前较为公认的方法是让开采装备实现自主协同控制和对环境的智能感知, 而提高煤岩识别的精准度是其关键技术之一。因此, 开展煤岩识别的研究对于提高煤炭开采效率、保障生产安全、推动煤矿无人化、智能化进程以及提升煤炭行业技术水平具有重要意义[1−2]。
1. 煤岩识别技术
当前, 实现煤岩识别技术的有效方法是使用一些对煤和岩石具有识别能力的传感器, 结合实际生产需要组成具有一定识别精度的煤岩分离装置[3]。目前, 国内外对煤岩的识别主要有射线探测、超声波检测、电磁检测、红外检测、图像检测等多种技术与方法[4]。
1.1 γ射线探测法
岩石中放射性元素的含量通常远高于煤, 当地层中的辐射通过煤层时, 随着地层厚度的增大, 其辐射强度逐渐降低, 由此, 就可以通过探测经过煤层的γ辐射强度来计算顶板和底板的厚度。这种方法无辐射源、管理方便、非接触式测量且不易损伤; 但不适用于含有少量放射性物质的地层以及含有大量夹矸的煤层测量。秦剑秋等[5]通过分析煤岩板辐射出的伽马射线穿透煤层后的衰减程度, 建立了γ射线在煤层中的数学穿透模型, 进而推导出射线衰减公式, 为后期探测顶煤厚度奠定了基础。但该方法传感器易受粉尘等因素的干扰, 存在射线衰减的问题。为解决这一问题, 韦东波[6]采用FD3003射线仪采集穿透煤层后的伽马射线强度, 确定了射线强度与煤层厚度的关系曲线, 从而推算出煤层高度, 实现了煤岩界面的识别。这种方法具有较好的抗干扰性, 同时还考虑到了光强的衰减, 从而提高了识别的准确性。
1.2 反射光谱识别
反射光谱是一种对现场物质具有高信噪比、低成本、实时的光谱检测方法, 其原理是利用反射光谱来获得目标物质组分的信息, 由于物质组分上的差异, 在相同的波段内其反射光谱的特征也会发生变化。依据电磁波与复杂物体相互作用的原理, 岩石和矿物在350~2 500 nm范围内反射光谱的特性主要取决于岩石和矿物的物理结构和化学组分。因此, 煤岩的反射光谱可反映了煤岩中物质组成的差异。张昊等[7]对煤岩的原始光谱带进行了研究, 发现煤和岩石反射率都随波长增大而增大, 但在一定的波段内两者有较大差别, 因此通过分析煤岩对光谱的反射率可实现煤岩的精确识别。
1.3 其他传统识别方法
声发射信号、切割应力信号、电流信号、振动信号[8]等过程信号监测识别技术在实际应用中面临一些挑战和限制。如煤岩界面的分布和特征可能因地质情况出现多种变化, 导致信号较为复杂; 在设备采集信号时也常会遇到多样性的干扰, 导致煤岩识别的准确性下降。红外光谱信号、高光谱信号、超声波信号等电磁波、超声波识别技术在应用时也往往需要配备专用的传感器及设备, 对现场的光照条件要求较高, 因此在实际应用中对应用条件要求较高。表1总结了其他常用于煤岩识别的传统方法及识别效果。
1.4 基于机器视觉的煤岩识别方法
近年来, 伴随着煤矿智能化的不断发展, 国内外已有学者对基于机器视觉方法的煤岩界面识别方法进行了一些研究[18−20]。张斌等[21]将目标检测算法YOLOv2与线性成像模型进行结合来进行煤岩的识别与定位, 同时设定实际坐标与计算坐标对比, 结果表明该方法可以快速准确识别煤岩; 孙涛等[22]提出了一种基于卷积神经网络和煤岩智能语义分割混合的煤岩识别系统, 构建用于煤岩图像识别的CA-Poly-DeepLab v3+网络模型, 通过进行数据增强等处理可以实现较好的煤岩界面的语义分割效果; 伍云霞等[23]将字典学习和最大集中式稀疏编码技术相结合, 对煤岩界面进行了特征提取, 从而实现了煤岩界面的自动识别; 孙继平等[24]提出了一种二进制十字对角纹理矩阵, 用于煤岩图像结构特征的提取与分析, 并利用其差异性实现煤岩界面的识别。
表2列出了几种常见神经网络及算法的煤岩识别结果, 包括在基础网络上的改进网络模型, 可以看到, 机器视觉技术在煤岩界面的识别方向的研究与尝试已经取得了一定的成果, 但YOLO系列算法[29]无法对煤岩图像的边缘进行准确的划分; 基于CNN, SegNet等的网络模型在识别准确率和精度上还有待提高[30]。另外, 由于煤矿实际的场景较为复杂, 难以采集较高质量的煤岩界面图像, 因此可用于机器视觉算法训练的数据集较少。
笔者在对比传统煤岩识别方法及依托人工智能技术的智能识别方法后, 发现智能识别方法存在诸多方面的优势, 因此选用智能识别方法对煤岩进行识别, 并提出了融合Canny算法的改进U-net网络模型。首先采集榆树井煤矿采煤工作面煤岩原始图像数据集, 通过旋转、随机对比度、加入噪声、弹性变换等操作对数据集进行扩充, 并对数据集中的煤样部分添加人工标签。然后从FCN全卷积神经网络与U-net语义分割网络入手, 分别对两种网络模型进行训练及调参。最后对试验结果进行了分析。为达到消除边缘模糊的效果, 在U-net网络的加强特征提取网络中加入Canny边缘检测算法, 优化特征提取网络的结构, 以达到更好的预测效果, 旨在提高网络模型效率、拓展煤岩识别在机器视觉方向的发展及应用。
2. 基于图像处理的煤岩识别算法
2.1 FCN全卷积神经网络
FCN全卷积网络(FCN网络)是Jonathan LONG等[31]于2014年提出的一种新的图像语义分割框架。它被认为是最早在深度学习中应用的一项重要成果。FCN用卷积代替了传统CNN背后的完整连通层, 从而得到的结果是热图而不是类别; 同时, 为了克服卷积和池化造成的图像尺寸变小的问题, 采用了上采样的方法来恢复图像的大小。FCN网络是一种全卷积网络, 它不需要完全连通层, 可以适用于任何维度的输入; 反卷积放大影像大小, 产生更好的效果; 在多个层次上, 采用跳跃结构, 保证了算法的稳健性和准确性。
图1为FCN网络结构。FCN的网络结构分为全卷积与反卷积两个部分。其中, 全卷积部分是利用几种典型的CNN网络(VGG, ResNet等)来进行特征提取; 反卷积是对已有语义分割的图像进行采样操作, 得到原尺寸的分割结果。该网络的输入可以是任何大小的彩色图像, 输出的结果和输入大小一样, 通道数为目标类别数与背景相加。该方法摒弃了传统卷积网络中的全连接层, 而是采用全卷积, 通过去卷积恢复原始图像的大小, 无需对训练图和待测图的大小进行限制。
图2为FCN网络中全卷积和反卷积的示意。
现有的FCN网络上的采样结果较平滑和模糊, 对图像中的细节不够敏感, 忽略了像素与像素之间的关系, 没有充分考虑通常基于像素分类的分割方法中使用的空间规整步骤, 缺乏空间上的一致性, 导致得到的结果不够精细。基于此, 笔者考虑采用基于U-Net网络的模型并加以改进来克服上述问题。
2.2 U-Net网络
U-Net为经典的语义分割网络, 2015年被提出, 最初应用在医疗影像分割任务上[32], 由于效果良好, 之后被广泛地应用在各类分割任务中。U-Net结构稳定, 是典型的Encoder-Decoder结构, Encoder进行特征提取, Decoder进行上采样。在数据集较小时, 使用U-Net网络模型会取得更为显著的效果。
U-Net网络由编码器和解码器组成, 中间有一个跳跃连接, 形状呈U型, 所以称为U-Net。跳跃连接是U-Net网络的一个重要特点, 这些连接将编码器中的某些层与解码器中相应的层连接起来, 从而使解码器可以利用更多的低级别特征来进行分割[33]。这种跳跃连接结构可以有效地解决分割过程中信息丢失和分割不准确的问题。U-Net网络结构如图3所示。
Encoder编码器用于下采样和特征提取, 由两个3×3的卷积层和ReLU激活函数以及2×2的max pooling层反复组成。在每次下采样后, 输出的特征图尺寸减半, 通道数增加一倍。Decoder解码器用于图像尺寸还原及分割, 由一个2×2的转置卷积层和ReLU激活函数以及2个3×3的卷积层和ReLU激活函数反复构成。在此基础上, 将跳跃连接节点上的图像分割成相应层次的图像, 并将其与解码器相应的图像进行拼接。传统的基于跳跃连接的特征融合方法, 其主要问题在于每次降采样时都会有部分边缘特征丢失, 这些丢失的特征无法通过上采样恢复, 并且直接对特征图进行上采样, 并没有增加特征信息。所以为了能够补充更多的特征信息, U-Net将前面的中间变量拼接到后面上采样的结果中, 使得特征更加丰富。
U-Net网络相比于FCN网络, 共进行了4次上采样, 采用跳跃连接代替高级语义特征进行监督, 使得重建出的图像能够融合更多的低层次特征, 实现多尺度预测与深度监督; 同时, 通过多次升采样, 能够更好地恢复图像的边界等细节。
2.3 Canny边缘检测算法
Canny边缘检测算法是计算机视觉领域中常用的边缘检测算法之一[19]。它的主要特点是能够准确地检测到图像中对象的边缘, 同时对噪声有较强的抵抗力。Canny算法由灰度化处理、高斯滤波、计算图像梯度、非极大值抑制、双阈值处理及边缘连接处理等构成。灰度化处理是将输入的彩色图像转化为灰度图像; 高斯滤波处理是使用高斯滤波器对灰度图像进行平滑操作, 减少噪声的影响。
利用Sobel算子对灰度图像进行水平和垂直方向上的梯度计算, 以求出各像素点的梯度值和方向。Sobel算子利用像素点上、下、左、右邻点灰度权重差值, 使其在边沿接近极值的现象来进行边界检测, 对噪声具有平滑作用, 并提供了更准确的边界方位信息。
Sobel算子公式为
$$ {G_x} = \left[ {\begin{array}{*{20}{c}} { - 1}&0&1 \\ { - 2}&0&2 \\ { - 1}&0&1 \end{array}} \right] * {I_{{\text{gray}}}} $$ (1) $$ {G_y} = \left[ {\begin{array}{*{20}{c}} 1&2&1 \\ 0&0&0 \\ { - 1}&{ - 2}&{ - 1} \end{array}} \right] * {I_{{\text{gray}}}} $$ (2) 式中, ${G_x}$和${G_y}$分别为水平和垂直方向上的梯度值; $ {I_{{\text{gray}}}} $为灰度化后的像素值; $ * $为卷积运算符。
某点的梯度$ G $和方向$ \theta $如图4所示, 计算公式为
$$ \left| G \right| = \sqrt {G_x^2 + G_y^2} $$ (3) $$ \theta = {\arctan }\frac{{{G_y}}}{{{G_x}}} $$ (4) 非极大值抑制操作是通过对于每个像素点, 比较其梯度方向上的邻近两个像素点之梯度值的大小, 只保留梯度方向上梯度值极大的像素点。在每一点上, 领域中心与沿着其对应梯度方向的两个像素相比, 若中心像素为最大值, 则保留, 否则中心置0。这样操作可以抑制非极大值, 保留局部梯度最大的点, 有利于细化边缘, 消除边缘上的模糊效果。图5为极大值抑制操作, 图中颜色深度表示梯度幅值大小。
双阈值处理操作将像素点分为3类: 强边缘、弱边缘和非边缘。当像素点的梯度值高于较高的阈值时, 将其分类为强边缘。当像素点的梯度值低于较低的阈值时, 将其分类为非边缘。当像素点的梯度值介于较高和较低的阈值之间时, 将其分类为弱边缘, 图6为双阈值处理操作。边缘连接则将弱边缘和其周围的强边缘连接起来形成完整的边缘。
U-Net网络中的加强特征提取网络部分包含多个由2×2的转置卷积层和3×3的卷积层组成的模块, 在每个模块之间加入Canny算法进行网络模型优化。Canny算法在U-Net网络中首先通过高斯滤波器对图像进行平滑处理以减少噪声, 在这一过程中通过调整高斯核的大小来控制平滑程度; 继而通过使用指令集来优化Sobel算子的计算, 从而加速梯度的计算、提高边缘检测的速度。非极大值抑制用于去除非边缘像素, 在U-Net网络中通过并行处理来提高这一步骤的效率, 以减少不必要的计算。对于Canny算法的双阈值处理, 使用自动选择最佳阈值来确定, 而不是依赖于固定的阈值以提高精确度。最后进行边缘连接步骤用于确定最终的边缘。
加入Canny算法的特征提取网络如图7所示, 由此每经历一次卷积处理, 均会进行一次边缘检测操作, 以达到消除边缘模糊的效果。
3. 煤岩识别机器学习模型训练
3.1 岩石图像数据集
笔者所用煤岩图像数据集, 来源于内蒙古上海庙矿业有限责任公司榆树井掘进工作面拍摄的731张照片, 该数据集包含的所有照片图像均标记煤岩标签, 其中701张作为训练集, 剩余30张作为测试集。
训练集样本的扩增, 通过进行一系列随机变换和增强操作, 生成更多样化、更丰富的训练样本。数据集的增强可提高模型的泛化能力、模拟真实世界的变化, 进而解决数据不足或不平衡的问题, 常用的数据集增强方法见表3, 通过采取不同实施概率的数据增强方法, 其中包括: 旋转、随机对比度、加入噪声、弹性变换等。
表 3 数据集增强方法Table 3. Data set enhancement method图像扩充方法 扩充目的 扩充量/% 旋转 增加不同角度图像 80 随机对比度 增加不同对比度 40 加入噪声 增加图像真实度 40 弹性变换 增加形状及结构 40 图8为通过不同方法扩增后得到的数据集。
3.2 煤岩图像预处理
基于采集现场煤岩原始图像, 首先筛选出其中模糊、重影的图像, 舍弃。然后依次扫描煤岩图像的每一个像素, 计算出图像的灰度直方图。
因采集的煤岩原始图像相对较暗, 其直方图分布集中在灰度级较低的部分, 图像中的煤与邻近区域的灰度级相近, 不易区分。对此, 将煤岩图像的直方图分布通过累积分布函数转换为近似均匀分布, 从而达到增强图像对比度的效果, 实现图像的均衡化处理。
在煤岩图像中, 煤和其他各类岩石的表面都具有一定的纹理特征, 在进行灰度图像处理后, 图像中煤岩表面纹理特征不易区分, 需通过图像噪声处理提高图像质量, 改善显示效果。张谢华等[34]试验研究发现, 高斯双边滤波方法对煤岩图像纹理噪声的处理效果较好。但高斯双边滤波在滤除纹理噪声的同时, 会弱化煤岩界面边缘信息。利用拉普拉斯边缘算子可有效提取目标图像边界曲线的形状特征[35−36], 可通过图像锐化处理恢复或实现边缘信息增强。为此, 笔者采用高斯双边滤波方法处理噪声, 同时采用拉普拉斯算子对煤岩界面进行边缘增强处理。试验结果显示, 采用拉普拉斯算子进行煤岩界面的边缘增强后, 图像对比度明显提升, 同时维持了原图的灰度特性。数字图像函数的拉普拉斯算子借助模板卷积实现, 基于二阶差分运算得到具有各向同性的双像素宽的边缘, 一般不会出现伪边缘, 增强了煤岩图像的边缘信息, 有利于进一步的煤岩识别处理。煤岩图像预处理主要通过调用OpenCV库来实现, 预处理结果如图9所示。
使用Labelme软件对生成的数据集图片进行人工多边形标注。将标注后的图片输入模型, 生成相对应的数据集并验证数据集的有效性, 将数据集图片按照8∶2的比例划分为训练集和验证集。图10为煤岩图像的标签标注情况及标签掩码图。
3.3 深度学习模型设计
为提高计算效率, 试验通过CUDA调用GPU硬件, 在GPU加速环境下对算法模型进行训练, 具体硬件、软件环境见表4。
表 4 试验软、硬件环境配置Table 4. Experimental software and hardware environment configuration环境 规格 CPU Intel Core i7–13700KF GPU NVIDIA GeForce RTX4060 内存/GB 16.0 显存/GB 8.0 CUDA版本 11.2 深度学习框架 PyTorch 编程语言 Python 3.12 其他关键库 Torch 2.2.1 Numpy 1.26.4 Pillow 10.2.0 3.3.1 目标区域定位
模型损失函数采用Dice相似系数损失函数。因为Dice相似系数损失函数可以更好地处理像素级的预测, 在二分类任务中可以帮助模型更精确地定位目标区域。
Dice相似系数损失函数取自Dice系数, 它是一个衡量两个样品之间相似程度的度量函数, 其数值越大表示这两个样品越相似, Dice系数的数学式达式为
$$ D = \frac{{2\left| {X \cap Y} \right|}}{{\left| X \right| + \left| Y \right|}} $$ (5) 式中, $ \left| {X \cap Y} \right| $为X和Y之间交集元素的个数; $ \left| X \right| $和$ \left| Y \right| $为X, Y中元素的个数。
Dice相似系数损失函数表达式为
$$ L = 1 - D = 1 - \frac{{2\left| {X \cap Y} \right|}}{{\left| X \right| + \left| Y \right|}} $$ (6) 首先使用FCN网络、U-net网络模型对煤岩数据集分别进行学习, 并比较训练结果。为对训练模型进行优化边缘操作, 在U-net的加强特征提取网络中加入Canny边缘检测算法, 以达到消除边缘模糊的效果。
3.3.2 训练参数确定
笔者通过对批量大小、随机失活率、正则化系数、学习率等参数的调试, 确定了适合本文数据集的训练参数, 以求在保证模型效率的同时尽量提高精度。
(1) 训练参数说明
批量大小对训练过程中存储空间的占用以及梯度估算的准确性有很大的影响。批量规模越大, 其梯度估计越稳定, 加速了模型的收敛速度, 但也容易陷入局部最优解, 且会占用大量存储空间; 批量规模越小, 在提高噪音的同时, 也有利于避免陷入局部最小值, 但是也会引起学习的不稳定性、收敛速率的降低。
随机失活率用来表示在训练过程中随机“丢弃”神经元的比例。较高的失活率可以增强模型的泛化能力, 但同时可能导致模型欠拟合。
正则化系数决定了用来避免模型过拟合的惩罚项强度。增大正则化系数对过度拟合具有很好的抑制作用, 但可能导致模型欠拟合。
学习率是控制模型参数更新步长大小的超参数, 学习率的大小会影响模型的震荡情况及收敛速度。
(2) 训练参数获取方法
通过试验和调整,即试错法确定随机失活率、正则化系数大小, 在所选取的数值范围内模型在验证集上的性能较好, 可以有效避免模型进入欠拟合状态。另外使用交叉验证法来评估不同参数组合的性能, 在确定随机失活率、正则化系数后, 设置批量大小进行试验, 以保证学习的稳定性以及较快的收敛速率, 确保模型的泛化能力。设置以上参数时在验证集上监测模型的性能, 并在性能不再提高时停止训练, 避免过拟合。
表5列举了最终确定的深度学习网络模型及改进网络模型中的参数设置, 批量大小设置为64, 随机失活率设置为0.5, 正则化系数设置为0.01, 学习率随训练次数的变化进行调节, 变化范围为0.000 01~0.001。
表 5 深度学习网络参数Table 5. Deep learning network parameters参数 值 批量大小 64 随机失活率 0.5 正则化系数 0.01 学习率 0.000 01~0.001 4. 模型训练及结果分析
4.1 模型训练
4.1.1 通用参数确定
进行模型试验时, 通过调试U-net网络模型确定一系列的通用参数, 与后续的试验形成对照。
冷冻参数是指在训练神经网络时固定的某些层或参数, 它在反向传播的过程不更新。冷冻解码器参数的作用是防止模型发生过拟合, 保留预训练模型所学到的特征。通过设置冷冻层的比例来调整网络模型参数, 得到不同的网络模型训练结果, 见表6。由表6可知, 设置卷积层数为2, 训练轮次为200时, 准确率可达到93%以上, 验证集损失值降低到0.033, 效果较为理想, 但训练时间较长与效率较低。因此将训练轮次设为100, 调试不同的冷冻层数。发现在冷冻层数为30时, 语义分割精度为87.74%, 准确率为93.52%, 验证集损失为0.047, 训练集损失为0.161, 预测效果较为理想。
表 6 U-net深度学习模型训练结果Table 6. U-net deep learning model training results冷冻层/训练层 准确率/% 语义分割精度/% 验证集损失 训练集损失 100/100 92.45 85.85 0.063 0.164 80/100 92.73 86.36 0.059 0.162 50/100 93.46 87.62 0.050 0.151 30/100 93.52 87.74 0.047 0.161 100/200 93.44 87.59 0.033 0.200 50/200 93.57 87.34 0.029 0.194 最终笔者选取训练轮次为100, 冷冻层为30, 进行后续的网络模型训练。
4.1.2 多网络模型训练
将处理后的数据集, 分别运用FCN、U-net与改进后的U-net等3种网络模型进行训练, 并进行结果预测。表7为3种网络模型的训练结果。
表 7 网络模型性能评价指标Table 7. Model performance evaluation index网络模型 FCN U-net 改进U-net 准确率/% 89.25 93.52 94.55 语义分割精度/% 83.43 87.74 87.34 训练集损失 0.052 0.047 0.049 验证集损失 0.147 0.161 0.210 准确率是用来评估网络模型的全局准确程度的关键参数, 定义为网络模型正确预测的样本即真正例数量占总样本数量的比例。准确率的公式为
$$ A = \frac{{{T_{\text{P}}} + {T_{\text{N}}}}}{{{T_{\text{P}}} + {F_{\text{P}}} + {T_{\text{N}}} + {F_{\text{N}}}}} $$ (7) 式中, $ {T_{\text{P}}} $(真正例)为网络模型正确预测为正类的样本数量; $ {F_{\text{P}}} $(假正例)为网络模型错误预测为正类的样本数量; $ {T_{\text{N}}} $(真反例)为网络模型正确预测为负类的样本数量; $ {F_{\text{N}}} $(假反例)为网络模型错误预测为负类的样本数量。
$ {T_{\text{P}}} $, $ {F_{\text{P}}} $, $ {T_{\text{N}}} $, $ {F_{\text{N}}} $表示分类结果混淆矩阵的各元素, 具体含义见表8。
表 8 分类结果混淆矩阵Table 8. Classification result confusion matrix实际情况 预测结果 正例 反例 正例 $ {T_{\text{P}}} $(真正例) $ {F_{\text{N}}} $(假反例) 反例 $ {F_{\text{P}}} $(假正例) $ {T_{\text{N}}} $(真反例) 由表7可知, 训练轮次为100时, FCN网络模型的准确率为89.25%, 误差相对较大; U-net网络模型的准确率为93.52%; 改进U-net网络模型的准确率为94.55%, 相较原U-net网络提升1.03%。
除计算准确率外, 笔者采用平均交并比M来衡量语义分割精度。平均交并比M即计算两个集合之间交集与并集的比例, 公式为
$$ M = \frac{1}{k}\sum\limits_{i = 1}^k {\frac{{{T_{\text{P}}}}}{{{T_{\text{P}}} + {F_{\text{P}}} + {F_{\text{N}}}}}} $$ (8) 式中, $ k $为网络模型中样本的数量。
图11为3种网络模型的损失函数变化曲线。
由图11可知, FCN网络模型的损失函数在训练至30~50轮次时出现较大波动, 稳定性相较U-net网络模型差; U-net网络模型在训练次数达到100次时, 整体损失函数稳定在0.05以下, 优于FCN网络模型; 改进U-net网络模型, 训练集损失结果相差不大, 但是验证集损失出现了更早收敛的现象, 且收敛值处于0.20左右, 相较U-net网络模型有损失值扩大的现象出现。
以上结果说明改进后的U-net网络模型在精确率和稳定性方面均有一定程度的提高。
通过分析网络结构可知, U-Net网络模型具有一个完全对称的编码器–解码器结构, 这种结构有助于网络模型在下采样即编码阶段捕获图像的上下文信息, 在上采样即解码阶段逐渐恢复图像的细节信息; FCN网络模型的解码器相对简单, 只用了一个反卷积操作, 之后并没有卷积结构, 这限制了它在恢复细节信息上的能力。U-Net网络模型通过跳跃连接将编码器中的高分辨率特征图与解码器中的相应特征图进行拼接, 而不是像FCN网络模型那样简单地相加, 这种拼接方式可以更有效地融合不同层次的特征信息, 保留更多的细节信息。U-Net网络模型的设计允许网络模型从不同尺度捕获更多的上下文信息, 这对于目标检测中的小目标和细节特征的识别尤为重要, 而FCN网络模型缺乏这种多尺度特征融合机制。综上所述, U-Net网络模型在处理图像细节信息方面优于FCN网络模型, 故而整体的准确率更高, 对于本文数据集的训练学习结果要优于FCN网络模型; 加入Canny边缘检测算法的改进U-Net网络模型保留了U-Net网络模型的结构优势, 在不降低网络训练效率的同时加强了解码过程中的边缘识别; FCN网络模型得益于相对简单的解码结构, 参数量相对较少, 这使得它在训练时更加高效, 对于细节信息较少的图片能达到不错的识别效果。
4.2 测试结果分析
图12为FCN、U-net与改进U-net的网络模型训练后的预测图, 图中白色方框标记部分为3个网络模型的预测结果差异较为明显之处。
由图12可知, 在处理煤岩分割较为简单的图像时, 各网络模型的预测准确率都比较高, 预测结果也较一致, 如图12第1列所示, 煤岩界面的分界比较明显, 3个网络模型对煤岩的区分都比较优秀, 同时改进网络模型对于煤样的处理更加细节, 可以识别出一些岩石纹路或残渣。但针对较为复杂图像时, FCN网络模型在一些细节的处理上不够准确, 尤其是在图片本身亮度较暗的时候, 如图12第2列所示, 它的右半部分, 光线亮度不够时, 难以区分煤与阴影部分, 出现有煤未标记或者无煤标记的情况。而井下图像的常见特点即为光照强度较低、噪声较大, 相比较而言, FCN网络模型在处理这些图像时易出现较大的误差、暴露出较大的不准确性。
U-net网络模型在处理复杂图像时, 识别较为精准, 偶尔出现有煤未标记的情况, 以及边缘模糊不清的现象。相较之下, 改进后的U-net网络模型在煤岩识别中更加精准, 由图12第3, 4列可知, 加入Canny边缘检测算法的改进U-net网络模型在煤岩边缘的处理上更加细致, 而且对于散落的煤渣等细微部分也能进行一定的识别, 煤岩识别的准确率也相对较高。
4.3 工程应用前景
为实现采煤工作面的智能化及无人化, 需要掘进设备装备各类传感器, 综合采集工作面的实时数据[37]。针对工作面采集的实时图像, 采用本文提出的改进U-net语义分割网络, 在煤岩识别方向具有更高的精度和效率, 能够达到更好的煤岩预测效果。该算法可以开发相应的软件平台, 将其集成化于掘进设备乃至智慧矿山综合管理平台上, 通过工作面返回的煤岩图片, 实时判断及预测煤岩分布, 控制掘进设备的钻进深度及钻进方向, 实现钻机的自动化控制。从而解决传统煤岩识别方式中所存在的效率低、耗时长、主观程度高等问题。
图13为改进U-net网络模型的应用。
5. 结 论
(1)在数据集相同的情况下, 经过100轮次的训练后, FCN网络模型的准确率可达到89.25%, U-net网络模型的准确率可达到93.52%。
(2)对比3种网络模型测试结果可得, 在同等数据集训练、同等训练轮次的情况下, U-net语义分割网络比FCN全卷积神经网络具有更好的煤岩识别效果。
(3)为达到消除边缘模糊的效果, 在U-net网络模型的加强特征提取网络中加入Canny边缘检测算法。改进U-net网络模型准确率较改进前提高1.03%, 在预测环节中, 对煤岩边缘部分的识别做到了更为精准的处理。
-
表 1 常用煤岩识别传统方法汇总
Table 1 Summary of traditional methods of common coal-rock recognition
表 2 常见神经网络及算法煤岩识别结果
Table 2 Coal rock identification results of common neural networks and algorithms
表 3 数据集增强方法
Table 3 Data set enhancement method
图像扩充方法 扩充目的 扩充量/% 旋转 增加不同角度图像 80 随机对比度 增加不同对比度 40 加入噪声 增加图像真实度 40 弹性变换 增加形状及结构 40 表 4 试验软、硬件环境配置
Table 4 Experimental software and hardware environment configuration
环境 规格 CPU Intel Core i7–13700KF GPU NVIDIA GeForce RTX4060 内存/GB 16.0 显存/GB 8.0 CUDA版本 11.2 深度学习框架 PyTorch 编程语言 Python 3.12 其他关键库 Torch 2.2.1 Numpy 1.26.4 Pillow 10.2.0 表 5 深度学习网络参数
Table 5 Deep learning network parameters
参数 值 批量大小 64 随机失活率 0.5 正则化系数 0.01 学习率 0.000 01~0.001 表 6 U-net深度学习模型训练结果
Table 6 U-net deep learning model training results
冷冻层/训练层 准确率/% 语义分割精度/% 验证集损失 训练集损失 100/100 92.45 85.85 0.063 0.164 80/100 92.73 86.36 0.059 0.162 50/100 93.46 87.62 0.050 0.151 30/100 93.52 87.74 0.047 0.161 100/200 93.44 87.59 0.033 0.200 50/200 93.57 87.34 0.029 0.194 表 7 网络模型性能评价指标
Table 7 Model performance evaluation index
网络模型 FCN U-net 改进U-net 准确率/% 89.25 93.52 94.55 语义分割精度/% 83.43 87.74 87.34 训练集损失 0.052 0.047 0.049 验证集损失 0.147 0.161 0.210 表 8 分类结果混淆矩阵
Table 8 Classification result confusion matrix
实际情况 预测结果 正例 反例 正例 $ {T_{\text{P}}} $(真正例) $ {F_{\text{N}}} $(假反例) 反例 $ {F_{\text{P}}} $(假正例) $ {T_{\text{N}}} $(真反例) -
[1] 张强, 张润鑫, 刘峻铭, 等. 煤矿智能化开采煤岩识别技术综述[J]. 煤炭科学技术, 2022, 50(2): 1−26. ZHANG Qiang, ZHANG Runxin, LIU Junming, et al. Review on coal and rock identification technology for intelligent mining in coal mines[J]. Coal Science and Technology, 2022, 50(2): 1−26.
[2] 张闯, 张超力, 崔涛, 等. 煤矿智能化开采技术现状及展望[J]. 能源与节能, 2024(1): 186−189. DOI: 10.3969/j.issn.2095-0802.2024.01.043 ZHANG Chuang, ZHANG Chaoli, CUI Tao, et al. Present situation and prospect of intelligent mining technology in coal mines[J]. Energy and Energy Conservation, 2024(1): 186−189. DOI: 10.3969/j.issn.2095-0802.2024.01.043
[3] DONG S, CHITRA V. A novel coal-rock cutting state identification model based on the Internet of Things[J]. International Journal of Cognitive Computing in Engineering, 2023, 4: 179−186. DOI: 10.1016/j.ijcce.2023.04.003
[4] 贺艳军, 李海雄, 胡淼龙, 等. 煤岩识别技术发展综述[J]. 工矿自动化, 2023, 49(12): 1−11. HE Yanjun, LI Haixiong, HU Miaolong, et al. Overview of the development of coal rock recognition technology[J]. Journal of Mine Automation, 2023, 49(12): 1−11.
[5] 秦剑秋, 郑建荣, 朱旬. 自然γ射线煤岩界面识别传感器[J]. 煤矿机电, 1996(3): 9−10, 5. QIN Jianqiu, ZHENG Jianrong, ZHU Xun. Natural γ-ray coal rock interface recognition sensor[J]. Colliery Mechanical & Electrical Technology, 1996(3): 9−10, 5.
[6] 韦东波. 自然γ射线法在采煤机摇臂自动调高中探测煤层厚度的研究[J]. 煤矿机械, 2015, 36(1): 68−70. WEI Dongbo. Research of seam thickness detection to automatically raise shearer arm based on natural γ-ray[J]. Coal Mine Machinery, 2015, 36(1): 68−70.
[7] 张昊. 基于高光谱的煤岩识别技术研究[D]. 徐州: 中国矿业大学, 2017. ZHANG Hao. Study on identification technology of coal and rock based on hyperspectral[D]. Xuzhou: China University of Mining and Technology, 2017.
[8] 刘泗斐, 师鹏, 万志军, 等. 工作面煤壁振动信号分析[J]. 采矿与岩层控制工程学报, 2021, 3(3): 033514. LIU Sifei, SHI Peng, WAN Zhijun, et al. Analysis of coal wall vibration[J]. Journal of Mining and Strata Control Engineering, 2021, 3(3): 033514.
[9] 张强, 张石磊, 王海舰, 等. 基于声发射信号的煤岩界面识别研究[J]. 电子测量与仪器学报, 2017, 31(2): 230−237. ZHANG Qiang, ZHANG Shilei, WANG Haijian, et al. Study on identification of coal-rock interface based on acoustic emission signal[J]. Journal of Electronic Measurement and Instrumentation, 2017, 31(2): 230−237.
[10] XU Jing, WANG Zhongbin, TAN Chao, et al. Cutting pattern identification for coal mining shearer through sound signals based on a convolutional neural network[J]. Symmetry, 2018, 10: 736. DOI: 10.3390/sym10120736
[11] 田立勇, 戴渤鸿, 王启铭. 基于采煤机摇臂销轴多应变数据融合的煤岩识别方法[J]. 煤炭学报, 2020, 45(3): 1203−1210. TIAN Liyong, DAI Bohong, WANG Qiming. Coal-rock identification method based on multi-strain data fusion of shearer rocker pin shaft[J]. Journal of China Coal Society, 2020, 45(3): 1203−1210.
[12] 田立勇, 毛君, 王启铭. 基于采煤机摇臂惰轮轴受力分析的综合煤岩识别方法[J]. 煤炭学报, 2016, 41(3): 782−787. TIAN Liyong, MAO Jun, WANG Qiming. Coal and rock identification method based on the force of idler shaft in shearer's ranging arm[J]. Journal of China Coal Society, 2016, 41(3): 782−787.
[13] 王元军, 王明松, 田山军, 等. 基于卡尔曼滤波与随机森林的煤岩识别研究[J]. 煤炭技术, 2021, 40(12): 208−211. WANG Yuanjun, WANG Mingsong, TIAN Shanjun, et al. Study on recognition of coal and rock based on Kalman filter and random forest[J]. Coal Technology, 2021, 40(12): 208−211.
[14] 韦任, 徐良骥, 孟雪莹, 等. 基于高光谱特征吸收峰的煤岩识别方法[J]. 光谱学与光谱分析, 2021, 41(6): 1942−1948. WEI Ren, XU Liangji, MENG Xueying, et al. Coal and rock identification method based on hyper spectral feature absorption peak[J]. Spectroscopy and Spectral Analysis, 2021, 41(6): 1942−1948.
[15] 张强, 孙绍安, 张坤, 等. 基于主动红外激励的煤岩界面识别[J]. 煤炭学报, 2020, 45(9): 3363−3370. ZHANG Qiang, SUN Shaoan, ZHANG Kun, et al. Coal and rock interface identification based on active infrared excitation[J]. Journal of China Coal Society, 2020, 45(9): 3363−3370.
[16] WU Fang, WEI Liangshu, HUANG Junjie, et al. Optimized fuzzy C-means clustering algorithm for the interpretation of the near-infrared spectra of rocks[J]. Spectroscopy Letters, 2017, 50(5): 270−274. DOI: 10.1080/00387010.2017.1317271
[17] 李力, 欧阳春平. 基于超声相控阵的煤岩界面识别研究[J]. 中国矿业大学学报, 2017, 46(3): 485−492. LI Li, OUYANG Chunping. Research on coal-rock interface recognition based on ultrasonic phased array[J]. Journal of China University of Mining & Technology, 2017, 46(3): 485−492.
[18] ZHANG Yun, TONG Liang, LAI Xingping, et al. Research on coal-rock identification method and data augmentation algorithm of comprehensive working face based on FL-Segformer[J]. International Journal of Coal Science & Technology, 2024, 11: 48.
[19] SONG Yupu, LI Cailin, XIAO Shiyang, et al. A parallel Canny edge detection algorithm based on OpenCL acceleration[J]. PLOS One, 2024, 19(1): e0292345. DOI: 10.1371/journal.pone.0292345
[20] LIU C, JIANG J, JIANG J, et al. Automatic coal-rock recognition by laser-induced breakdown spectroscopy combined with an artificial neural network[J]. Spectroscopy, 2023, 38(2): 23−28, 30.
[21] 张斌, 苏学贵, 段振雄, 等. YOLOv2在煤岩智能识别与定位中的应用研究[J]. 采矿与岩层控制工程学报, 2020, 2(2): 026531. ZHANG Bin, SU Xuegui, DUAN Zhenxiong, et al. Application of YOLOv2 in intelligent recognition and location of coal and rock[J]. Journal of Mining and Strata Control Engineering, 2020, 2(2): 026531.
[22] 孙涛, 王宏伟, 闫志蕊. 基于卷积神经网络和语义分割混合模型的煤岩识别系统研究[J]. 矿业研究与开发, 2022, 42(11): 179−187. SUN Tao, WANG Hongwei, YAN Zhirui. Research on coal-rock recognition system based on convolutional neural network and semantic segmentation hybrid model[J]. Mining Research and Development, 2022, 42(11): 179−187.
[23] 伍云霞, 田一民. 基于字典学习的煤岩图像特征提取与识别方法[J]. 煤炭学报, 2016, 41(12): 3190−3196. WU Yunxia, TIAN Yimin. Method of coal-rock image feature extraction and recognition based on dictionary learning[J]. Journal of China Coal Society, 2016, 41(12): 3190−3196.
[24] 孙继平, 杨坤. 一种煤岩图像特征提取与识别方法[J]. 工矿自动化, 2017, 43(5): 1−5. SUN Jiping, YANG Kun. A coal-rock image feature extraction and recognition method[J]. Journal of Mine Automation, 2017, 43(5): 1−5.
[25] 华同兴, 邢存恩, 赵亮. 基于Faster R-CNN的煤岩识别与煤层定位测量[J]. 矿山机械, 2019, 47(8): 4−9. DOI: 10.3969/j.issn.1001-3954.2019.08.002 HUA Tongxing, XING Cunen, ZHAO Liang. Recognition of coal rock and positioning measurement of coal seam based on Faster R-CNN[J]. Mining & Processing Equipment, 2019, 47(8): 4−9. DOI: 10.3969/j.issn.1001-3954.2019.08.002
[26] 刘丽丽. 基于语义分割的煤岩界面预先感知识别研究[D]. 桂林: 桂林电子科技大学, 2023. LIU Lili. Research on pre-perception recognition of coal-rock interface based on semantic segmentation[D]. Guilin: Guilin University of Electronic Science and Technology, 2023.
[27] VIJAY B, ALEX K, ROBERTO C. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481−2495. DOI: 10.1109/TPAMI.2016.2644615
[28] 李欣宇. 针对煤矿井下复杂恶劣环境的煤岩图像识别方法研究[D]. 太原: 中北大学, 2023. LI Xinyu. Research on coal-rock image recognition method for complexand harsh environment in coal mine[D]. Taiyuan: North University of China, 2023.
[29] 孙传猛, 王燕平, 王冲, 等. 融合改进YOLOv3与三次样条插值的煤岩界面识别方法[J]. 采矿与岩层控制工程学报, 2022, 4(1): 016522. SUN Chuanmeng, WANG Yanping, WANG Chong, et al. Coal-rock interface identification method based on improved YOLOv3 and cubic spline interpolation[J]. Journal of Mining and Strata Control Engineering, 2022, 4(1): 016522.
[30] SI Lei, XIONG Xiangxiang, WANG Zhongbin, et al. A deep convolutional neural network model for intelligent discrimination between coal and rocks in coal mining face[J]. Mathematical Problems in Engineering, 2020, 2020: 2616510.
[31] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014[2024−06−15]. https://arxiv.org/abs/1411.4038v1.
[32] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[A]. International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer International Publishing[C]. 2015.
[33] GERTSVOLF D, HORVAT M, ASLAM D, et al. A U-net convolutional neural network deep learning model application for identification of energy loss in infrared thermographic images[J]. Applied Energy, 2024, 360: 122696. DOI: 10.1016/j.apenergy.2024.122696
[34] 张谢华, 张申, 方帅, 等. 煤矿智能视频监控中雾尘图像的清晰化研究[J]. 煤炭学报, 2014, 39(1): 198−204. ZHANG Xiehua, ZHANG Shen, FANG Shuai, et al. Clearing research on fog and dust images in coal mine intelligent video surveillance[J]. Journal of China Coal Society, 2014, 39(1): 198−204.
[35] 宫伟力, 张艳松, 安里千. 基于图像分割的煤岩孔隙多尺度分形特征[J]. 煤炭科学技术, 2008, 36(6): 28−32. GONG Weili, ZHANG Yansong, AN Liqian. Multiple-scale fractal features of coal and rock porosity based on image segmentation[J]. Coal Science and Technology, 2008, 36(6): 28−32.
[36] PARIS S, HASINOFF S W, KAUTZ J. Local Laplacian filters: edge-aware image processing with a Laplacian pyramid[J]. ACM Trans Graph, 2011, 30(4): 68.
[37] 康红普, 姜鹏飞, 刘畅. 煤巷智能快速掘进技术与装备的发展方向[J]. 采矿与岩层控制工程学报, 2023, 5(2): 023535. KANG Hongpu, JIANG Pengfei, LIU Chang. Development of intelligent rapid excavation technology and equipment for coal mine roadways[J]. Journal of Mining and Strata Control Engineering, 2023, 5(2): 023535.