最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

解析车牌识别技术

[复制链接]
发表于 2019-5-15 15:12:12 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
前言

智能交通系统(ITS)是当今世界交通管理体系发展的必然趋势,而作为智能交通系统中的重要组成部分之一的车牌自动识别技术,目前已被广泛应用于城市道路监控、高速公路收费与监控、小区与停车场出入口管理、公安治安卡口等场合,成为研究的热点。

车牌识别技术是利用计算机等辅助设备进行的自动汽车牌照自动识别就是在装备了数字摄像设备和计算机信息管理系统等软硬件平台的基础之上,通过对车辆图像的采集,采用先进的图像处理、模式识别和人工智能技术,在图像中找到车牌的位置,提取出组成车牌号码的全部字符图像,再识别出车牌中的文字、字母和数字,最后给出车牌的真实号码。

车牌识别系统主要解决的问题

车牌识别技术可以实现自动登记车辆“身份”,已经被广泛应用于各种交通场合,对“平安城市”的建设有着至关重要的作。具体概括如下:

电子警察系统

电子警察系统作为一种抓拍车辆违章违规行为的智能系统,大大降低了交通管理压力。随着计算机技术和CCD技术的发展,目前电子警察系统已经是一种纯视频触发的高清抓拍系统,可以完成多项违章抓拍功能,其中包括违章闯红灯抓拍功能、违章不按车道行驶抓拍功能、违章压线变道抓拍功能、违章压双黄线抓拍功能和违章逆行抓拍功能等内容。电子警察自动抓拍违章车辆以及识别车牌号码,将违法行为记录在案。电子警察系统大大节省警力,规范城市交通秩序,缓解交通拥堵,减少交通事故。

卡口系统

卡口系统对监控路段的机动车辆进行全天候的图像抓拍,自动识别车牌号码,通过公安专网与卡口系统控制中心的黑名单数据库进行比对,当发现结果相符合时,系统自动向相关人员发出警报信号。卡口系统记录的图像还可以清楚地分辨司乘人员(前排)的面部特征。

高速公路收费系统

高速公路收费系统已经基本实现自动化,当车辆在高速公路收费入口站时,系统进行车牌识别,保存车牌信息,当车辆在高速公路收费出口站时,系统再次进行车牌识别,与进入车辆的车牌信息进行比对,只有进站和出站的车牌一致方可让车辆通行,自动收费系统可以有效地提高车辆的通行效率,并且可以有效地检测出逃费车辆。

高速公路超速抓拍系统

系统抓拍超速的车辆和识别车牌号码,并通过公安专网将超速车辆的车牌号码传达到各出口处罚点,各出口处罚点用车牌识别设备对出口车辆进行车牌识别,与己经收到的超速车辆的号码对比,一旦号码相同立即报警。

停车场收费系统

当车辆进入停车场时,收费系统抓拍车辆图片进行车牌识别,保存车辆信息和进入时间,并语音播报空闲车位,当车辆离 停车场时,收费系统自动识别出该车的车牌号码和保存车辆离 的时间,并在数据库中查找该车的进入时间,计算出该车的停车费周,车主交完费用后,收费系统自动放行。停车场收费系统不但实现自动化管理,节约人力,而且还保证了车辆停放的安全性。

公交车报站系统

当公交车进入和离开公交站台时,报站系统对其进行车牌识别,然后与数据库中的车牌进行比对,语音报读车牌结果和公交线路。综上所述,车牌识别技术的广泛应用使道路安全、交通通畅、车辆安全、环境保护得到了全面的保障。

车牌识别系统的基本工作原理及流程

车牌识别就是依次实现汽车图像的车牌定位、车牌字符分割、车牌字符识别算法的过程。车牌定位就是把车牌图像从含有汽车和背景的图像中提取出来,其输入的是原始的汽车图像,输出是车牌图像。车牌的字符分割就是通过对车牌图像的预处理、几何校正等把字符从车牌图像中分割出来,分成一个个独立的字符,其输入是车牌定位后得到的车牌图像,输出是经过预处理、几何校正等后得到的一组单个的字符图像,并得到各个字符的点阵数据。字符识别是依次从单个字符点阵数据中提取字符特征数据,并给出识别结果。

车牌识别系统采用高度模块化的设计,将车牌识别过程的各个环节各自作为一个独立的模块。

1、车辆检测跟踪模块

车辆检测跟踪模块主要对视频流进行分析,判断其中车辆的位置,对图像中的车辆进行跟踪,并在车辆位置最佳时刻,记录该车辆的特写图片,由于加入了跟踪模块,系统能够很好地克服各种外界的干扰,使得到更加合理的识别结果,可以检测无牌车辆并输出结果。

2、车牌定位模块

车牌定位模块是一个十分重要的环节,是后续环节的基础,其准确性对整体系统性能的影响巨大。车牌系统完全摒弃了以往的算法思路,实现了一种完全基于学习的多种特征融合的车牌定位新算法,适用于各种复杂的背景环境和不同的摄像角度。

3、车牌矫正及精定位模块

由于受拍摄条件的限制,图像中的车牌总不可避免存在一定的倾斜,需要一个矫正和精定位环节来进一步提高车牌图像的质量,为切分和识别模块做准备。使用精心设计的快速图像处理滤波器,不仅计算快速,而且利用的是车牌的整体信息,避免了局部噪声带来的影响。使用该算法的另一个优点就是通过对多个中间结果的分析还可以对车牌进行精定位,进一步减少非车牌区域的影响。

4、车牌切分模块

车牌系统的车牌切分模块利用了车牌文字的灰度、颜色、边缘分布等各种特征,能较好地抑制车牌周围其他噪声的影响,并能容忍一定倾斜角度的车牌。这一算法有利于类似移动式稽查这种车牌图像噪声较大的应用。

5、车牌识别模块

在车牌识别系统中,通常采用多种识别模型相结合的方法来进行车牌识别,构建一种层次化的字符识别流程,可有效地提高字符识别的正确率。另一方面,在字符识别之前,使用计算机智能算法对字符图像进行前期处理,不仅可尽可能保留图像信息,而且可提高图像质量,提高相似字符的可区分性,保证字符识别的可靠性。

6、车牌识别结果决策模块

识别结果决策模块,具体地说,决策模块利用一个车牌经过视野的过程留下的历史记录,对识别结果进行智能化的决策。其通过计算观测帧数、识别结果稳定性、轨迹稳定性、速度稳定性、平均可信度和相似度等度量值得到该车牌的综合可信度评价,从而决定是继续跟踪该车牌,还是输出识别结果,或是拒绝该结果。这种方法综合利用了所有帧的信息,减少了以往基于单幅图像的识别算法所带来的偶然性错误,大大提高了系统的识别率和识别结果的正确性和可靠性。

7、车牌跟踪模块

车牌跟踪模块记录下车辆行驶过程中每一帧中该车车牌的位置以及外观、识别结果、可信度等各种历史信息。由于车牌跟踪模块采用了具有一定容错能力的运动模型和更新模型,使得那些被短时间遮挡或瞬间模糊的车牌仍能被正确地跟踪和预测,最终只输出一个识别结果。

车牌识别系统的关键技术及算法

车牌定位

车牌定位是车牌识别系统的基础,其定位的准确与否直接影响到车牌的字符分割和识别效果,是影响整个车牌识别系统识别率的主要因素。车牌定位,即运用数字图像处理、模式识别、人工智能等技术对采集到的汽车图像进行处理,从而准确地获得图像中的车牌区域,其输入是原始的汽车图像,输出是车牌图像。在现实车牌识别系统中,由于光照不均匀、背景的复杂性等原因,造成准确定位出车牌的难度较大。目前,根据车牌的特征,常见的车牌定位方法有基于车牌颜色特征信息的定位法、基于车牌区域频谱特征的定位法、基于分类器的车牌定位法、基于车牌边缘特征的车牌定位法等,这些方法各有所长。值得注意的是,车牌定位算法的分类并不是唯一的,区别算法类别的标准并不十分明确。车牌定位算法的方法多种多样、各有所长,但存在着计算量大或者定位准确率不高等问题。

车牌定位是车牌识别的关键步骤,为了能在复杂背景和不均匀光照条件下快速准确定位车牌位置,基于改进IsotroPIc Sobel边缘检测算子的车牌定位算法,由此来解决其存在的问题,该算法通过改进Isotropic Sobel边缘检测算子,实现了车牌图像在水平、垂直以及对角线方向上的纹理特征提取,然后采用Otsu算法阈值化,再对阈值化后的二值图像做数学形态学运算得到车牌的候选区域,最后利用车牌特征去除伪车牌。

算法流程图:

对输入的彩色图像进行灰度化处理:

彩色图像包含更多的信息,但是直接对彩色图像进行处理的话,系统的执行速度将会降低,储存空间也会变大。彩色图像的灰度化是图像处理的一种基本的方法,在模式识别领域得到广泛的运用,合理的灰度化将对图像信息的提取和后续处理有很大的帮助,能够节省储存空间,加快处理速度。

边缘检测的方法是考察图像的像素在某个领域内灰度的变化情况,标识数字图像中亮度变化明显的点。图像的边缘检测能够大幅度地减少数据量,并且剔除不相关的信息,保存图像重要的结构属性。在实际的图像分割中,往往只用到一阶和二阶导数进行边缘检测,虽然,在原理上,可以用更高阶的导数,但是,因为噪声的影响,在纯粹二阶导数操作中就会出现对噪声敏感的现象,三阶以上的导数信息往往失去了应用价值。此外,二阶导数还可以说明灰度突变的类型,在有些情况下,如灰度变化均匀的图像,只利用一阶导数可能找不到边界,此时二阶导数就能提供很有用的信息。为了减少二阶导数对噪声敏感,解决的办法是先对图像进行平滑滤波,消除部分噪声,再进行边缘检测。

Sobel边缘检测算子

Sobel算子是根据邻域像素与当前像素的距离有不同的权值,强调中心像素的对边邻域像素对其的影响,而消弱4个对角近邻像素的作用。图像中每一个像素点都用这两个核做卷积,一个卷积核对图像垂直边缘响应最大,而另一个则对水平边缘响应最大,取两个卷积之中的最大值作为该像素点的输出值。这样使得Sobel算子对噪声有抑制作用,因此不会出现很多孤立的边缘像素点,不过Sobel算子对边缘的定位不是很精确,图像的边界宽度往往不止一个像素,不适合对边缘定位准确性要求很高的应用。与Prewitt相似,Sobel算子也是通过像素平均来实现的,也有一定的抗噪能力。值得注意的是它们都不是各向同性的,所以它们检测出来的边缘并不是完全连通的,会有一定程度的断开。

Sobel边缘检测还有另外一种形式,称为Isotropic  Sobel算子,该算子具有各向同性的特征,利用加权平均算子,权值反比于邻点与中心点的距离,当沿着不同方向检测边缘时梯度幅度一致,因此它的位置加权系数更准确,在检测不同方向上的边缘时梯度的幅度一致,但速度较一般Sobel算子要慢一些。 用于边缘检测的算子很多,常用的还有Laplacian边缘检测算子、canny边缘检测算子等。

对边缘检测后的灰度图进行二值化处理

车牌图像经过边缘检测之后,车牌上的字符及边缘信息会突出出来,同时,其他非字符和非车牌边框的边缘纹理特征也突出了出来,为了减少噪声的影响,需要对车牌图像进行二值化处理,二值化是对图像进行阈值化的一种类型。根据阈值的选取情况,二值化的方法可分为全局阈值法、动态阈值法和局部阈值法,我们用最大类间方差法(也称Otsu算法)进行阈值化,来剔除一些梯度值较小的像素,减少需要查找的车牌范围,二值化处理后车牌图像的像素值为0或者255。

对车牌图像进行图像形态学操作

由于成像系统、传输介质、记录设备等的不完善,以及天气情况的变化等,车牌图像往往受到多种噪声的污染。在经过二值化处理的车牌图像上,会出现一些与要研究的对象(即车牌区域)不相关的孤立点或者像素块,扰乱图像的研究对象,影响对车牌区域的提取、分割等操作。于是要构造一种有效抑制噪声的滤波器来有效的去除目标和背景中的噪声,同时,能够很好地保护车牌区域的形状、大小及特定的车牌纹理特征。 图像滤波,即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制,是图像处理中消除噪声的不可或缺的操作,其处理的结果的好坏将直接影响到对后续图像进行处理和分析的有效性和可靠性。常用的滤波操作方法有很多种,如中值滤波、形态学滤波、高斯滤波、双边滤波等。我们在这里介绍一下中值滤波和本文所研究系统采用的形态学滤波。

车牌识别系统也是基于形态学操作的重要性质,对经过二值化后的车牌图像首先进行闭运算操作,使得车牌的字符区域连接起来,然后对车牌图像进行开运算操作,来消除车牌上的噪声,得到明亮的车牌区域从候选区域中去除伪车牌并定位出车牌区域 通过对车牌图像的数学形态学运算,图像中剩下少部分的连通区域,即为车牌的候选区域,这些区域包括车牌区域和伪车牌区域,为此,需要从图像中去除伪车牌并定位出车牌。

首先,经过对白色连通区域的轮廓进行处理得到矩形边界框,再根据我国车牌长宽比的特征,即44:14,考虑到在车牌定位过程中,由于对车牌的数学形态学操作会减少车牌信息以及拍摄所得到的车牌图像中车牌的倾斜等原因,取长宽阈值为2.0-6.0,这样就剔除了长宽比不符合条件的候选区域。 然后,由于对车牌图像的数学形态学操作会减少车牌信息,所以定位出的车牌区域会有可能小于车牌的实际区域,这时,我们就需要对定位出的车牌区域进行放大,在这里,我们对车牌区域进行放大的比例是120%,即对已经定位出的车牌候选区域的边界进行扩大。车牌由七个字符组成,在对候选区域对应的灰度化图像进行边缘检测二值化之后,正常情况下,车牌水平投影区域内每行的边缘点数要大于14,根据经验值,我们取15。在车牌水平投影区域内会出现较大的波峰,该波峰认为是车牌的上下边界,根据实验结果,要求波峰的始点和终点之差大于20小于120,从而得到车牌的上下边界。最后,根据二值化车牌图像中车牌的纹理特征信息,即在车牌区域范围内会出现明显的梯度变化特征,来确定车牌区域,最终定位出车牌。在二值化图像中,255代表车牌图像中的边缘信息,0代表非边缘信息。为了更加精确的定位出车牌和剔除伪车牌,需要对定位出的车牌区域进行筛选,有两个筛选条件,一个是在二值化图像中灰度值为255和灰度值为0的像素比大于0.25,另一个是二值化图像中灰度的跳变次数范围是[5,30]。

通过对车牌图像的灰度处理、边缘检测、二值化、图像形态学操作定位出车牌的候选区域,接着利用车牌的特征,如长宽比、像素比等,从候选区域中定位出车牌

车牌字符分割

车牌字符分割算法的研究

车牌字符分割就是对已经定位出的车牌区域内的车牌字符进行分割,从而获取车牌上的字符,是车牌字符识别的前提和准备。车牌字符分割的好坏,直接影响到识别效果的好坏。在车牌识别系统中,由于车牌污染、背景复杂、光照不均匀、车牌发生倾斜、边框影响以及间隔符等因素影响,很难找到一种普遍使用的分割方法。

车牌区域定位完成之后,由于提取出来的车牌区域内的车牌图像可能存在倾斜现象,因此,在车牌字符分割之前,需要判断车牌图像是否倾斜。在车牌倾斜的情况下,需要准确的求得车牌的倾斜角度,然后把发生倾斜的车牌校正过来,为接下来的字符分割创造条件,这就是车牌的倾斜校正。常用的倾斜校正算法包括Radon变换、Hough变换。在车牌的倾斜校正完成之后,需要去除车牌的上下、左右边界,然后才能把车牌上的字符一个个的分割出来,得到一个单独的车牌字符图像,为后续的车牌字符识别做好准备,即车牌的字符分割。

在车牌的字符分割中,有许多因素会对车牌的字符分割造成影响,例如图像的噪声、车牌的定位不精确、字符的粘连、汉字的不连通等。本文介绍一种改进的水平投影算法,该算法能够克服这些因素造成的不良影响,并且能够准确的分割出车牌,为后续的精确识别做好准备。为了分割出相互独立的字符,对经过Otsu算法阈值化的灰度图进行分割。

以下以改进的水平投影算法为例进行介绍:

1、去除车牌字符的上下边界以外的区域。对灰度化的车牌图像从下向上逐行扫描,并统计出每行的像素值为 255 的像素的个数,当像素值为 255 的像素个数大于 7时(车牌有 7 个字符),认为寻找到车牌字符的下边界。同理,从上向下逐行扫描,能够寻找到车牌字符的上边界。去除车牌字符上下边界以外的区域。去除车牌字符上下边界之后,设车牌的高度为 height,宽度为 wIDTh。

2、对车牌图像从左向右逐列扫描,并记录统计出每列的像素值为 255 的像素的个数,并将结果保存在一位数组 count[  width+ 1]中,其中 count[ i  ]用于存储第i列像素值为 255 的像素的个数。

3、我国车牌的第一个字符是汉字,根据汉字的特征,设置两个阈值去分割车牌的第一个汉字字符,两个阈值分别为 threshold 1, threshold 2。从左向右扫描灰度化的车牌图像,第一个大于阈值 threshold 1的列,即为汉字的开始位置,记为S然后,继续扫描车牌图像,直到寻找到小于阈值 threshold 1的列,记为H ,比较这两列的宽度H-S与 threshold 2的大小,如果H-S < threshold2,则继续扫描图像直到找到与S列相差的宽度大于 threshold 2且满足像素值为255的像素的个数小于阈值的列。所寻找到的列就是车牌的汉字字符的结束列。在分割不连通的汉字的时候,这种改进的方法起到作用是显著的。

4、剩下的字符都是英文字母和阿拉伯数字,这些字符不存在不连通性的问题,于是,仅仅利用第一个阈值 threshold 1就可以分割出车牌剩下的字符。

5、当车牌的第一个汉字字符被分割出来之后,继续扫描车牌区域图像,当某一列的像素值为 255 的像素个数开始大于阈值 threshold 1时,这一列就是车牌字符开始的位置,当某一列的像素值为 255 的像素的个数开始小于阈值 threshold 1时,这一列就是车牌字符的结束位置。如此重复的下去,直到把车牌剩下的字符也分割出来为止。

对提取的车牌字符特征进行归一化操作

从输入的车牌图像中提取的车牌的尺寸不一样,这就造成了分割出来的车牌字符的尺寸不一样,为了更好的识别车牌字符,在本文中,对车牌字符进行归一化处理,使得经过不同图像获得车牌车牌在字符分割后,所获取的车牌单个字符图像大小都为5×10像素。

车牌字符识别算法的研究

车牌的字符识别是车牌识别系统能够最终实现的关键因素,是对经过车牌定位和车牌字符分割后的一个个车牌字符进行识别。车牌识别系统中的字符识别与其它的字符识别相比,有其自身的特点,主要由以下方面的不同:车牌识别系统中字符的字量少,包括汉字、英文字母、数字,并且字型统一,相对于普通的汉字识别难度相对较低;从系统的实用性角度来看,作为一个实时的系统,它要求有较高的识别速度,这就决定了字符识别算法计算必须足够高效;同时,它还要求有很高的识别率,并且最低限度减少错误识别率。

基于模板匹配的字符识别算法

匹配就是将不同传感器或同一传感器在不同时间、不同成像条件下对同一景象获取的两幅或者多幅图像在空间上对准,或者根据已有模式在另一幅图像中寻找相应的模式。在遥感图像的处理时需要把不同波段传感器对同一事物的多光谱图像按照像点对应套准,然后根据像点的性质进行分类。如果在不同时间内对同一地面拍摄的两幅图像,经套准后找到其中特征有了变化的像点,就可以用来分析图中那些部分发生了变化,而利用放在一定间距处的两只传感器对同一物体拍摄得到两幅图片,找出对应点后可计算出物体离开摄像机的距离,即深度信息。一般的图像匹配技术是利用已知的模板和某种算法对识别图像进行匹配计算,从而判断图像中是否含有该模板的信息和获取坐标,车牌的字符匹配就是这种匹配技术。即车牌字符匹配的实现方式是计算输入模式的车牌字符与样本之间的相似性,取相似性最大的样本为输入样本所属的类别。该算法的步骤是,首先建立模板库,将待识别的字符进行二值化并将其归一化操作,然后作为输入模式的字符与所有的模板进行匹配,最后选择最佳匹配作为结果。算法的优点是,在预处理后的图片质量较高、车牌的倾斜程度较低、车牌的纹理特征清晰的情况下,这种算法识别的准确率较高,但是对字符细节信息的忽略导致了在识别相似字符时容易出错。在实际的车牌识别系统中获取的车牌,往往由于拍摄角度的不同、车牌污损、光照不均等原因造成了二值化后的字符会出现形变、粘连、断裂、细节模糊等情况,这些原因导致了模板匹配在车牌字符识别上的局限性,尤其是停车场车牌识别系统。停车场环境下,车牌图像受到光照的影响较大,为了提高字符识别的准确率,通常在停车场车牌识别系统中很少采用这种算法。

基于特征统计匹配算法

基于特征统计匹配算法主要原理是先提取输入模式的车牌字符统计特征,再按照一定的规则与所确定的决策函数进行分类判断。字符的统计特征包括像素块数、字符的轮廓数、轮廓的形状等。像素块是指二值化图像中上、下、左、右四个方向上相互连通的所有白素区域所组成的一个连通区域的像素块,由此可知,汉字字符的像素块大于1,英文字母和数字的像素块数是1。汉字的识别是将字符点矩阵看作是一个整体,根据每个字符的笔画特征点不同,将字符分解为横、竖、撇、捺等一种或几种的组合,经过统计从而得到相应的特征,接着再与字符库中的特征集进行匹配,获取输入字符的识别结果。在实际的应用中,由于外部原因造成了字符常常会出现模糊、倾斜等情况,导致了部分字符无法正确识别。

基于分类器的字符识别

基于分类器的字符识别,是目前应用较广的一种车牌识别方式。其主要的思路是通过对样本数据的学习,达到自动将数据分类到已知类型。分类器其实是一种数学模型,目前有很多类型的分类器,包括Bayes分类器、决策树模型、BP神经网络分类器等。 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,NAIve Bayes、TAN、BAN、GBN就是其中较典型、研究较深入的贝叶斯分类器。

贝叶斯分类器的特点是:

1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;

2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;

3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。 贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。但在实际中,它并不能直接利用,它需要知道证据的确切分布概率,而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。 决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。  决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。  

决策树模型

决策树模型的特点:

1)  与其他分类算法相比,决策树模型有以下优点:可理解性强、速度快。

2)  一般决策树模型缺点是:缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。为了处理大数据集或连续量的种种改进算法(离散化、取样)  不仅增加了分类算法的额外开销,而且降低了分类的准确性,对连续性的字段比较难预测,当类别太多时,错误可能就会增加的比较快,对有时间顺序的数据,需要很多预处理的工作。在有噪声的情况下,完全拟合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。另外,决策树技术也可能产生子树复制和碎片问题。 当然,不同分类器对于一些分类有着不同的分类精度,因此我们在处理一些实际问题时,可以根据实际问题的分类属性和各种分类器的特点来选择相应的分类器,从而得到较高的分类精度。


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-28 18:40

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表