您好,欢迎访问三七文档
视频监控及视频图像分析基础知识1视频监控的定义利用视频技术探测、监视设防区域,实时显示、记录现场图像,检索和显示历史图像的电子系统或网络系统视频监控系统是安全技术防范的一个子系统视频监控技术是安全防范技术的一部分它包括模拟视频监控系统、网络视频监控系统。1.1模拟视频监控图1模拟视频监控的基本结构1.2网络视频监控图2网络视频监控的基本结构技术:主要是视频编解码技术、嵌入式技术组成:硬盘录像机、摄像机、监视器等功能:监视(监听)、控制、录像、回放、对讲等线缆:视频电缆、485控制线主要应用:金融、楼宇、小区等1.2.1网络视频监控优点可通过网络组建低成本跨区域监控系统一机多路,使用大容量硬盘可长期存储数字信号长期保存信号不失真采用智能检索,检索与录像可同时进行循环录像方式,节约人力2基本概念图像(Image)像素(Pixel)分辨率(Resolution)水平:Width垂直:Height视频(Video)时间上连续的图像组成视频:Image→Video视频中的某一幅图像称为一帧(Frame)帧率(FrameRate)FPS→每秒的帧数码流(BitStream)将图像压缩后形成的数据码率(BitRate)bps/Bps→对码流进行量化码率类型:定码率(CBR)、变码率(VBR)码流类型:视频流、音频流、复合流2.1扫描方式隔行扫描(Interlaced)和逐行扫描(Progressive)都是在显示设备表示运动图像的方法,隔行扫描方式是每一帧被分割为两场画面交替显示,逐行扫描方式是将每帧的所有画面同时显示。通常的液晶电视显示画面的扫描方法都是从左到右从上到下,每秒钟扫描固定的帧数。2.1.1隔行扫描(Interlacing)隔行扫描就是每一帧被分割为两场,每一场包含了一帧中所有的奇数扫描行或者偶数扫描行,通常是先扫描奇数行得到第一场,然后扫描偶数行得到第二场。由于视觉暂留效应,人眼将会看到平滑的运动而不是闪动的半帧半帧的图像。但是这时会有几乎不会被注意到的闪烁出现,使得人眼容易疲劳。当屏幕的内容是横条纹时,这种闪烁特别容易被注意到。2.1.2逐行扫描(Progressive)逐行扫描每次显示整个扫描帧,如果逐行扫描的帧率和隔行扫描的场率相同,人眼将看到比隔行扫描更平滑的图像,相对于隔行扫描来说闪烁较小。2.2视频制式PAL(PhaseAlternatingLine):供电频率为50Hz、场频为每秒50场、帧频为每秒25帧、扫描线为625行图像彩色误差较小,与黑白电视的兼容也好中国、德国NTSC(NationalTelevisionSystemCommittee):供电频率为60Hz,场频为每秒60场,帧频为每秒30帧,扫描线为525行美国、日本SECAM(SequentielCouleurAMemoire):按顺序传送彩色与存储俄罗斯、法国、埃及2.3分辨率分辨率可以从显示分辨率与图像分辨率两个方向来分类。显示分辨率(屏幕分辨率)是屏幕图像的精密度,是指显示器所能显示的像素有多少。由于屏幕上的点、线和面都是由像素组成的,显示器可显示的像素越多,画面就越精细,同样的屏幕区域内能显示的信息也越多,所以分辨率是个非常重要的性能指标之一。可以把整个图像想象成是一个大型的棋盘,而分辨率的表示方式就是所有经线和纬线交叉点的数目。显示分辨率一定的情况下,显示屏越小图像越清晰,反之,显示屏大小固定时,显示分辨率越高图像越清晰。图像分辨率则是单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义分辨率制式WD1D14CIF1×12CIF1×1/2DCIF3/4×2/3CIF1/2×1/2QCIF1/4×1/4PAL960×576720×576704×576704×288528×384352×288176×144NTSC960×480720×480704×480704×240528×320352×240176×1202.3.1高清分辨率分辨率大于等于720p称为高清3数码监控的基础技术:编码和压缩一路4CIF分辨率的图像,进行A/D转换后未经压缩的数据量是(RGB):一帧:704×576×3字节=1216512字节(不包括文件头大小)一秒:1216512字节/帧×25帧/秒=30412800字节/秒=29MB/秒一小时:29MB/秒×3600秒/小时=101.9GB/小时一天:101.9GB/小时×24小时=2.4TB/天3.1压缩基本原理•安防监控中的视频数据有极强的相关性,有大量的冗余信息•冗余信息分为空域冗余信息和时域冗余信息•压缩技术就是将数据中的冗余信息去掉•压缩技术包括帧内压缩技术、帧间压缩技术和熵编码压缩技术3.2压缩标准监控中主要采用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等几种视频编码技术3.2.1H264概述3.2.2H264基本原理H264压缩技术主要采用了以下几种方法对视频数据进行压缩。包括:帧内预测压缩,解决的是空域数据冗余问题。帧间预测压缩(运动估计与补偿),解决的是时域数据冗余问题。整数离散余弦变换(DCT),将空间上的相关性变为频域上无关的数据然后进行量化。CABAC压缩。经过压缩后的帧分为:I帧,P帧和B帧:ChronologicalProgressionofITUandMPEGI帧:关键帧,采用帧内压缩技术。P帧:向前参考帧,在压缩时,只参考前面已经处理的帧。采用帧音压缩技术。B帧:双向参考帧,在压缩时,它即参考前而的帧,又参考它后面的帧。采用帧间压缩技术。除了I/P/B帧外,还有图像序列GOP。GOP:两个I帧之间是一个图像序列,在一个图像序列中只有一个I帧。如下图所示:下面我们就来详细描述一下H264压缩技术。3.2.3H264压缩技术H264的基本原理其实非常简单,下我们就简单的描述一下H264压缩数据的过程。通过摄像头采集到的视频帧(按每秒30帧算),被送到H264编码器的缓冲区中。编码器先要为每一幅图片划分宏块。以下面这张图为例:3.2.3.1划分宏块H264默认是使用16X16大小的区域作为一个宏块,也可以划分成8X8大小。划分好宏块后,计算宏块的象素值。以此类推,计算一幅图像中每个宏块的像素值,所有宏块都处理完后如下面的样子。3.2.3.2划分子块H264对比较平坦的图像使用16X16大小的宏块。但为了更高的压缩率,还可以在16X16的宏块上更划分出更小的子块。子块的大小可以是8X16、16X8、8X8、4X8、8X4、4X4非常的灵活。上幅图中,红框内的16X16宏块中大部分是蓝色背景,而三只鹰的部分图像被划在了该宏块内,为了更好的处理三只鹰的部分图像,H264就在16X16的宏块内又划分出了多个子块。这样再经过帧内压缩,可以得到更高效的数据。下图是分别使用mpeg-2和H264对上面宏块进行压缩后的结果。其中左半部分为MPEG-2子块划分后压缩的结果,右半部分为H264的子块划压缩后的结果,可以看出H264的划分方法更具优势。宏块划分好后,就可以对H264编码器缓存中的所有图片进行分组了。3.2.3.3帧分组对于视频数据主要有两类数据冗余,一类是时间上的数据冗余,另一类是空间上的数据冗余。其中时间上的数据冗余是最大的。下面我们就先来说说视频数据时间上的冗余问题。为什么说时间上的冗余是最大的呢?假设摄像头每秒抓取30帧,这30帧的数据大部分情况下都是相关联的。也有可能不止30帧的的数据,可能几十帧,上百帧的数据都是关联特别密切的。对于这些关联特别密切的帧,其实我们只需要保存一帧的数据,其它帧都可以通过这一帧再按某种规则预测出来,所以说视频数据在时间上的冗余是最多的。为了达到相关帧通过预测的方法来压缩数据,就需要将视频帧进行分组。那么如何判定某些帧关系密切,可以划为一组呢?我们来看一下例子,下面是捕获的一组运动的台球的视频帧,台球从右上角滚到了左下角。H264编码器会按顺序,每次取出两幅相邻的帧进行宏块比较,计算两帧的相似度。如下图:通过宏块扫描与宏块搜索可以发现这两个帧的关联度是非常高的。进而发现这一组帧的关联度都是非常高的。因此,上面这几帧就可以划分为一组。其算法是:在相邻几幅图像画面中,一般有差别的像素只有10%以内的点,亮度差值变化不超过2%,而色度差值的变化只有1%以内,我们认为这样的图可以分到一组。在这样一组帧中,经过编码后,我们只保留第一帖的完整数据,其它帧都通过参考上一帧计算出来。我们称第一帧为IDR/I帧,其它帧我们称为P/B帧,这样编码后的数据帧组我们称为GOP。3.2.3.4运动估计与补偿在H264编码器中将帧分组后,就要计算帧组内物体的运动矢量了。还以上面运动的台球视频帧为例,我们来看一下它是如何计算运动矢量的。H264编码器首先按顺序从缓冲区头部取出两帧视频数据,然后进行宏块扫描。当发现其中一幅图片中有物体时,就在另一幅图的邻近位置(搜索窗口中)进行搜索。如果此时在另一幅图中找到该物体,那么就可以计算出物体的运动矢量了。下面这幅图就是搜索后的台球移动的位置。通过上图中台球位置相差,就可以计算出台图运行的方向和距离。H264依次把每一帧中球移动的距离和方向都记录下来就成了下面的样子。运动矢量计算出来后,将相同部分(也就是绿色部分)减去,就得到了补偿数据。我们最终只需要将补偿数据进行压缩保存,以后在解码时就可以恢复原图了。压缩补偿后的数据只需要记录很少的一点数据。如下所示:我们把运动矢量与补偿称为帧间压缩技术,它解决的是视频帧在时间上的数据冗余。除了帧间压缩,帧内也要进行数据压缩,帧内数据压缩解决的是空间上的数据冗余。下面我们就来介绍一下帧内压缩技术。3.2.3.5帧内预测人眼对图象都有一个识别度,对低频的亮度很敏感,对高频的亮度不太敏感。所以基于一些研究,可以将一幅图像中人眼不敏感的数据去除掉。这样就提出了帧内预测技术。H264的帧内压缩与JPEG很相似。一幅图像被划分好宏块后,对每个宏块可以进行9种模式的预测。找出与原图最接近的一种预测模式。下面这幅图是对整幅图中的每个宏块进行预测的过程。帧内预测后的图像与原始图像的对比如下:然后,将原始图像与帧内预测后的图像相减得残差值。再将我们之前得到的预测模式信息一起保存起来,这样我们就可以在解码时恢复原图了。效果如下:经过帧内与帧间的压缩后,虽然数据有大幅减少,但还有优化的空间。3.2.3.6对残差数据做DCT可以将残差数据做整数离散余弦变换,去掉数据的相关性,进一步压缩数据。如下图所示,左侧为原数据的宏块,右侧为计算出的残差数据的宏块。将残差数据宏块数字化后如下图所示:将残差数据宏块进行DCT转换。去掉相关联的数据后,我们可以看出数据被进一步压缩了。做完DCT后,还不够,还要进行CABAC进行无损压缩。3.2.3.7CABAC上面的帧内压缩是属于有损压缩技术。也就是说图像被压缩后,无法完全复原。而CABAC属于无损压缩技术。无损压缩技术大家最熟悉的可能就是哈夫曼编码了,给高频的词一个短码,给低频词一个长码从而达到数据压缩的目的。MPEG-2中使用的VLC就是这种算法,我们以A-Z作为例子,A属于高频数据,Z属于低频数据。看看它是如何做的。CABAC也是给高频数据短码,给低频数据长码。同时还会根据上下文相关性进行压缩,这种方式又比VLC高效很多。其效果如下:现在将A-Z换成视频帧,它就成了下面的样子。从上面这张图中明显可以看出采用CACBA的无损压缩方案要比VLC高效的多3.3H.265与H264区别H.265标准全称为高效视频编码(HighEfficiencyVideoCoding),也即HEVC,相较于之前的H.264标准有了相当大的改善。H.265又何以让如此多的行业都青睐有加?故事开始还是需要从H.264说起,H.264也称作MPEG-4AVC(AdvancedVideoCodec,高级视频编码),因其可以得到比其他编码标准更高的视频质量和更低的码率,而得到了人们的认可,被广泛应用
本文标题:视频监控图像处理
链接地址:https://www.777doc.com/doc-3913289 .html