数位影像处理

使用算法处理数字呈现的图像

数位影像处理指利用电脑和特定算法处理数位影像[1][2]影像处理主要包括以下步骤:首先,通过影像获取工具导入影像;接著,对影像进行分析和操作;最后,输出结果,结果可以是经过改变的影像或基于影像分析的报告。

作为数位信号处理的一个分支,数位影像处理相比于类比影像处理英语Analog image processing具有几项优势:它可以使用更多样的演算法处理影像资料,并有效避免处理过程中出现杂讯失真的问题。影响数位影像处理发展的主要三大因素是:电脑技术的进步;[3]数学领域(尤其是离散数学理论)的创新和发展;[4]以及对此技术在环境监测、农业、军事、工业和医疗等领域需求不断增加。[5]

历史

许多数位影像处理技术是在20世纪60年代由贝尔实验室喷射推进实验室麻省理工学院马里兰大学学院市分校等研究机构开发,并应用于卫星影像电传影像英语Wirephoto标准转换、医学物理视讯电话字符识别及照片增强等领域。[6]然而,当时使用电脑进行处理的成本相当高。早期影像处理的主要目的是改善影像品质和提升视觉效果,其处理流程包括提高品质较低影像的质素,常用技术包括影像增强、修复、编码与压缩。

金属氧化物半导体(MOS)技术是现代感光元件的基础。[7]此技术源于1959年贝尔实验室穆罕默德·马丁·阿塔拉英语Mohamed M. Atalla道文·康英语Dawon Kahng所发明的金属氧化物半导体场效电晶体(MOSFET)。[8]这个发明推动了数位半导体影像感测器的发展,主要包括电荷耦合装置(CCD)以及后来出现的CMOS感测器。[7]

离散馀弦变换(DCT)是数位影像压缩技术一个重要里程碑,其原理来自1972年由纳西尔·艾哈迈德首次提出的有损压缩技术[9] DCT压缩技术后来成为JPEG格式的基础。JPEG格式于1992年由联合照片专家组英语Joint Photographic Experts Group推出后,[10]迅速成为互联网上最广泛使用的影像档格式。[11]JPEG格式的高效压缩演算法在数位影像和数位照片普及过程中发挥了关键作用。[12]据统计,2015年每天产生的JPEG图像达到数十亿张。[13]

到了1970年代,随著电脑价格的下降和专用设备的实用化,数位影像处理逐渐普及。随著通用电脑的价格下降和性能提升,数位影像处理从专用设备转向通用电脑。到了2000年代,硬体进一步发展,大多数影像处理已经成为数位影像处理。如今,数位影像处理不仅是最具多样性的方法,也是最便宜的方法之一。

系统与技术

数位影像处理技术是将影像信号转换为数字信号,然后使用电脑处理以达到某种影像修改的目的。[14]一个完整的数位影像处理系统包含多种元素,如影像获取、存储、影像处理和显示等。[15]感光元件用于捕捉影像感光元件会感应物体辐射的能量并将其转换为数位形式。例如,数位相机感应光强度并将其转换为数位影像形式。图像处理器用于对数位影像执行各种操作,这需要硬体和软体的结合。存储是影像处理系统中非常重要的一部分。影像或视频文件的大小通常很大,例如一个拥有1024 x 1024像素的8位影像需要1兆字节的存储空间。因此,影像处理系统需要大容量存储设备。

显示设备用于显示影像,这些设备可以是电脑萤幕手机屏幕投影机打印机等硬拷贝设备。一个通信通道也是必须的,用于影像的传送和接收。数位影像处理的基本步骤包括:

  1. 影像撷取:包括使用数位相机或扫描仪捕捉影像,或将现有影像导入计算机。
  2. 影像增强:提高影像的视觉质量,如增加对比度、减少噪点和去除杂讯。
  3. 影像复原:去除影像中的劣化现象,如模糊、噪点和失真。
  4. 影像分割:将影像分割成区域或片段,每个区域对应于影像中的特定物体或特征。
  5. 影像表示和描述:以计算机能够分析和操作的方式表示影像,并以紧凑且有意义的方式描述影像的特征。
  6. 影像分析:使用算法和数学模型从影像中提取信息,如识别物体、检测模式和量化特征。
  7. 影像合成和压缩:生成新影像或压缩现有影像以减少存储和传输需求。

数码图像

经数位影像处理的图像称为数码图像,它是用有限数字数值像素表示的二维图像。数码图像可以通过多种不同的输入装置和技术生成,例如数码相机、扫描器、坐标测量机、地震剖面仪和机载雷达等。此外,它们也可以从任意的非图像数据中合成,例如数学函数或三维几何模型,其中三维几何模型是电脑图形学的一个主要分支。影像的类型包括二值影像黑白影像8 位色彩格式16 位色彩格式等等。

影像撷取

影像撷取是将现实世界中的影像转换成电脑中的数位影像,这是影像处理的首要步骤,也是极为关键的一步。[16]所有后续的影像处理资料都源于这一步,因此,原始影像的品质决定了后续处理的上限。在影像撷取过程中实施严格的品质控制至关重要。以下是一些常用的影像撷取工具简介:

  • 数位相机:能扫描不同大小的原始物件。
  • 鼓式扫描器:将原材料放置于旋转鼓上,由高强度光源扫描以捕捉影像。鼓式扫描器提供最高的影像品质,但需要原材料具有一定的灵活性且大小有限,以便能够缠绕在鼓上。
  • 平板扫描器:原材料平放于玻璃上,由下方通过的CCD阵列捕捉影像。平板扫描器要求原材料大小不超过玻璃范围且必须平放且面朝下。
  • 幻灯片扫描器:通常只能扫描35毫米的透明物质。
  • 影像撷取卡:连接标准摄影机。任何能被摄影机拍摄的物体都可由影像撷取卡数位化,包括三维物体和运动影片,其限制在于视频影像的品质。

影像增强

影像增强是一种处理技术,旨在提升图像的视觉效果以符合特定的应用需求。在这个过程中,虽然有时会引入一些失真,但主要目的是强化图像中的有用信息,从而改善整体的图像品质。这涉及有针对性地强调图像的全局或局部特征,使原本模糊的图像变得清晰,或突显某些感兴趣的特征。

此过程增大图像中不同物体特征之间的差异,抑制不重要的特征,从而提升图像质量、丰富讯息量,加强图像的解读和识别效果,满足特定分析的需求。图像增强主要分为两类:频率域法(frequency domain)和空间域法(spatial domain)。频率域法将图像视为二维信号,透过二维傅立叶变换进行信号增强,低通滤波去除杂讯,高通滤波则增强边缘等高频讯号,使图像更为清晰。空间域法中,典型的算法包括局部求平均值法和中值滤波法,这些方法用于消除或减弱杂讯。

影像滤波

影像滤波(filtering)可以分为两大类:空间域与频率域。[17]在空间域中,滤波处理是直接对影像像素进行操作以达成处理目的;而在频率域中,则透过傅立叶转换小波转换等方法,将影像转换至频率域进行处理,处理完毕后再进行逆转换回空间域。

在空间域滤波中,使用的技术类似于数位讯号处理中讨论的二维有限脉冲响应(Finite Impulse Response, FIR)滤波器。透过调整除法的系数,可以改变系统的滤波效果,这种方法在影像处理中被称为“线性滤波”。相对地,非线性滤波,例如中值滤波,则需要将数值排序并取出中间值作为滤波器的输出结果,这种方法不会维持输入值的线性关系,因此称为“非线性滤波”。

以下是一些空间域滤波与频率域滤波的例子:[18]

滤波类型 卷积核 例子
原图    
空间域低通    
空间域高通    
快速傅立叶变换 Pseudo-code:

image = checkerboard

F = Fourier Transform of image

Show Image: log(1+Absolute Value(F))

 
傅立叶低通    
傅立叶高通    

影像复原

影像复原是一种数位影像处理技术,主要目的是根据一些预先定义的客观标准,改善或修复已经退化的图像。与影像增强不同,影像增强偏重于主观的视觉效果改善,而影像复原则尝试恢复图像的原始状态。影像复原过程通常涉及对退化影像和退化过程的理解。一般会使用数学模型来模拟影像退化的过程,包括退化函数和加成性杂讯。这些模型帮助我们推算出最接近原始影像的估计值。

此外,影像去雾是影像复原的一个特殊应用,主要用于改善因大气散射效应导致的视觉退化。透过估计大气光和透射率,可以有效地去除雾气,恢复清晰的影像视觉。影像复原的成功程度很大程度上取决于对退化过程的了解程度和所用技街的适宜性。

影像分割

影像分割是一种将数字影像划分成多个子区域(也称作超像素)的技术。这一过程旨在简化或变更影像的呈现方式,从而便于影像的理解和分析。[19]影像分割主要应用于识别影像中的物体和界限(如线条和曲线)。具体来说,这涉及到为影像中的每一个像素打上标签,使得拥有相同标签的像素显示出类似的视觉特性。

影像分割的结果通常表现为一系列影像子区域,这些区域合起来涵盖整张影像,或者是从影像中提取的轮廓线集合(如边缘检测所得)。在这些子区域中,每个像素都按照颜色、亮度或纹理等特性表现出相似性,而相邻的区域在这些特性上则表现出显著的差异。[19]

影像表示与描述

在数位影像处理中,通常会先利用影像处理技术从影像中提取出有用的物体或特征。如果直接使用物体的区块内容进行辨识或分析,将会非常困难且效率低下。因此,通常会先用简单的表示方式来表达这些撷取的物体,以简化处理过程并提高效能。之后,会用数值描述这些物体,最终再透过图形识别或电脑视觉系统进行分析;这种有效率的物体或特征表达方式,便是所谓的影像表示与描述。[20]

“表示”是用简单的图形替代复杂的图形,而“描述”则是用数值来细述这些简单图形,作为分析与辨识的基础。因此,影像的表示和描述是图形识别中不可或缺的前置处理步骤。

影像的表示方式主要分为四种:[20]

  • 外形表示(boundary representation)
  • 骨架表示(skeleton representation)
  • 影像列表示(row representation)
  • 区块表示(block representation)

其中,外形表示尤为重要,常被用于影像确认和辨识;其次是骨架表示,这在文字和指纹识别中非常常见。

影像的描述方式主要包括:[20]

  • 外形描述(boundary description),
  • 区域描述(region description)。

在进行影像识别时,影像与感光元件之间的距离和方向可能会有所不同,但不能因影像的摆放位置和方向的差异而误判为不同的影像。因此,物体的表示和描述应当与影像的大小、位置和方向无关,尤其是在进行三维影像辨识和分析时。具有这种与影像大小和方向无关的描述特性称为不变性特征(invariant feature)。

影像分析

影像分析是一个专注于理解和解释影像内容的领域,它与影像处理紧密相连但又有所不同。在影像分析中,主要目标是通过使用各种数学模型和影像处理技术来识别和解释影像中的结构和特征,这包括影像内容的分析与辨识。这使得影像分析在图型识别和电脑视觉等电脑科学领域中扮演了重要角色。

相较于影像处理主要集中于讯号处理方面,如调整影像对比度、影像编码、去噪和滤波等,影像分析则更深入地挖掘影像中的有意义信息。它不仅利用影像处理技术来改善影像品质,更进一步对影像进行解释和理解,从而提取出具有分析价值的信息。这种分析通常涉及从影像中提取底层特征和上层结构,以支持更高层次的影像理解和决策制定。

影像压缩

影像压缩是将数据压缩技术应用于处理数码图像上的一种方法,目的是减少图像数据中的冗馀信息,以更高效的格式进行存储和传输。资料越一致,统计特性越集中,包括傅利叶变换域、直方图和特征值等方面的集中度。压缩的原则是利用资料的一致性,资料越一致,就越能够进行压缩。此外,也可以利用资料的规则性和可预测性来进行压缩。通常来说,如果能用较简洁的自然语言描述一个事物,那么该事物就越能被压缩。常用影像压缩技术

压缩技术分为两种:失真压缩和无损压缩。

数位影像处理的优点和缺点

数位影像处理具有多项优点。[14]首先,算法可以提高影像的视觉质量,使其更清晰、锐利和更具信息性。此外,数位影像处理可以自动化许多基于影像的任务,如物体识别、模式检测和测量,这使得这些任务变得更加高效。再者,算法能比人类更快地处理影像,使得可以在短时间内分析大量数据。最后,数位影像处理算法能提供比人类更准确的结果,尤其是在需要精确测量或定量分析的任务中,这大大提高了工作的准确性。

然而,数位影像处理也存在一些缺点。[14][21]一些算法计算密集,需要大量计算资源,这导致高计算成本。此外,一些复杂或高级算法可能产生难以解释的结果,这增加了理解和应用的难度。算法的输出质量高度依赖于输入影像的质量,质量差的输入影像会导致质量差的输出。再者,有些算法在杂乱或光线不足的场景中难以识别物体,或无法识别变形或遮挡严重的物体。最后,许多算法的性能取决于用于开发算法的训练数据质量,质量差的训练数据会导致算法性能差。

数位影像处理的应用

数位影像处理技术现已应用于多个领域,以下是一些常见的应用。[15]

医学

许多医疗工具使用影像处理进行各种目的,如影像增强、影像压缩和物体识别等。X 光电脑断层扫描正电子发射断层扫描单光子发射电脑断层扫描核磁共振 光谱和超声波检查等都是基于影像处理的流行医疗设备。

农业

在农业领域,影像处理在检测杂草食物分级、收获控制和果实采摘等重要任务中发挥重要作用。通过使用高光谱成像、红外光谱等技术,可以准确地进行灌溉土地测绘、植被指数测定和树冠测量等工作。

气象

气象预报中,数位影像处理在降雨冰雹洪水预测中也起著关键作用。气象雷达广泛用于检测降雨云,并根据这些信息预测即时降雨强度。

大众文化

在摄影和电影中,修图和拼接照片广泛用于报纸和杂志,以提高图片质量。在电影中,许多复杂的场景是通过基于影像和视频处理的工具创建的。影像处理方法还被用来预测即将上映的电影的成功,例如全球媒体和娱乐公司 Latent View 从 IMDB 中提取了 6000 多部电影海报及其元数据(类型、演员、制作、评级等),并使用影像分析预测电影的成功。机器学习 (ML) 算法和影像处理技术被用来分析电影海报中的色彩方案和物体。

在娱乐和社交媒体中,人脸检测和识别广泛应用于社交网络网站,用户上传照片后,系统会自动识别并建议标注人物姓名。

安全领域

生物识别验证系统提供了高水平的真实性和保密性。生物识别技术根据人的行为或特征进行识别。视频监控系统被用来分析人的行动和活动,以创建针对特定不良行为的警报。多家银行和其他部门使用这些基于影像处理的视频监控系统来检测不良行为。

相关条目

参考文献

  1. ^ Chakravorty, Pragnan. What is a Signal? [Lecture Notes]. IEEE Signal Processing Magazine. 2018, 35 (5): 175–177. Bibcode:2018ISPM...35e.175C. S2CID 52164353. doi:10.1109/MSP.2018.2832195. 
  2. ^ Gonzalez, Rafael. Digital image processing. New York, NY: Pearson. 2018. ISBN 978-0-13-335672-4. OCLC 966609831. 
  3. ^ Nagornov, Nikolay N.; Lyakhov, Pavel A.; Bergerman, Maxim V.; Kalita, Diana I. Modern Trends in Improving the Technical Characteristics of Devices and Systems for Digital Image Processing. IEEE Access. 2024, 12: 44659–44681 [2024-06-12]. ISSN 2169-3536. doi:10.1109/ACCESS.2024.3381493 . (原始内容存档于2024-07-20). 
  4. ^ Yamni, Mohamed; Daoui, Achraf; Abd El-Latif, Ahmed A. Efficient color image steganography based on new adapted chaotic dynamical system with discrete orthogonal moment transforms. Mathematics and Computers in Simulation. February 2024 [2024-06-12]. doi:10.1016/j.matcom.2024.01.023. (原始内容存档于2024-08-29) (英语). 
  5. ^ Hung, Che-Lun. Computational Algorithms on Medical Image Processing. Current Medical Imaging Formerly Current Medical Imaging Reviews. 2020-05-28, 16 (5): 467–468. doi:10.2174/157340561605200410144743 (英语). 
  6. ^ Azriel Rosenfeld, Picture Processing by Computer, New York: Academic Press, 1969
  7. ^ 7.0 7.1 Williams, J. B. The Electronics Revolution: Inventing the Future. Springer. 2017: 245–8 [2024-06-12]. ISBN 978-3-319-49088-5. (原始内容存档于2023-11-10). 
  8. ^ 1960: Metal Oxide Semiconductor (MOS) Transistor Demonstrated. The Silicon Engine (Computer History Museum). [31 August 2019]. (原始内容存档于3 October 2019). 
  9. ^ Ahmed, Nasir. How I Came Up With the Discrete Cosine Transform. Digital Signal Processing. January 1991, 1 (1): 4–5 [10 October 2019]. Bibcode:1991DSP.....1....4A. doi:10.1016/1051-2004(91)90086-Z. (原始内容存档于10 June 2016). 
  10. ^ T.81 – Digital compression and coding of continuous-tone still images – requirements and guidelines (PDF). CCITT. September 1992 [12 July 2019]. (原始内容存档 (PDF)于17 July 2019). 
  11. ^ Svetlik, Joe. The JPEG image format explained. BT Group. 31 May 2018 [5 August 2019]. (原始内容存档于5 August 2019). 
  12. ^ Caplan, Paul. What Is a JPEG? The Invisible Object You See Every Day . The Atlantic. 24 September 2013 [13 September 2019]. (原始内容存档于9 October 2019). 
  13. ^ Baraniuk, Chris. JPeg lockdown: Restriction options sought by committee. BBC News. 15 October 2015 [13 September 2019]. (原始内容存档于9 October 2019). 
  14. ^ 14.0 14.1 14.2 Luo, C., Hao, Y. & Tong, Z., 2018. Research on Digital Image Processing Technology and Its Application. Available at: https://doi.org/10.2991/meici-18.2018.116
  15. ^ 15.0 15.1 Tyagi, V., 2018. Understanding Digital Image Processing. Available at: https://doi.org/10.1201/9781315123905.
  16. ^ Bidgood WD Jr, Bray B, Brown N, Mori AR, Spackman KA, Golichowski A, Jones RH, Korman L, Dove B, Hildebrand L, Berg M. Image acquisition context: procedure description attributes for clinically relevant indexing and selective retrieval of biomedical images. J Am Med Inform Assoc. 1999 Jan-Feb;6(1):61-75. doi: 10.1136/jamia.1999.0060061. PMID 9925229; PMCID: PMC61345.
  17. ^ Zhang, M. Z.; Livingston, A. R.; Asari, V. K. A High Performance Architecture for Implementation of 2-D Convolution with Quadrant Symmetric Kernels. International Journal of Computers and Applications. 2008, 30 (4): 298–308. S2CID 57289814. doi:10.1080/1206212x.2008.11441909. 
  18. ^ Gonzalez, Rafael. Digital Image Processing, 3rd. Pearson Hall. 2008. ISBN 978-0-13-168728-8. 
  19. ^ 19.0 19.1 Linda G. Shapiro and George C. Stockman (2001):“Computer Vision”, pp 279-325, New Jersey, Prentice-Hall, ISBN 0-13-030796-3
  20. ^ 20.0 20.1 20.2 Shih, F.Y. (2010). Image Representation and Description. In Image Processing and Pattern Recognition, F.Y. Shih (Ed.). https://doi.org/10.1002/9780470590416.ch7
  21. ^ Deshmukh, R. & Vibhute, A., 2020. A review on digital image processing: applications, techniques and approaches in various fields. International Journal of Advanced Research, 8, pp.726-734. Available at: https://doi.org/10.21474/IJAR01/11152.

相关阅读

外部链接