数码图像处理

使用算法处理数字呈现的图像

数码图像处理指利用电脑和特定算法处理数码图像[1][2]图像处理主要包括以下步骤:首先,通过图像获取工具导入图像;接着,对图像进行分析和操作;最后,输出结果,结果可以是经过改变的图像或基于图像分析的报告。

作为数码信号处理的一个分支,数码图像处理相比于模拟图像处理英语Analog image processing具有几项优势:它可以使用更多样的算法处理图像资料,并有效避免处理过程中出现杂讯失真的问题。影响数码图像处理发展的主要三大因素是:电脑技术的进步;[3]数学领域(尤其是离散数学理论)的创新和发展;[4]以及对此技术在环境监测、农业、军事、工业和医疗等领域需求不断增加。[5]

历史

许多数码图像处理技术是在20世纪60年代由贝尔实验室喷射推进实验室麻省理工学院马里兰大学学院市分校等研究机构开发,并应用于卫星图像电传图像英语Wirephoto标准变换、医学物理视频电话字符识别及照片增强等领域。[6]然而,当时使用电脑进行处理的成本相当高。早期图像处理的主要目的是改善图像品质和提升视觉效果,其处理流程包括提高品质较低图像的质素,常用技术包括图像增强、修复、编码与压缩。

金属氧化物半导体(MOS)技术是现代感光元件的基础。[7]此技术源于1959年贝尔实验室穆罕默德·马丁·阿塔拉英语Mohamed M. Atalla道文·康英语Dawon Kahng所发明的金属氧化物半导体场效晶体管(MOSFET)。[8]这个发明推动了数码半导体图像感测器的发展,主要包括电荷耦合装置(CCD)以及后来出现的CMOS感测器。[7]

离散余弦变换(DCT)是数码图像压缩技术一个重要里程碑,其原理来自1972年由纳西尔·艾哈迈德首次提出的有损压缩技术[9] DCT压缩技术后来成为JPEG格式的基础。JPEG格式于1992年由联合照片专家组英语Joint Photographic Experts Group推出后,[10]迅速成为互联网上最广泛使用的图像档格式。[11]JPEG格式的高效压缩算法在数码图像和数码照片普及过程中发挥了关键作用。[12]据统计,2015年每天产生的JPEG图像达到数十亿张。[13]

到了1970年代,随着电脑价格的下降和专用设备的实用化,数码图像处理逐渐普及。随着通用电脑的价格下降和性能提升,数码图像处理从专用设备转向通用电脑。到了2000年代,硬件进一步发展,大多数图像处理已经成为数码图像处理。如今,数码图像处理不仅是最具多样性的方法,也是最便宜的方法之一。

系统与技术

数码图像处理技术是将图像信号变换为数字信号,然后使用电脑处理以达到某种图像修改的目的。[14]一个完整的数码图像处理系统包含多种元素,如图像获取、存储、图像处理和显示等。[15]感光元件用于捕捉图像感光元件会感应物体辐射的能量并将其变换为数码形式。例如,数码相机感应光强度并将其变换为数码图像形式。图像处理器用于对数码图像执行各种操作,这需要硬件和软件的结合。存储是图像处理系统中非常重要的一部分。图像或视频文件的大小通常很大,例如一个拥有1024 x 1024像素的8位图像需要1兆字节的存储空间。因此,图像处理系统需要大容量存储设备。

显示设备用于显示图像,这些设备可以是电脑萤幕手机屏幕投影机打印机等硬拷贝设备。一个通讯通道也是必须的,用于图像的传送和接收。数码图像处理的基本步骤包括:

  1. 图像撷取:包括使用数码相机或扫描仪捕捉图像,或将现有图像导入计算机。
  2. 图像增强:提高图像的视觉质量,如增加对比度、减少噪点和去除杂讯。
  3. 图像复原:去除图像中的劣化现象,如模糊、噪点和失真。
  4. 图像分割:将图像分割成区域或片段,每个区域对应于图像中的特定物体或特征。
  5. 图像表示和描述:以计算机能够分析和操作的方式表示图像,并以紧凑且有意义的方式描述图像的特征。
  6. 图像分析:使用算法和数学模型从图像中提取资讯,如识别物体、检测模式和量化特征。
  7. 图像合成和压缩:生成新图像或压缩现有图像以减少存储和传输需求。

数码图像

经数码图像处理的图像称为数码图像,它是用有限数字数值像素表示的二维图像。数码图像可以通过多种不同的输入装置和技术生成,例如数码相机、扫描器、坐标测量机、地震剖面仪和机载雷达等。此外,它们也可以从任意的非图像数据中合成,例如数学函数或三维几何模型,其中三维几何模型是电脑图形学的一个主要分支。图像的类型包括二值图像黑白图像8 位色彩格式16 位色彩格式等等。

图像撷取

图像撷取是将现实世界中的图像变换成电脑中的数码图像,这是图像处理的首要步骤,也是极为关键的一步。[16]所有后续的图像处理资料都源于这一步,因此,原始图像的品质决定了后续处理的上限。在图像撷取过程中实施严格的品质控制至关重要。以下是一些常用的图像撷取工具简介:

  • 数码相机:能扫描不同大小的原始物件。
  • 鼓式扫描器:将原材料放置于旋转鼓上,由高强度光源扫描以捕捉图像。鼓式扫描器提供最高的图像品质,但需要原材料具有一定的灵活性且大小有限,以便能够缠绕在鼓上。
  • 平板扫描器:原材料平放于玻璃上,由下方通过的CCD阵列捕捉图像。平板扫描器要求原材料大小不超过玻璃范围且必须平放且面朝下。
  • 幻灯片扫描器:通常只能扫描35毫米的透明物质。
  • 图像撷取卡:连接标准摄影机。任何能被摄影机拍摄的物体都可由图像撷取卡数码化,包括三维物体和运动影片,其限制在于视频图像的品质。

图像增强

图像增强是一种处理技术,旨在提升图像的视觉效果以符合特定的应用需求。在这个过程中,虽然有时会引入一些失真,但主要目的是强化图像中的有用资讯,从而改善整体的图像品质。这涉及有针对性地强调图像的全局或局部特征,使原本模糊的图像变得清晰,或突显某些感兴趣的特征。

此过程增大图像中不同物体特征之间的差异,抑制不重要的特征,从而提升图像质量、丰富讯息量,加强图像的解读和识别效果,满足特定分析的需求。图像增强主要分为两类:频率域法(frequency domain)和空间域法(spatial domain)。频率域法将图像视为二维信号,透过二维傅里叶变换进行信号增强,低通滤波去除杂讯,高通滤波则增强边缘等高频信号,使图像更为清晰。空间域法中,典型的算法包括局部求平均值法和中值滤波法,这些方法用于消除或减弱杂讯。

图像滤波

图像滤波(filtering)可以分为两大类:空间域与频率域。[17]在空间域中,滤波处理是直接对图像像素进行操作以达成处理目的;而在频率域中,则透过傅里叶变换小波变换等方法,将图像变换至频率域进行处理,处理完毕后再进行逆变换回空间域。

在空间域滤波中,使用的技术类似于数码信号处理中讨论的二维有限冲激响应(Finite Impulse Response, FIR)滤波器。透过调整除法的系数,可以改变系统的滤波效果,这种方法在图像处理中被称为“线性滤波”。相对地,非线性滤波,例如中值滤波,则需要将数值排序并取出中间值作为滤波器的输出结果,这种方法不会维持输入值的线性关系,因此称为“非线性滤波”。

以下是一些空间域滤波与频率域滤波的例子:[18]

滤波类型 卷积核 例子
原图    
空间域低通    
空间域高通    
快速傅里叶变换 Pseudo-code:

image = checkerboard

F = Fourier Transform of image

Show Image: log(1+Absolute Value(F))

 
傅里叶低通    
傅里叶高通    

图像复原

图像复原是一种数码图像处理技术,主要目的是根据一些预先定义的客观标准,改善或修复已经退化的图像。与图像增强不同,图像增强偏重于主观的视觉效果改善,而图像复原则尝试恢复图像的原始状态。图像复原过程通常涉及对退化图像和退化过程的理解。一般会使用数学模型来模拟图像退化的过程,包括退化函数和加成性杂讯。这些模型帮助我们推算出最接近原始图像的估计值。

此外,图像去雾是图像复原的一个特殊应用,主要用于改善因大气散射效应导致的视觉退化。透过估计大气光和透射率,可以有效地去除雾气,恢复清晰的图像视觉。图像复原的成功程度很大程度上取决于对退化过程的了解程度和所用技街的适宜性。

图像分割

图像分割是一种将数字图像划分成多个子区域(也称作超像素)的技术。这一过程旨在简化或变更图像的呈现方式,从而便于图像的理解和分析。[19]图像分割主要应用于识别图像中的物体和界限(如线条和曲线)。具体来说,这涉及到为图像中的每一个像素打上标签,使得拥有相同标签的像素显示出类似的视觉特性。

图像分割的结果通常表现为一系列图像子区域,这些区域合起来涵盖整张图像,或者是从图像中提取的轮廓线集合(如边缘检测所得)。在这些子区域中,每个像素都按照颜色、亮度或纹理等特性表现出相似性,而相邻的区域在这些特性上则表现出显著的差异。[19]

图像表示与描述

在数码图像处理中,通常会先利用图像处理技术从图像中提取出有用的物体或特征。如果直接使用物体的区块内容进行辨识或分析,将会非常困难且效率低下。因此,通常会先用简单的表示方式来表达这些撷取的物体,以简化处理过程并提高效能。之后,会用数值描述这些物体,最终再透过图形识别或电脑视觉系统进行分析;这种有效率的物体或特征表达方式,便是所谓的图像表示与描述。[20]

“表示”是用简单的图形替代复杂的图形,而“描述”则是用数值来细述这些简单图形,作为分析与辨识的基础。因此,图像的表示和描述是图形识别中不可或缺的前置处理步骤。

图像的表示方式主要分为四种:[20]

  • 外形表示(boundary representation)
  • 骨架表示(skeleton representation)
  • 图像列表示(row representation)
  • 区块表示(block representation)

其中,外形表示尤为重要,常被用于图像确认和辨识;其次是骨架表示,这在文字和指纹识别中非常常见。

图像的描述方式主要包括:[20]

  • 外形描述(boundary description),
  • 区域描述(region description)。

在进行图像识别时,图像与感光元件之间的距离和方向可能会有所不同,但不能因图像的摆放位置和方向的差异而误判为不同的图像。因此,物体的表示和描述应当与图像的大小、位置和方向无关,尤其是在进行三维图像辨识和分析时。具有这种与图像大小和方向无关的描述特性称为不变性特征(invariant feature)。

图像分析

图像分析是一个专注于理解和解释图像内容的领域,它与图像处理紧密相连但又有所不同。在图像分析中,主要目标是通过使用各种数学模型和图像处理技术来识别和解释图像中的结构和特征,这包括图像内容的分析与辨识。这使得图像分析在图型识别和电脑视觉等电脑科学领域中扮演了重要角色。

相较于图像处理主要集中于信号处理方面,如调整图像对比度、图像编码、去噪和滤波等,图像分析则更深入地挖掘图像中的有意义资讯。它不仅利用图像处理技术来改善图像品质,更进一步对图像进行解释和理解,从而提取出具有分析价值的资讯。这种分析通常涉及从图像中提取底层特征和上层结构,以支持更高层次的图像理解和决策制定。

图像压缩

图像压缩是将数据压缩技术应用于处理数码图像上的一种方法,目的是减少图像数据中的冗余资讯,以更高效的格式进行存储和传输。资料越一致,统计特性越集中,包括傅里叶变换域、直方图和特征值等方面的集中度。压缩的原则是利用资料的一致性,资料越一致,就越能够进行压缩。此外,也可以利用资料的规则性和可预测性来进行压缩。通常来说,如果能用较简洁的自然语言描述一个事物,那么该事物就越能被压缩。常用图像压缩技术

压缩技术分为两种:失真压缩和无损压缩。

数码图像处理的优点和缺点

数码图像处理具有多项优点。[14]首先,算法可以提高图像的视觉质量,使其更清晰、锐利和更具资讯性。此外,数码图像处理可以自动化许多基于图像的任务,如物体识别、模式检测和测量,这使得这些任务变得更加高效。再者,算法能比人类更快地处理图像,使得可以在短时间内分析大量数据。最后,数码图像处理算法能提供比人类更准确的结果,尤其是在需要精确测量或定量分析的任务中,这大大提高了工作的准确性。

然而,数码图像处理也存在一些缺点。[14][21]一些算法计算密集,需要大量计算资源,这导致高计算成本。此外,一些复杂或高级算法可能产生难以解释的结果,这增加了理解和应用的难度。算法的输出质量高度依赖于输入图像的质量,质量差的输入图像会导致质量差的输出。再者,有些算法在杂乱或光线不足的场景中难以识别物体,或无法识别变形或遮挡严重的物体。最后,许多算法的性能取决于用于开发算法的训练数据质量,质量差的训练数据会导致算法性能差。

数码图像处理的应用

数码图像处理技术现已应用于多个领域,以下是一些常见的应用。[15]

医学

许多医疗工具使用图像处理进行各种目的,如图像增强、图像压缩和物体识别等。X 光电脑断层扫描正电子发射断层扫描单光子发射电脑断层扫描核磁共振 光谱和超声波检查等都是基于图像处理的流行医疗设备。

农业

在农业领域,图像处理在检测杂草食物分级、收获控制和果实采摘等重要任务中发挥重要作用。通过使用高光谱成像、红外光谱等技术,可以准确地进行灌溉土地测绘、植被指数测定和树冠测量等工作。

气象

气象预报中,数码图像处理在降雨冰雹洪水预测中也起著关键作用。气象雷达广泛用于检测降雨云,并根据这些资讯预测即时降雨强度。

大众文化

在摄影和电影中,修图和拼接照片广泛用于报纸和杂志,以提高图片质量。在电影中,许多复杂的场景是通过基于图像和视频处理的工具创建的。图像处理方法还被用来预测即将上映的电影的成功,例如全球媒体和娱乐公司 Latent View 从 IMDB 中提取了 6000 多部电影海报及其元数据(类型、演员、制作、评级等),并使用图像分析预测电影的成功。机器学习 (ML) 算法和图像处理技术被用来分析电影海报中的色彩方案和物体。

在娱乐和社交媒体中,人脸检测和识别广泛应用于社交网络网站,用户上传照片后,系统会自动识别并建议标注人物姓名。

安全领域

生物识别验证系统提供了高水平的真实性和保密性。生物识别技术根据人的行为或特征进行识别。视频监控系统被用来分析人的行动和活动,以创建针对特定不良行为的警报。多家银行和其他部门使用这些基于图像处理的视频监控系统来检测不良行为。

相关条目

参考文献

  1. ^ Chakravorty, Pragnan. What is a Signal? [Lecture Notes]. IEEE Signal Processing Magazine. 2018, 35 (5): 175–177. Bibcode:2018ISPM...35e.175C. S2CID 52164353. doi:10.1109/MSP.2018.2832195. 
  2. ^ Gonzalez, Rafael. Digital image processing. New York, NY: Pearson. 2018. ISBN 978-0-13-335672-4. OCLC 966609831. 
  3. ^ Nagornov, Nikolay N.; Lyakhov, Pavel A.; Bergerman, Maxim V.; Kalita, Diana I. Modern Trends in Improving the Technical Characteristics of Devices and Systems for Digital Image Processing. IEEE Access. 2024, 12: 44659–44681 [2024-06-12]. ISSN 2169-3536. doi:10.1109/ACCESS.2024.3381493 . (原始内容存档于2024-07-20). 
  4. ^ Yamni, Mohamed; Daoui, Achraf; Abd El-Latif, Ahmed A. Efficient color image steganography based on new adapted chaotic dynamical system with discrete orthogonal moment transforms. Mathematics and Computers in Simulation. February 2024 [2024-06-12]. doi:10.1016/j.matcom.2024.01.023. (原始内容存档于2024-08-29) (英语). 
  5. ^ Hung, Che-Lun. Computational Algorithms on Medical Image Processing. Current Medical Imaging Formerly Current Medical Imaging Reviews. 2020-05-28, 16 (5): 467–468. doi:10.2174/157340561605200410144743 (英语). 
  6. ^ Azriel Rosenfeld, Picture Processing by Computer, New York: Academic Press, 1969
  7. ^ 7.0 7.1 Williams, J. B. The Electronics Revolution: Inventing the Future. Springer. 2017: 245–8 [2024-06-12]. ISBN 978-3-319-49088-5. (原始内容存档于2023-11-10). 
  8. ^ 1960: Metal Oxide Semiconductor (MOS) Transistor Demonstrated. The Silicon Engine (Computer History Museum). [31 August 2019]. (原始内容存档于3 October 2019). 
  9. ^ Ahmed, Nasir. How I Came Up With the Discrete Cosine Transform. Digital Signal Processing. January 1991, 1 (1): 4–5 [10 October 2019]. Bibcode:1991DSP.....1....4A. doi:10.1016/1051-2004(91)90086-Z. (原始内容存档于10 June 2016). 
  10. ^ T.81 – Digital compression and coding of continuous-tone still images – requirements and guidelines (PDF). CCITT. September 1992 [12 July 2019]. (原始内容存档 (PDF)于17 July 2019). 
  11. ^ Svetlik, Joe. The JPEG image format explained. BT Group. 31 May 2018 [5 August 2019]. (原始内容存档于5 August 2019). 
  12. ^ Caplan, Paul. What Is a JPEG? The Invisible Object You See Every Day . The Atlantic. 24 September 2013 [13 September 2019]. (原始内容存档于9 October 2019). 
  13. ^ Baraniuk, Chris. JPeg lockdown: Restriction options sought by committee. BBC News. 15 October 2015 [13 September 2019]. (原始内容存档于9 October 2019). 
  14. ^ 14.0 14.1 14.2 Luo, C., Hao, Y. & Tong, Z., 2018. Research on Digital Image Processing Technology and Its Application. Available at: https://doi.org/10.2991/meici-18.2018.116
  15. ^ 15.0 15.1 Tyagi, V., 2018. Understanding Digital Image Processing. Available at: https://doi.org/10.1201/9781315123905.
  16. ^ Bidgood WD Jr, Bray B, Brown N, Mori AR, Spackman KA, Golichowski A, Jones RH, Korman L, Dove B, Hildebrand L, Berg M. Image acquisition context: procedure description attributes for clinically relevant indexing and selective retrieval of biomedical images. J Am Med Inform Assoc. 1999 Jan-Feb;6(1):61-75. doi: 10.1136/jamia.1999.0060061. PMID 9925229; PMCID: PMC61345.
  17. ^ Zhang, M. Z.; Livingston, A. R.; Asari, V. K. A High Performance Architecture for Implementation of 2-D Convolution with Quadrant Symmetric Kernels. International Journal of Computers and Applications. 2008, 30 (4): 298–308. S2CID 57289814. doi:10.1080/1206212x.2008.11441909. 
  18. ^ Gonzalez, Rafael. Digital Image Processing, 3rd. Pearson Hall. 2008. ISBN 978-0-13-168728-8. 
  19. ^ 19.0 19.1 Linda G. Shapiro and George C. Stockman (2001):“Computer Vision”, pp 279-325, New Jersey, Prentice-Hall, ISBN 0-13-030796-3
  20. ^ 20.0 20.1 20.2 Shih, F.Y. (2010). Image Representation and Description. In Image Processing and Pattern Recognition, F.Y. Shih (Ed.). https://doi.org/10.1002/9780470590416.ch7
  21. ^ Deshmukh, R. & Vibhute, A., 2020. A review on digital image processing: applications, techniques and approaches in various fields. International Journal of Advanced Research, 8, pp.726-734. Available at: https://doi.org/10.21474/IJAR01/11152.

相关阅读

外部链接