数字图像基础 wu-kan

人类视觉

人的视觉是由眼睛中两部分光接收器(感觉细胞)组成的:锥状体杆状体。它们主要分布在视网膜的中间部分(「中间凹」),且对颜色高度敏感。

人眼结构图

每只眼睛锥状体数目 6-7 百万,每个锥状体都连接到自己的神经末端,对色彩敏感,称为白昼视觉或亮光视觉。

杆状体 7500 万到 15000 万,分布在视网膜表面,几个杆状体连接到一个神经末端,不如锥状体灵敏。给出图像的总体轮廓,没有彩色感觉,在低照明度下对图像较敏感。称为夜视觉或暗视觉。

人眼分辨细节的基本能力

每平方毫米 150,000 个像素,最高敏感区(中间凹)的接收阵列近似为 1.5mm×1.5mm,锥状体数量为 337000 个,相当于一个接收列阵不大于 5mm×5mm 的中等分辨率的电耦合元件(CCD: Charge-coupled device)的成像芯片。

具体数据:中心凹为视网膜中直径为 1.5mm 的圆形凹坑,或看为 1.5mm×1.5mm 的方形传感器阵列。锥状体密度大约为 150,000 个/mm2,数量约 337000 个。晶状体中心和视网膜沿视轴的距离伯焦距为 17mm。

成像原理

和光学透镜类似,但适应性强,是可自行调节的透镜。

看远处物体,肌肉会迫使晶状体变得扁平,晶状体的聚焦中心向前移动;物体离眼睛近时,肌肉使晶状体变厚,光心向视网膜成像区域靠近。

光心到视网膜的距离在 14mm 到 17mm 之间变化。物体由远至近,焦距由 17mm 向 14mm 变化,晶状体的折射能力也由弱变强。当物体远于超过 3 米时,折射能力最弱,这也是为什么远处物体的细节难以分辨的原因之一。

眼睛对亮度的适应和鉴别

  • 视觉系统能够适应的光强度级别很宽,从夜视域值到强闪光约有$10^10$个量级;
  • 但人的视觉绝对不可能同时在一个范围内工作,而是通过不断地改变其整个灵敏度来- 完成这一大变动的。与整个适应范围相比,能同时鉴别的光强度级别的总范围很小;
  • 背景照明保持恒定时,眼睛一般可辨别总共 12 到 24 级不同的强度。但这并不意味着仅用很小的强度值就可以表示一幅图。这是因为当眼睛扫视图像时,平均背景在变化,眼睛也会根据这种变化作调整,最后结果是眼睛能够辨别很宽的全部强度范围。

韦伯比

用于度量人的眼睛特定的适应级别对亮度变化的辨别力,由$\frac{\delta I_c}{I}$决定。

在低的照明级别,亮度辨别较差(杆状体起作用/微光视觉/暗视觉)。在背景照明增强时,亮度辨别得到明显的改善(锥状体起作用/白昼视觉/亮视觉),即对亮的东西敏感。

两个现象说明了感觉亮度不是简单的强度函数

第一个现象是视觉系统倾向于不同强度区域边界周围的「欠调」(Undershoot)和「过调」(Overshoot)

第二个现象称为同时对比现象。

视觉错觉

这是人类视觉系统的一个特性,尚未完全了解。

光和电磁波

牛顿 1666 年发现了这样一个现象:当一束白光通过一个玻璃棱镜时,出来的光就不再是白光,而是一端是紫色另一端是红色的连续色谱。

光波等同于电磁波,反过来也成立。可见光的范围:电磁波约 400~700nm(1nm=$10^{-9}$m)的范围。波谱一端是无线电波,波长比可见光长几十亿倍;另一端是伽马射线,波长比可见光短几百万倍。

电磁波可以用波长、频率或能量来描述。波长($\lambda$)和频率(ν)关系式为:

$\lambda=c/ν$

其中 c 是光速($2.998\times 10^8m/s$),电磁波谱的能量由下式给出

$E=hν$

h 是普克朗常数。能量与频率成正比。

电磁波可以看成是以波长$\lambda$传播的正弦波。

可见光是一种特殊的电磁波谱,只在电磁波谱中占很小的一部分。

眼睛从物体上感受到的颜色和物体发射光的性质有关。一个物体对所有可见光波长的反射是相对平衡的,则这个物体将呈现白色(灰色)。

没有颜色的光称为单色光伯无色光,其唯一属性是它的强度。因感知单色光的强度从黑色到灰色变化,最后到白色,灰度级通常用来表示单色光的强度。

图像数字化

通常有三个基本量用于描绘彩色光源的质量:发光强度(从光源流出的能量)、光通量(观察者从光源感受的能量,例如:远红外光有实际的能量,但光通量为零)和亮度(亮度是描绘光感受的主观描绘,它实际上不能测量,包含无色的强度的概念,并且也是描述彩色感觉的参数之一)。

图像的感知和获取

一般来说,各类图像都是由「照射」源和形成图像的「场景」元素对光能的反射或吸收相结合而产生的。

简单的图像模型

用二维函数的形式表示一幅单色图像。当一幅图像从物理过程产生时,它的值正比于物理源的辐射能量(如电磁波)。故一定有

$0<ƒ(x,y)<\infty$

另外,函数$f(x,y)$有两个分量来表征:

  1. 入射到观察场景的光源总量和
  2. 场景中物体反射光的总量。

称为入射分量和反射分量,并分别用$i(x,y)$和$r(x,y)$表示。两个函数合并形成图像函数$f(x,y)$:

$f(x,y)= i(x,y) r(x,y)$,其中$0<i(x,y)<\infty,0<r(x,y)<1$

单色图像上任一点的强度就是图像在那一点的灰度级。反射分量限制在 0(全吸射)和 1(全反收)之间。

图像的取样和量化

大多数传感器的输出是连续的电压波形(图像),为了产生一幅数字图像,需要把连续的感知数据转换为数字形式。这就包含了两种处理,取样(时空域)和量化(光色强度等)。

取样和量化的基本概念

图像数字化=取样+量化

数字图像表示

二维矩阵是表示数字图像的重要数学形式。一幅 M×N 的图像可以表示为:

$\left[ \begin{matrix}f(0,0),f(0,1),\dots f(0,n-1)\ f(1,0),f(1,1),\dots f(1,n-1)\ \dots\ f(m-1,0),f(m-1,1),\dots f(m-1,n-1)\ \end{matrix} \right]$

矩阵中的每个元素称为图像的「像素」。每个像素都有它自己的「位置」和「值」。

取样和量化的正规数学描述

令$Z$和$R$分别表示整数集合、实数集。取样过程可以看作是把$xy$平面分为网格,每一网格中心的坐标是笛卡儿坐标$Z^2$的一对元素,$Z^2$是所有元素对$(z_i, z_j)$的集合,$z_i$和$z_j$是$Z$中的整数。因此,如果$(x,y)$是$Z^2$中的元素,并且$f$是把灰度级值(即实数集$R$中的一个实数)赋予特定坐标,则$f(x,y)$就表示一幅数字图像。这个赋值过程就是前面描述的量化过程。

出于处理、存储和硬件的考虑,灰度级别通常是 2 的整数幂

$L=2^k$

L 是最大的灰度级别。这时,图像中所有像素的灰度是区间$[0,L-1]$的整数。一幅数字图像占用的空间:$M\times N\times k$。

空间和灰度的分辨率

空间分辨率

空间分辨率是图像中可分辨的最小细节。广泛使用的分辨率的意义是在每单位距离可以分辨的最小线对数目。

通常,空间分辨率即图像大小(最大行数$\times$每行最大像素数)。

灰度分辨率

一个像素值单位幅度上包含的灰度级数。灰度级数通常是 2 的整数幂级数,如:用一个 byte 存一个像素值,则 256 级。用一个 4bit 存一个像素值,则 16 级。

偏爱曲线

人眼对灰度分辨率的敏感程度和图像内容的复杂程度相关。

频谱混淆现象

香农(Shannon)采样定理:如果对一个函数以大于其最高频率的 2 倍采样,那么就能从取样完全恢复函数。如果函数被亚取样(undersampled),则混淆的现象将恶化取样的图像。混淆以附加频率分量的形式被引入取样后的函数。这些频率被称为混淆频率。

放大和缩小数字图像

  • 近邻插值
  • 双线性插值:$v(x’,y’)=ax’+by’+cx’y’+d$

像素间的一些基本关系

相邻像素

位于坐标$(x, y)$的像素 p 有四个水平和垂直的相邻像素,每个像素距$(x, y)$一个单位距离。坐标分别为: $(x-1, y), (x+1, y), (x, y-1), (x, y+1)$。此像素集合定义为像素 p 的 4 邻域,用$N_4(p)$表示。

另外,p 有 4 个对角相邻像素,坐标为:$(x-1, y-1) , (x+1, y-1), (x-1, y+1), (x+1, y+1)$用$N_D(p)$表示。

$N_D(p)$和$N_4(p)$一起称为 p 的 8 邻域,用$N_8(p)$表示

邻接性、连通性、区域和边界

邻接性有两个要素:一个是灰度值的邻接性(值域 V)、一个是物理位置的邻接性(邻域,如$N_4(p)$等)。例如,二值图象中,像素值都为 1(或都为 0)的像素才有可能被称为是邻接的。在一般图像中,可定义一个值域 V,V 是 0 到 255 中的一个子集。

一般我们考虑三种邻接性:

  1. 4 邻接:如果点 q 在$N_4(p)$中,并 q 和 p 具有 V 中的数值,则 q 和 p 是 4 邻接的;
  2. 8 邻接:如果点 q 在$N_8(p)$中,并 q 和 p 具有 V 中的数值,则 q 和 p 是 8 邻接的;
  3. m 邻接(混合邻接):满足下列条件的任一个,则具有 V 中数值的 p 和 q 是 m 连接的。
    1. q 在中$N_4(p)$
    2. q 在$N_D(p)$中,且集合$N_4(p)\bigcap N_4(q)$中没有 V 值的像素。

注意:混合邻接是 8 邻接的改进,为了消除 8 邻接的二义性。例如图 2.26。

两个集合邻接的概念:如果集合 S1 中的某些像素和 S2 中的某些像素邻接,则称这两个集合是邻接的。这里说的邻接指的是 4、8 或者 m 邻接。

连通性等概念暂时略过。

距离度量(见书本)

线性和非线性操作

$H(af+bg)=aH(f)+bH(g)$

其中,f、g 代表图像,H 代表操作。