数字图像基础

post on 29 Aug 2019 about 3824words require 13min
CC BY 4.0 （除特别声明或转载文章外）
如果这些文字帮助到你，可以请我喝一杯咖啡~

人类视觉

人的视觉是由眼睛中两部分光接收器（感觉细胞）组成的：锥状体和杆状体。它们主要分布在视网膜的中间部分（「中间凹」），且对颜色高度敏感。

人眼结构图

每只眼睛锥状体数目 6-7 百万，每个锥状体都连接到自己的神经末端，对色彩敏感，称为白昼视觉或亮光视觉。

杆状体 7500 万到 15000 万，分布在视网膜表面，几个杆状体连接到一个神经末端，不如锥状体灵敏。给出图像的总体轮廓，没有彩色感觉，在低照明度下对图像较敏感。称为夜视觉或暗视觉。

人眼分辨细节的基本能力

每平方毫米 150，000 个像素，最高敏感区(中间凹)的接收阵列近似为 1.5mm×1.5mm，锥状体数量为 337000 个，相当于一个接收列阵不大于 5mm×5mm 的中等分辨率的电耦合元件（CCD: Charge-coupled device）的成像芯片。

具体数据：中心凹为视网膜中直径为 1.5mm 的圆形凹坑，或看为 1.5mm×1.5mm 的方形传感器阵列。锥状体密度大约为 150,000 个/mm2，数量约 337000 个。晶状体中心和视网膜沿视轴的距离伯焦距为 17mm。

成像原理

和光学透镜类似，但适应性强，是可自行调节的透镜。

看远处物体，肌肉会迫使晶状体变得扁平，晶状体的聚焦中心向前移动；物体离眼睛近时，肌肉使晶状体变厚，光心向视网膜成像区域靠近。

光心到视网膜的距离在 14mm 到 17mm 之间变化。物体由远至近，焦距由 17mm 向 14mm 变化，晶状体的折射能力也由弱变强。当物体远于超过 3 米时，折射能力最弱，这也是为什么远处物体的细节难以分辨的原因之一。

眼睛对亮度的适应和鉴别

视觉系统能够适应的光强度级别很宽，从夜视域值到强闪光约有$10^10$个量级；
但人的视觉绝对不可能同时在一个范围内工作，而是通过不断地改变其整个灵敏度来- 完成这一大变动的。与整个适应范围相比，能同时鉴别的光强度级别的总范围很小；
背景照明保持恒定时，眼睛一般可辨别总共 12 到 24 级不同的强度。但这并不意味着仅用很小的强度值就可以表示一幅图。这是因为当眼睛扫视图像时，平均背景在变化，眼睛也会根据这种变化作调整，最后结果是眼睛能够辨别很宽的全部强度范围。

韦伯比

用于度量人的眼睛特定的适应级别对亮度变化的辨别力，由$\frac{\delta I_c}{I}$决定。

在低的照明级别，亮度辨别较差（杆状体起作用/微光视觉/暗视觉）。在背景照明增强时，亮度辨别得到明显的改善（锥状体起作用/白昼视觉/亮视觉），即对亮的东西敏感。

两个现象说明了感觉亮度不是简单的强度函数

第一个现象是视觉系统倾向于不同强度区域边界周围的「欠调」（Undershoot）和「过调」（Overshoot）

第二个现象称为同时对比现象。

视觉错觉

这是人类视觉系统的一个特性，尚未完全了解。

光和电磁波

牛顿 1666 年发现了这样一个现象：当一束白光通过一个玻璃棱镜时，出来的光就不再是白光，而是一端是紫色另一端是红色的连续色谱。

光波等同于电磁波，反过来也成立。可见光的范围：电磁波约 400~700nm（1nm=$10^{-9}$m）的范围。波谱一端是无线电波，波长比可见光长几十亿倍；另一端是伽马射线，波长比可见光短几百万倍。

电磁波可以用波长、频率或能量来描述。波长($\lambda$)和频率(ν)关系式为：

$\lambda=c/ν$

其中 c 是光速（$2.998\times 10^8m/s$），电磁波谱的能量由下式给出

$E=hν$

h 是普克朗常数。能量与频率成正比。

电磁波可以看成是以波长$\lambda$传播的正弦波。

可见光是一种特殊的电磁波谱，只在电磁波谱中占很小的一部分。

眼睛从物体上感受到的颜色和物体发射光的性质有关。一个物体对所有可见光波长的反射是相对平衡的，则这个物体将呈现白色（灰色）。

没有颜色的光称为单色光伯无色光，其唯一属性是它的强度。因感知单色光的强度从黑色到灰色变化，最后到白色，灰度级通常用来表示单色光的强度。

图像数字化

通常有三个基本量用于描绘彩色光源的质量：发光强度（从光源流出的能量）、光通量（观察者从光源感受的能量，例如：远红外光有实际的能量，但光通量为零）和亮度（亮度是描绘光感受的主观描绘，它实际上不能测量，包含无色的强度的概念，并且也是描述彩色感觉的参数之一）。

图像的感知和获取

一般来说，各类图像都是由「照射」源和形成图像的「场景」元素对光能的反射或吸收相结合而产生的。

简单的图像模型

用二维函数的形式表示一幅单色图像。当一幅图像从物理过程产生时，它的值正比于物理源的辐射能量（如电磁波）。故一定有

$0<ƒ(x,y)<\infty$

另外，函数$f(x,y)$有两个分量来表征：

入射到观察场景的光源总量和
场景中物体反射光的总量。

称为入射分量和反射分量，并分别用$i(x,y)$和$r(x,y)$表示。两个函数合并形成图像函数$f(x,y)$：

$f(x,y)= i(x,y) r(x,y)$，其中$0<i(x,y)<\infty,0<r(x,y)<1$

单色图像上任一点的强度就是图像在那一点的灰度级。反射分量限制在 0（全吸射）和 1（全反收）之间。

图像的取样和量化

大多数传感器的输出是连续的电压波形（图像），为了产生一幅数字图像，需要把连续的感知数据转换为数字形式。这就包含了两种处理，取样（时空域）和量化（光色强度等）。

取样和量化的基本概念

图像数字化=取样+量化

数字图像表示

二维矩阵是表示数字图像的重要数学形式。一幅 M×N 的图像可以表示为：

$\left[ \begin{matrix}f(0,0),f(0,1),\dots f(0,n-1)\ f(1,0),f(1,1),\dots f(1,n-1)\ \dots\ f(m-1,0),f(m-1,1),\dots f(m-1,n-1)\ \end{matrix} \right]$

矩阵中的每个元素称为图像的「像素」。每个像素都有它自己的「位置」和「值」。

取样和量化的正规数学描述

令$Z$和$R$分别表示整数集合、实数集。取样过程可以看作是把$xy$平面分为网格，每一网格中心的坐标是笛卡儿坐标$Z^2$的一对元素，$Z^2$是所有元素对$(z_i, z_j)$的集合，$z_i$和$z_j$是$Z$中的整数。因此，如果$(x,y)$是$Z^2$中的元素，并且$f$是把灰度级值（即实数集$R$中的一个实数）赋予特定坐标，则$f(x,y)$就表示一幅数字图像。这个赋值过程就是前面描述的量化过程。

出于处理、存储和硬件的考虑，灰度级别通常是 2 的整数幂

$L=2^k$

L 是最大的灰度级别。这时，图像中所有像素的灰度是区间$[0,L-1]$的整数。一幅数字图像占用的空间：$M\times N\times k$。

空间和灰度的分辨率

空间分辨率

空间分辨率是图像中可分辨的最小细节。广泛使用的分辨率的意义是在每单位距离可以分辨的最小线对数目。

通常，空间分辨率即图像大小（最大行数$\times$每行最大像素数）。

灰度分辨率

一个像素值单位幅度上包含的灰度级数。灰度级数通常是 2 的整数幂级数，如：用一个 byte 存一个像素值，则 256 级。用一个 4bit 存一个像素值，则 16 级。

偏爱曲线

人眼对灰度分辨率的敏感程度和图像内容的复杂程度相关。

频谱混淆现象

香农（Shannon）采样定理：如果对一个函数以大于其最高频率的 2 倍采样，那么就能从取样完全恢复函数。如果函数被亚取样（undersampled），则混淆的现象将恶化取样的图像。混淆以附加频率分量的形式被引入取样后的函数。这些频率被称为混淆频率。

放大和缩小数字图像

近邻插值
双线性插值：$v(x’,y’)=ax’+by’+cx’y’+d$

像素间的一些基本关系

相邻像素

位于坐标$(x, y)$的像素 p 有四个水平和垂直的相邻像素，每个像素距$(x, y)$一个单位距离。坐标分别为： $(x-1, y), (x+1, y), (x, y-1), (x, y+1)$。此像素集合定义为像素 p 的 4 邻域，用$N_4(p)$表示。

另外，p 有 4 个对角相邻像素，坐标为：$(x-1, y-1) , (x+1, y-1), (x-1, y+1), (x+1, y+1)$用$N_D(p)$表示。

$N_D(p)$和$N_4(p)$一起称为 p 的 8 邻域，用$N_8(p)$表示

邻接性、连通性、区域和边界

邻接性有两个要素：一个是灰度值的邻接性（值域 V）、一个是物理位置的邻接性（邻域，如$N_4(p)$等）。例如，二值图象中，像素值都为 1（或都为 0）的像素才有可能被称为是邻接的。在一般图像中，可定义一个值域 V，V 是 0 到 255 中的一个子集。

一般我们考虑三种邻接性：

4 邻接：如果点 q 在$N_4(p)$中，并 q 和 p 具有 V 中的数值，则 q 和 p 是 4 邻接的；
8 邻接：如果点 q 在$N_8(p)$中，并 q 和 p 具有 V 中的数值，则 q 和 p 是 8 邻接的；
m 邻接（混合邻接）：满足下列条件的任一个，则具有 V 中数值的 p 和 q 是 m 连接的。
1. q 在中$N_4(p)$
2. q 在$N_D(p)$中，且集合$N_4(p)\bigcap N_4(q)$中没有 V 值的像素。

注意：混合邻接是 8 邻接的改进，为了消除 8 邻接的二义性。例如图 2.26。

两个集合邻接的概念：如果集合 S1 中的某些像素和 S2 中的某些像素邻接，则称这两个集合是邻接的。这里说的邻接指的是 4、8 或者 m 邻接。

连通性等概念暂时略过。

距离度量（见书本）

线性和非线性操作

$H(af+bg)=aH(f)+bH(g)$

其中，f、g 代表图像，H 代表操作。

Related posts

Tilelang 入门-L2 友好的矩阵乘 05 Jul 2025

DAC25 GoPTX Script 25 Jun 2025

今日此时所想之事（四） 21 Jun 2025

Loading comments...