EZ|EZ | 在SAR-Opt数据融合领域针对深度学习的SEN1-2数据集 | 03 03|在SAR-Opt数据融合领域针对深

4. 应用示例在这一部分中，我们展示了几个实例应用，它们都已经用上了这个数据集。希望在未来的研究和针对SAR-Opt深度学习数据融合领域进一步的探索中，这些应用可以启发到大家。
4.1 哨兵一号图像着色
【EZ|EZ | 在SAR-Opt数据融合领域针对深度学习的SEN1-2数据集 | 03】即使对于经过良好训练的专家来说，SAR图像的解释也一直是一个相对重量级的任务。原因之一就在于SAR图像缺失了颜色信息，这就有一点点麻烦。我们SEN1-2数据集其中一个很有前景的应用场景就是照着对应光学图像的样子去给SAR图像加上颜色信息，这一点我们早就论证过(Schmitt et al., 2018)。在这一方法中，我们使用了SAR-Opt数据融合技术去创造人工的有色SAR图像作为训练样例，还结合了已有的变分自编码器和混合密度网络的组合 (Deshpande et al., 2017)以学习条件颜色分布，而这些东西不同的着色示例都能描绘出来。有一些训练的第一手结果被展示在 Fig.5 中。
Fig.5 自左向右分别是：SAR图像，原光学图像，颜色空间技术着色图像，深度生成网络着色图像 4.2 SAR-Opt图像配对
像是图像登记( registration )、3D重建模、变化监测之类的任务依赖于能否准确地确定不同对应位置的相似性(也就是所谓的“匹配”)。即使已经建立了很好的方法和相似性度量来实现单模态图像的配对，但多模态数据的匹配就完全是另一回事了。SEN1-2数据集可以提供适用于现代深度学习技术的大量数据来帮助实现多模态图像匹配的解决方案。例如( Merkle et al., 2017 )和( Hughes et al., 2018 )所提出的那样，使用伪孪生卷积神经网络结构，识别对应的SEN1-2测试子集的SAR于光学图像块，准确率可达93%；再者，( Hughes et al., 2018 )做出来的模型混淆矩阵训练了从SEN1-2的训练子集创建的300,000个相对应和不对应的图像对，在Tab.1中可以一看。此外，在测试子集中实现的一些示例性的图像匹配可以在 Fig.6 中看到。
Tab.1: 伪孪生神经网络的混淆矩阵在数据集上的训练成果

y?/y	non-match	match
non-match	93.84%	6.16%
match	6.02%	93.98%

Fig.6 一些SAR-Opt匹配的成果 4.3 从输入的SAR图像之中生成人工的光学图像
SEN1-2数据集另一个可能的应用领域就是训练一个生成网络，这一网络从输入的光学图像中生成人工的SAR图像( Marmanis et al., 2017, Merkle et al., 2018 )或是正相反，从输入的SAR图像中生成人工的光线影像( Wang and Patel, 2018, Ley et al., 2018, Grohnfeldt et al., 2018 )。有些基于Pix2Pix这个鼎鼎大名的生成是对抗网络GAN模型( Isola et al., 2017 )的初步结果，训练的数据使用了 Fig.7 中展示的 108,221 个SEN1-2中的数据对。

EZ|EZ | 在SAR-Opt数据融合领域针对深度学习的SEN1-2数据集 | 03

文章图片
Fig.7: 使用Pix2Pix模型从输入的SAR图像中产生光学图像的初步例子，从左到右依次为：SAR图像，原始光学图像和生成的光学图像 5. 数据集的优点和不足据我们所知，SEN1-2是有史以来第一个真正意义上包含了SAR和光学图像图像对并且可称之为“大规模(超过百万个)”的数据集。在这一领域还有另一个叫 SARpitcal 的数据集 ( Wang and Zhu, 2018 )。与我们的数据集相比，它提供了分辨率非常高的图像对，来自于TerraSAR-X卫星和航空摄影，但是它仅限于从单一场景中提取出来的 10,000个块儿，对于许多深度学习的应用来说可能是不太够，尤其还要考虑到许多块中包含着超过50%的重叠部分。有了采自全球和全部四个观测季节的 282,384 图像块，SEN1-2将会成为许多在SAR-Opt数据融合领域或事遥感方向机器学习研究者们的一个很有价值的数据源。一个特殊的长处就是这个数据集可以轻而易举地被划分成各种有着明确界限的子集(例如根据场景或是季节进行分类)，有了这样的能力，我们就可以创建真正相互独立的训练集和测试集，对于看不见的数据也可以做到客观独立的评估。
然而，虽然SEN1-2并不是挑不出毛病来，举个例子来说，我们严格限制了哨兵二号的RGB图像数量，对于那些利用多光谱卫星图像的全辐射带宽来搞研究的人来说，数据量可能不太够。另外，我们在进行数据集准备时，GEE仅仅包含了Level-1C数据信息，这就意味着像素值实际代表了大气顶层(TOA)反射率，而不是大气层校正的大气底层(BOA)信息。我们正在计划着扩充对应的第二版本数据集。
6. 总结和结论这篇文章中，我们已经描述并且发布了SEN1-2数据集，该数据集容纳了来自于哨兵一号和哨兵二号的 282,384 个SAR-Opt数据对。我们确定这个数据集将会推动机器学习——尤其是深度学习在卫星遥感和SAR-Opt数据融合领域的应用发展。在未来，我们计划推出一个更好的第二版本的数据集，不止容纳了哨兵二号的RBG图像，还有包含了大气校正的多光谱数据。此外，我们可能会对每个数据对添加比较粗糙的土地利用/土地覆盖(LULC)信息，致力于促进LULC分类领域技术的发展。
致谢我们的工作接受了亥姆霍兹协会( Helmholtz Association )在德国研究基金会(DFG)的青年调查组SiPEO(VHNG-1018)的支持，授权号：SCHM 3322/1-1 ，根据欧盟的Horizon2020研究创新计划( Horizon 2020 research and innovation programme )中的欧洲研究理事会(ERC)也提供了帮助，授权协议： ERC-2016- StG-714087 ，缩写是 So2Sat 。