RemoteCLIP：用于遥感的视觉语言基础模型

论论资讯｜ 2024-04-29 ｜ 47热度

IEEE Transactions on Geoscience and Remote Sensing

Explore content

About the journal

Publish with us

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

Liu F.; Chen D.; Guan Z.; Zhou X.; Zhu J.; Ye Q.; Fu L.; Zhou J.

Published：2024-01-01

DOI：10.1109/tgrs.2024.3390838

研究背景

随着科技的不断发展，人工智能在各个领域都取得了重大突破。然而，在遥感领域，自监督学习（SSL）和遮蔽图像建模（MIM）等技术被广泛应用来构建基础模型。但是，这些模型主要学习低级特征，并需要标注数据进行微调。此外，由于缺乏语言理解，它们无法应用于检索和零样本应用。这就引出了一个问题：如何在遥感领域构建一个同时具备视觉和语言理解的基础模型？

研究内容

这项研究提出了RemoteCLIP，这是第一个专为遥感领域设计的视觉-语言基础模型。它旨在学习具有丰富语义的强大视觉特征，以及与之对应的文本嵌入，以便在后续应用中无缝使用。为了解决预训练数据的稀缺性，研究团队采用了数据缩放技术，将异构注释转换为基于盒子到标题（B2C）和遮蔽到盒子（M2B）转换的统一图像-标题数据格式。通过进一步整合无人机图像，他们构建了一个比所有可用数据集组合还要大12倍的预训练数据集。RemoteCLIP可应用于多种后续任务，包括零样本图像分类、线性探测、<italic>k</italic>-NN分类、少样本分类、图像-文本检索以及遥感图像中的目标计数。在包括新引入的RemoteCount基准测试在内的16个数据集上评估结果显示，RemoteCLIP在不同模型规模下始终优于基准基础模型。令人印象深刻的是，RemoteCLIP在RSITMD数据集上的平均召回率比最先进方法高出9.14％，在RSICD数据集上高出8.92％。对于零样本分类，我们的RemoteCLIP在12个后续数据集上的平均准确率比CLIP基线高出最多6.39％。

研究意义

这项研究的创新之处在于RemoteCLIP的提出，这是首个专为遥感领域设计的视觉-语言基础模型。通过学习强大的视觉特征和丰富的语义，RemoteCLIP在多个任务上均表现优异，为遥感图像处理领域带来了新的可能性和机遇。

IEEE Transactions on Geoscience and Remote Sensing

IF 8.2 论文数1W+ 被引数 53W+

地球与行星学论文数前10%

228人阅读

学术热榜

查看全部