扫码下载APP

您的位置

资讯详情

本人可编辑资讯

仅支持在APP编辑资讯扫描二维码即可下载APP

RemoteCLIP:用于遥感的视觉语言基础模型

论论资讯 | 2024-04-29 47热度

IEEE Transactions on Geoscience and Remote Sensing

Explore content

About the journal

Publish with us

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

Liu F.; Chen D.; Guan Z.; Zhou X.; Zhu J.; Ye Q.; Fu L.; Zhou J.

Published:2024-01-01
DOI:10.1109/tgrs.2024.3390838

研究背景

随着科技的不断发展,人工智能在各个领域都取得了重大突破。然而,在遥感领域,自监督学习(SSL)和遮蔽图像建模(MIM)等技术被广泛应用来构建基础模型。但是,这些模型主要学习低级特征,并需要标注数据进行微调。此外,由于缺乏语言理解,它们无法应用于检索和零样本应用。这就引出了一个问题:如何在遥感领域构建一个同时具备视觉和语言理解的基础模型?

研究内容

这项研究提出了RemoteCLIP,这是第一个专为遥感领域设计的视觉-语言基础模型。它旨在学习具有丰富语义的强大视觉特征,以及与之对应的文本嵌入,以便在后续应用中无缝使用。为了解决预训练数据的稀缺性,研究团队采用了数据缩放技术,将异构注释转换为基于盒子到标题(B2C)和遮蔽到盒子(M2B)转换的统一图像-标题数据格式。通过进一步整合无人机图像,他们构建了一个比所有可用数据集组合还要大12倍的预训练数据集。RemoteCLIP可应用于多种后续任务,包括零样本图像分类、线性探测、<italic>k</italic>-NN分类、少样本分类、图像-文本检索以及遥感图像中的目标计数。在包括新引入的RemoteCount基准测试在内的16个数据集上评估结果显示,RemoteCLIP在不同模型规模下始终优于基准基础模型。令人印象深刻的是,RemoteCLIP在RSITMD数据集上的平均召回率比最先进方法高出9.14%,在RSICD数据集上高出8.92%。对于零样本分类,我们的RemoteCLIP在12个后续数据集上的平均准确率比CLIP基线高出最多6.39%。

研究意义

这项研究的创新之处在于RemoteCLIP的提出,这是首个专为遥感领域设计的视觉-语言基础模型。通过学习强大的视觉特征和丰富的语义,RemoteCLIP在多个任务上均表现优异,为遥感图像处理领域带来了新的可能性和机遇。

微信扫码即可查看