voc数据集有多少张人图片_fcn中图像语义分割voc数据集的lmdb数据怎样制作

㈠【技术综述】多标签图像分类综述

图像分类作为计算机视觉领域的基础任务，经过大量的研究与试验，已经取得了傲人的成绩。然而，现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时，又该如何进行分类呢？本篇综述将带领大家了解多标签图像分类这一方向，了解更具难度的图像分类。

作者 | 郭冰洋

编辑 | 言有三

随着科学技术的进步与发展，图像作为信息传播的重要媒介，在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究，并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视，也促使计算机视觉领域迎来了蓬勃发展的黄金时代。

作为计算机视觉领域的基础性任务，图像分类是目标检测、语义分割的重要支撑，其目标是将不同的图像划分到不同的类别，并实现最小的分类误差。经过近30年的研究，图像分类已经成功应用至社会生活的方方面面。如今，在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。

根据分类任务的目标不同，可以将图像分类任务划分成两部分:（1）单标签图像分类；（2）多标签图像分类。

单标签图像分类是指每张图片对应一个类别标签，根据物体类别的数量，又可以将单标签图像分类划分成二分类、多类别分类。如下图所示，可以将该图的标签记为海洋，通过单标签图像分类我们可以判定该图像中是否含有海洋。

然而，现实生活中的图片中往往包含多个类别的物体，这也更加符合人的认知习惯。我们再来观察下图，可以发现图中不仅包含海洋，还包括了海豚。多标签图像分类可以告知我们图像中是否同时包含这些内容，这也能够更好地解决实际生活中的问题。

机器学习算法主要包括两个解决思路：

(1) 问题迁移，即将多标签分类问题转化为单标签分类问题，如将标签转化为向量、训练多个分类器等；

(2) 根据多标签特点，提出新的适应性算法，包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。现对其中具有代表性的算法进行总结。

2.1 问题迁移

问题迁移方法的主要思想是先将多标签数据集用某种方式转换成单标签数据集，然后运用单标签分类方法进行分类。该方法有可以包括基于标签转换和基于样本实例转换。

2.1.1 基于标签转换

针对每个标签，将属于这个标签的所有实例分为一类，不属于的分为另一类，将所有数据转换为多个单标签分类问题(如下图)。典型算法主要有Binary Relevance和Classifier Chain两种。

2.1.2 基于样本实例转换

这种方法是将多标签实例分解成多个单标签实例。如下图所示。实例E3对应标签y3和y4，则通过分解多标签方法法将E3分解成单独选中标签y3和y4的实例，然后对每一个标签作单独预测。

2.2 适应性方法

如上文所述，新的适应性算法是根据多标签分类的特殊性，改进现有的单标签分类算法，主要包括以下三种：

2.2.1 ML-KNN

ML-KNN由传统的KNN算法发展而来。首先通过KNN算法得到样本最接近的K个邻近样本，然后根据K个邻近样本的标签，统计属于某一标签的邻近样本个数，最后利用最大后验概率原则（MAP）决定测试样本含有的标签集合。

2.2.2 Rank SVM

Rank SVM是在SVM的基础上，加入Ranking Loss损失函数和相应的边际函数作为约束条件，并扩展目标函数而提出的一种多标签学习算法。该算法的简要思路是：首先定义函数s(x)是样本x的标签集的规模大小，然后定义rk(x)=wkTx+bk，如果求得的rk(x)值在最大的s(x)个元素(r1(x),...rQ(x))之间，则认为该样本x选中该标签k，否则就没被选中。在求解过程中定义新的排序函数rk(x)-rl(x)≥1，其中k表示被样本x选中的标签，l表示没有被选中的标签，并基于这个新的排序函来大间隔分类器，同时最小化Ranking Loss，从而推导出适合多标签分类的目标函数和限制条件。

2.2.3 Multi-label Decision Tree

该算法采用决策树技术处理多标签数据，利用基于多标签熵的信息增益准则递归地构建决策树。树形结构包括非叶结点、分支、叶节点。决策树模型用于分类时，特征属性用非叶节点表示，特征属性在某个值域上的输出用非叶节点之间的分支表示，而类别则用叶节点存放。

计算思想如下：首先计算每个特征的信息增益，挑选增益最大的特征来划分样本为左右子集，递归下去，直到满足停止条件，完成决策树的构建。对新的测试样本，沿根节点遍历一条路径到叶子节点，计算叶子节点样本子集中每个标签为0和1的概率，概率超过0.5则表示含有该标签。当遍历所有路径到底不同的叶节点之后，则可判断涵盖的所有标签信息。

除了上述三类主要算法外，还包括诸多以单标签分类进行改进的算法，在此不再赘述。

深度学习的发展带动了图像分类精度的大幅提升，神经网络强大的非线性表征能力可以在大规模数据中学习到更加有效的特征。近年来，多标签图像分类也开始使用深度学习的思想展开研究。

魏云超等在程明明教授提出的BING理论基础上，提出了Hypotheses-CNN-Pooling。首先对每张图片提取含有标签信息的候选区域（如上图中的Hypotheses Extraction过程），然后将每个候选区域送入CNN进行分类训练，最后利用cross-hypothesis max-pooling融合所有候选区域的分类结果，从而得到多个标签信息完整的图片。

CNN具有强大的语义信息提取能力，而RNN则可以建立信息之间的关联。根据这一理论观点，Jiang Wang等提出了CNN-RNN联合的网络结构。首先利用CNN对输入图像进行训练，得到相应的特征，然后将图片对应的特征投影到与标签一致的空间中，在该空间利用RNN进行单词的搜索训练。该算法充分考虑了类别之间的相关性，可以有效对图像中具有一定关系的标签进行识别。

在CNN-RNN结构的基础上，后续文章又加入Regional LSTM模块。该模块可以对CNN的特征进行导向处理，从而获取特征的位置信息，并计算位置信息和标签之间的相关性。在上文的结果上进一步考虑了特征、位置和标签之间潜在的依赖关系，可以有效计算图片中多个标签同时存在的可能性，并进行图片的分类。

最近，诸多基于image-level进行弱监督分割研究的文章，充分利用了多标签分类网络的信息。其主要思想是将标签统一处理为向量形式，为每幅图片构建一个维度为1xN的矩阵标签（如[0,0,0,1,1,0]形式），并采用专门的损失函数(Hanming loss、Ranking loss等)进行训练。这一方法成功地将多标签的复杂问题，转化为单标签问题，从而可以利用传统的分类网络进行训练。

多标签图像分类的相关算法仍然层出不穷，但不论是基于机器学习还是基于深度学习的算法，都有其优势和不足，如何根据实际应用需求选用合适的算法，才是我们应当关注的重点内容。

单标签分类中通常采用准确率(Precision)，召回率(Recall)、F值(F-measure)和AUC曲线对分类结果进行评价。然而，在多标签分类中一个图片与多个标签同时关联，其复杂程度远远高于单标签分类。因此，在继承单标签分类评价指标的基础上，许多关于多标签分类的评价指标也被提出。在这里只介绍多标签分类常用的指标，有关单标签分类的指标不再赘述。

4.1 平均准确率(AP)和平均准确率均值(mAP)

同单标签分类一样，当一张图片中的所有标记均预测正确时，准确率才可以置1，否则置零。每个类别下的标签分别进行计算后，取其平均值即可获得平均准确率，对所有平均准确率取均值即可获得平均准确率均值。平均准确率可以衡量模型在每个类别的好坏程度，而平均准确率均值则衡量的是在所有类别的好坏程度。

4.2 汉明距离

将预测的标签集合与实际的标签集合进行对比，按照汉明距离的相似度来衡量。汉明距离的相似度越高，即汉明损失函数越小，则模型的准确率越高。

4.3 1-错误率

1-错误率用来计算预测结果中排序第一的标签不属于实际标签集中的概率。其思想相当于单标签分类问题中的错误率评价指标。1-错误率越小，说明预测结果越接近实际标签，模型的预测结果也就越好。

4.4 覆盖率

覆盖率用来度量“排序好的标签列表”平均需要移动多少步数，才能覆盖真实的相关标签集合。对预测集合Y中的所有标签{y1，y2，… yi … yn}进行排序，并返回标签yi在排序表中的排名，排名越高，则相关性越差，反之，相关性越高。

4.5 排序损失

排序损失计算的是不相关标签比相关标签的相关性还要大的概率。

高质量的数据集是图像分类的基础，更是关键所在。随着人们对数据质量的重视程度越来越高，如今已有诸多完备的多标签图像分类数据集。

5.1 Pascal VOC

Pascal VOC数据集的主要任务是在真实场景中识别来自多个类别的目标。该数据集共有近两万张图片，共有20个类别组成。Pascal VOC官方对每张图片都进行了详细的信息标注，包括类别信息、边界框信息和语义信息，均保存在相应的xml格式文件中。通过读取xml文件中的项，我们可以获取到单张图片中包含的多个物体类别信息，从而构建多标签信息集合并进行分类训练。

5.2 COCO

COCO(Common Objects in Context)数据集由微软公司赞助搭建。该数据集包含了91个类别，三十余万张图片以及近二百五十万个标签。与Pascal VOC相类似，COCO数据的标注信息均保存在图片对应的json格式文件中。通过读取json文件中的annotation字段，可以获取其中的category_id项，从而获取图片中的类别信息。同一json文件中包含多个category_id项，可以帮助我们构建多标签信息。COCO数据集的类别虽然远远大于Pascal VOC，而且每一类包含的图像更多，这也更有利于特定场景下的特征学习。

除了上述两个个主流数据集之外，比较常用的还包括ImageNet数据集、NUS-WIDE数据集。近年来，诸多公司、科研机构也提出了诸多全新的数据集，如ML-Images等。这些标注完善的数据，为多标签图像分类的研究提供了有力的支持，同样也为图像处理领域的发展做出了巨大贡献。

(1)多标签图像分类的可能性随着图片中标签类别的增加呈指数级增长，在现有的硬件基础上会加剧训练的负担和时间成本，如何有效的降低信息维度是面临的最大挑战。

(2) 多标签分类往往没有考虑类别之间的相关性，如房子大概率不会出现老虎、海洋上不太可能出现汽车。对于人类来说，这些均是常识性的问题，但对于计算机却是非常复杂的过程，如何找到类别之间的相关性也能够更好的降低多标签图像分类的难度。

古语有云：“纸上得来终觉浅，绝知此事要躬行”，理论知识的学习必须通过实践才能进一步强化，完成了综述内容的书写，后续将基于Pytorch框架以Pascal VOC2012增强数据集进行多标签图像分类实战，敬请期待哦！

如果想加入我们，后台留言吧

技术交流请移步知识星球

更多请关注知乎专栏《有三AI学院》和公众号《有三AI》

㈡ Python 制作Pascal VOC数据集

下图是 Pascal VOC 数据集格式。
1、 Annotations 目录是存放 xml 文件；
2、 ImageSets 目录是存放 txt 文件，主要是测试集、训练集、验证集等文件名称的集合；
3、 JPEGImages 目录是存放图片文件（ jpg ）；

1、从 Annotations 目录下读取 xml 目录；
2、把 xml 目录，随机重置一下，这样在训练的时候，各个分类是随机读取，不会出现某一个分类聚集读取，从而影响训练效果。当然，你也可以在训练的时候选择随机重置，道理是一样的；
3、创建将要写入的 txt 文件。这里示范了训练集、验证集，其他的可自行添加；
4、读取目录文件，通过前缀判断，写入 txt 文件。

有时候不需要指定数据集，只是从一个大的原始数据集中，随机选取一部分当中训练集、一部分当作验证集、一部分当作测试集。

㈢ voc数据集训练要多久

voc数据集训练要多久
VOC数据集共包含：训练集（5011幅），测试集（4952幅），共计9963幅图，共包含20个种类。本文主要研究的课题是：炉温系统的PID控制器设计研究，并且在MATLAB的大环境下进行模拟仿真。做深度学习目标检测方面的同学怎么都会接触到PASCAL VOC这个数据集。也许很少用到整个数据集，但是一般都会按照它的格式准备自己的数据集。

㈣ wider数据集标签有问题吗

wider数据集标签没有问题。WIDERFACE数据集是一个人脸检测基准benchmark数据集，图片选取自数据集，图片数32203张，人脸数393703个，在大小scale位置pose遮挡occlusion等不同形式中人脸是高度变换的。

wider数据集标签的特点

WIDERFACE数据集是基于61个事件类别每个事件类别，随机选取训练百分之40验证百分之10测试百分之50，训练和测试含有边框boundingbox真值groundtruth而验证不含，检测算法在测试集上的评估方式与PASCALVOCDATADASET相同。

并且测试集的真值包围框boundingbox未发布，参赛者可通过提交预测结果predictionfiles，由WIDERFACE给出评价结果，WiderPerson数据集是比较拥挤场景的行人检测基准数据集，其图像是从多种场景中选择的不再局限于交通场景。

㈤ PASCAL VOC数据集的分类问题中，ap怎么算

以横坐标为召回率，纵坐标为准确率，会画出一条曲线，该曲线与横轴纵轴的面积即为ap值，多个ap值的平均即为mAP。

㈥小明小红小东共有邮票550张小明比小红多20张小红比小东多25张3人共多少张

是求三人各有多少张吧！
小明比小东多：
（20+25）45张
小明和小红两人共比小东多：
（45+25）70张
小东的张数：
（550-70）/3
=480/3
=160（张）
小红的张数：
160+25=185张
小明的整数：
160+45=205张

㈦怎么把数据搞成pascal voc的格式

计算机视觉里面很大一块是在做物体的识别、检测还有分类(object recognition, detection and classification)。几乎在每一个应用领域都需要用到这三项功能，所以能否顺利的完成这三个功能，对检验一个算法的正确性和效率来说是至关重要的。所以每一个算法的设计者都会运用自己搜集到的场景图片对算法进行训练和检测，这个过程就逐渐的形成了数据集（dataset）。而不幸的是，这样形成的数据集存在着很大的偏向性。因为就算是作者可以的随机搜集图片，在筛选的时候也存在着作者对事物的主管判断，而这种判断在其他人眼中就会觉得不公平。同时为了比较不同的算法效率，设计者也会运用数据集来进行性能比较。所以如果你看的论文足够多的话，你会发现，大家的实验部分都会说：在某个数据集上我的算法是最牛X的；在某某数据集上我的算法和当前最牛X的其他地方差不多，但速度快/准确率高/误报率低；虽然我的算法在某数据集一般，但几个数据集做一下平均，我的最牛X……所以这些由算法设计者们创建的数据集并不是那么的有说服性。

所以这就催生了 Pascal VOC Challenge 的出现，当让这不是唯一的一个‘标准’的数据集。Pascal 的全程是 Pattern Analysis, Statical Modeling and Computational Learning。PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今，该组织每年都会提供一系列类别的、带标签的图片，挑战者通过设计各种精妙的算法，仅根据分析图片内容来将其分类，最终通过准确率、召回率、效率来一决高下。如今，挑战赛和其所使用的数据集已经成为了对象检测领域普遍接受的一种标准。更多的自述和背景故事可以参见这篇官方提供的说明文件。

起初Pascal 并不像现在这样完善和全面，刚开始委员会只提供了4个类别的图像，在2006年的时候增加到了10个类，2007年开始则增加到了20个类；同样是在2007年，加入了对人体轮廓布局（Person layout）的测试；测试图像的数量也由起初的1578张增加到了2007年高峰时期的9963张，随后的一年则出现了大幅下降，直到2010年图库数量重新达到高峰，并与2011年稳定在11530张；期间于2009年开始图库的构成发生了变化，这之前每年委员会都会重新制作图库，选择新的照片来构成新的数据集。而2009年开始则采用扩增的方式，只在原有图库的基础上加入新的图片；再有一点就是在2010年加入的动作识别项目和 Other 分类。

VOC 挑战提供两种参加形式，第一种是仅用委员会所提供的数据，进行算法机器学习和训练。第二种是用测试之外的那些数据进行算法的训练，例如那些商业系统。但不管怎样，这两种情况必须严格的利用提供的测试数据来生成最终的结果。测试数据不得用于训练和调试系统，比如通过利用运行多个参数的对比结果，选择出最好的算法。

如果将提供的训练数据用于挑战赛开发工具的一部分，包括特征选择和参数训练在内的所有开发工作，都必须设置单独的训练和验证数据。换句话说就是，将赛事委员会提供的数据分为训练组和验证组。最终挑战时，仅取算法第一次输出的结果。

2007年的时候委员会将训练、分类、测试用的所有标签都弄成了可用状态。但是从那以后，测试用的标签就失效了，取而代之的是将测试数据的结果发送到对比服务器进行对比。因为测试数据仅允许在算法中运行一次，赛事仅仅将第一次的输出结果判定为有效，所以强烈建议不要重复提交。同一种算法的提交次数将会受到严格的审核。评估服务器不是用来对算法进行优化的，不是你的训练机。

委员会也欢迎大家利用服务器的发布功能，将自己的测试结果发布在挑战赛最新的动态页面上，如果你希望对比你的算法与别人算法的区别，有两种途径，一是使用VOC2007那年提供的所有数据，原因前文已经交代过。二是单独利用最新的“traincal”进行交叉验证。另外为了防止作弊，委员会仅允许通过教育系统（也就是高校的邮件地址）或者公司的邮件进行结果的提交。

委员会所提供的图片集包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。都是一些日常中最常见的物体，位的就是能更好的体现算法的实用性。

挑战赛主要分为三个部分：图像的分类、识别、分割，另外还有一个‘动态’分类项目，一个由Image Net 举行的大规模识别竞赛和人类身体部位识别的附加赛项目。

分类就是让算法找出测试图片都是属于哪一个标签，对测试的图片进行分类，将图片对号入座。

检测则是检测出测试图片中由委员会特别圈定的内容，看看算法能否正确的符合圈定的内容。这个视屏可以帮助大家了解这个项目的意义。

分割是对图片进行像素级分割，也就是识别出的特定物体用一种颜色表示，其他的则作为背景。

动作分类则是在静态图片中预测人类的动作，比如有一张人类跑步的图片，算法根据身体各部位的位置特征判别这个动作是‘running’。

人类轮廓识别就是识别标示出来的人体部位，这对于一张图片有多个人或者两个人身体部分纠缠在一起的图片识别有重要意义。

VOC2012年的赛事也在这个周一拉开了大幕，即日起，参赛者们就可以根据赛事规则，利用提供的开发工具进行算法和程序的设计，同时官方也提供了用于第一种参赛方式的训练用图片库。整个过程将一直持续到今年的欧洲计算机视觉大会（ECCV 2012）。想必如果在这种国际级别的标准赛事中获奖，将会给个人或者企业带来严重的加分效果。所以有能力的爱好者们和企业抓紧时间参赛去吧！

这里有一位叫‘Yinan Yu’的中国人，在中科院的学术氛围下，于去年的挑战赛中取得了不错的成绩。另外参赛后一些比较 NB 的论文也被贴了出来供大家欣赏，其中一些也被 IEEE 收录，作为高品质论文的象征。

㈧ fcn中图像语义分割voc数据集的lmdb数据怎样制作

有两种方法：
1）可制作两个lmdb文件，一个Data项是原始图像，Label可为0，另一个Data项为分割后的标注图像，Label为0。使用中caffe是支持多个lmdb输入的。
2）将原始图像(如3通道)，标注图像(1通道)，合在一起成4通道，然后写在一个lmdb中，然后导入后使用Slice层将其切开。这种方法就不能直接使用现有的convert_imageset来转换了，可参考其实现自己写一下。

㈨ lfw数据集标签是什么意思

lfw数据集是为了研究非限制环境下的人脸识别问题而建立。

LFW 人脸数据库是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库，主要用来研究非受限情况下的人脸识别问题。LFW 数据库主要是从互联网上搜集图像，而不是实验室，一共含有13000 多张人脸图像，每张图像都被标识出对应的人的名字。

lfw数据集标签意义：

LFW数据集主要测试人脸识别的准确率，该数据库从中随机选择了6000对人脸组成了人脸辨识图片对，其中3000对属于同一个人2张人脸照片，3000对属于不同的人每人1张人脸照片。测试过程LFW给出一对照片。

询问测试中的系统两张照片是不是同一个人，系统给出“是”或“否”的答案。通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。这个集合被广泛应用于评价算法的性能。

可以看出，在LFW 数据库中人脸的光照条件、姿态多种多样，有的人脸还存在部分遮挡的情况，因此识别难度较大。 LFW 数据库性能测评已经成为人脸识别算法性能的一个重要指标。

㈩ DOTA V1.5数据集：基于航空图像的大规模目标检测数据集

目标检测是计算机视觉任务中一个具有挑战性的方向。尽管在过去十年中目标检测在自然场景中有了重大突破，但是在航拍图像的进展是十分缓慢的，这不仅是因为地球表面相同类别物体的规模、方向和形状有着巨大的差异，而且还因为缺少航拍影像中目标对象的标注信息。为了推进“Earth Vision”（也称为“地球观测和遥感”）中目标检测的研究，我们提出了用于航拍影像中用于目标检测的大规模数据集（DOTA）。我们从不同的传感器和平台收集了2806个航拍影像，每张图像的大小约为4000*4000像素，并包含了各种不同比例、方向和形状的目标对象。航拍图像专家将这些DOTA数据集图像中常见的15种对象类别进行标注。完全注释之后的DOTA数据集图像包含188282个实例，每个实例都由四点确定的任意四边形（8 d.o.f.）标记。为了建立地球视觉中目标检测的基准，我们评估了DOTA上最新的目标检测算法。实验表明，DOTA能够代表真实的地球视觉应用，并具有一定的挑战性。

Earth Vision中的目标检测是指在将地球表面感兴趣的物体（例如车辆、飞机场）定位并预测他们的类别。与传统的目标检测数据集相反，在传统的目标检测数据集中，物体的位置通常由于重力而以一种向上的姿态出现，航拍图像中物体的实例通常以任意状态出现，如图1所示，这取决于航拍视角的关系。
由于计算机视觉领域的最新进展以及Earth Vision应用的高要求，有大量的研究者已经开始围绕航拍影像中的目标检测开展研究，这些方法中的大多数尝试将原有的目标检测算法应用在航拍影像中。最近，在基于深度学习的目标检测算法取得巨大成功的鼓舞下，Earth Vision的研究者们基于大规模数据集（ImageNet和MSCOCO数据集）预训练模型上进行微调网络的方法，使之在航拍数据集检测中有所改善。
尽管这种基于微调的方法是可行的，但是如图1所示，航拍图像中的目标检测与常规的目标检测有着以下方面的区别：

近年来，在一些较为依赖数据的研究中，数据集扮演着十分重要的角色，像MSCOCO这样的大型数据集在促进目标检测和图像捕捉研究方面发挥了重要的作用。当涉及到分类任务和场景识别任务时，ImageNet以及Places也很重要。
但是，在航拍目标检测中，缺少像MSCOCO和ImageNet这样在图像数量和详细注释方面的数据集，特别是对于开发基于深度学习的算法时，这是Earth Vision研究的主要障碍之一。航拍目标检测对于车辆计数，远程目标跟踪和无人驾驶领域非常有用。因此，创建一个能实际应用的大规模数据集并提出富有挑战性的航拍目标检测基准对于促进该领域的研究十分必要。
我们认为，一个好的航拍影像数据集应该具有以下四个属性：
1）大量的图片；2）每个类别都有很多实例；3）合适角度的目标注释框；4）许多不同类别的对象，这使得数据集能够应用到实际中。然而目前所公开的航拍数据集存在以下缺点：图像数据和类别不足，缺少更精细的注释以及分辨率过低。而且，它们缺少复杂性并不能足以应用再实际现实世界中。

像TAS，VEDAI，COWC等数据集只关注车辆，UCAS-AOD包含汽车和飞机，HRSC2016只包含船只，虽然有标注细致的分类信息。但所有这些数据集在类别的数量上都是少的，这对它们在复杂场景的泛化适应上有所约束。作为对比，NWPU VHR-10数据集由10种类型的物体组成，而它的总实例数大概只有3000。关于这些已存在的数据集的具体比较细节在表1中给出。我们在第四部分可以看到，对比这些航拍数据集，DOTA具有更庞大的目标实例数目、随意但是均匀的方向，多样性的分类目录和复杂的航拍场景。此外，DOTA数据集中的场景与真实场景更加一致，所以DOTA数据集对于真实世界应用开发来说是更有帮助的。
当涉及到普通对象数据集时，ImageNet和MSCOCO因其具有大量的图像、更多的类别和详细的注释而被大多数研究人员所选择。在所有对象检测数据集中，ImageNet的图像数量最多。但是每个图像的平均实例数远少于MSCOCO和我们的DOTA数据集，而且必须拥有干净的背景和精心选择的场景带来了局限性，DOTA数据集中的图像包含大量的对象实例，其中一些图片具有1000多个实例。 PASCAL VOC数据集在每个图像和场景的实例上与ImageNet相似，但是图像数量不足使得它不适合处理大多数检测需求。我们的DOTA数据集在实例编号和场景类型方面类似于MSCOCO，但是DOTA的类别不如MSCOCO那样多，因为可以在航拍影像中能清晰看到的对象时非常有限的。
此外，在上文提到的大规模普遍目标检测基准中DOTA数据集的特别之处在于使用OBB方法注释，OBB可以很好的区分目标物体的离散与聚集，在第三部分详细描述了使用OBB注释目标物体的好处。在表2中对DOTA,PASCAL VOC,ImageNet and MSCOCO等数据集的比较中给出不同点。

在航拍数据集中由于存在多种多样的传感器被使用的情况，导致数据集产生偏差。为了消除这些偏差，我们数据集中的图片是由多分辨率多传感器和多平台收集而来的，如谷歌地球。为了提高数据的多样性，我们收集的图片的城市是由图像判读方面的专家来挑选的。在挑选过程中，会记录下精确的地理坐标，来捕捉图片使得确保没有重复的图像。

我们的DOTA数据集注释选择了15种类别，包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环状交叉路口、游泳池。
标注类别是由图像判读方面的庄家根据目标物体的普遍性和现实世界中存在的价值来挑选的，前十个类别在已有的数据集中很普遍，我们保留了下来，除了将交通工具的汽车分为大型和小型，因为两种类型的汽车在航拍图像上区别很大。其他的类别主要是由于现实场景的应用。我们选择直升机是考虑到航拍图像中运动物体具有重要的意义，环状交叉路口被选中是因为它在巷道分析中具有重要意义。
要不要把“stuff”作为一类是值得探讨的，在SUN数据集中，一般说来没有明确的定义说明什么是stuff一类，比如海港、机场、停车场。但是，它们提供的语义信息是对检测有帮助的。我们只采纳了海港分类，因为它的边界容易定义，并且在我们的图片源信息中有丰富的实例。最后拓展的分类是足球场。
在表2我们比较了DOTA和NWPU VHR_10，后者在先前存在的航拍图像目标检测数据集中有更多的分类数。而且DOTA在目录分类数目和每一类下的实例数目都远超过了NWPU VHR-10。

我们考虑了许多不同的注释方法。在计算机视觉领域，许多视觉概念（比如区域说明，目标，属性，关系）都可以被一个注释边框说明，对边框的一个普遍描述一般采用，其中表示位置，是边框的宽和高度。
没有一定方向的物体可以采用这种注释方式充分注释。然而，在航拍影像中的文本和物体以这种方式标记的边界框不能精确或紧凑地贴合物体的轮廓。如图3（c）所示的极端但实际的普遍存在情况和图（d）比起来，两个边界框之间的重叠是如此之大以至于最先进的对象检测方法也不能区分它们。为了解决这一问题，我们需要一种其他更适合面向这种有一定方向物体的注释方法。
一个可选选项是采用基于的边界框，它被应用于一些文本检测基准，即，其中表示从边界框与水平方向的夹角度。但这种方法的缺点是依旧不能贴合围绕住那些不同部分之间可能有较大变形的物体。考虑到航拍图像中物体的复杂场景和物体的各种方位，我们需要放弃这种方法选择其他更灵活易懂的方式。一种可供选择的方法是使用任意四边形边界框，它可以被描述为：，其中表示图像中定向边界框的顶点的位置，顶点按顺时针顺序排列，这种方法在定向场景的文本检测中广泛使用。我们受到这些研究的启发，在注释物体时使用这种任意四边形边界框的方式。

为了进行更具体的注释，如图3所示，我们强调了第一点的重要性，该点通常表示对象的“首部”。对于直升机，大型车辆，小型车辆，港口，棒球钻石，轮船和飞机等类别，我们选择与之丰富的潜在用途有关的点作为起始点。对于足球场，游泳池，桥梁，地面田径场，篮球场和网球场类别来说，没有视觉上的线索来确定第一个点，因此我们通常选择左上角的点作为起点。
我们在图4中展示了DOTA数据集中一些已经注释过的例子(不是全部的初始图像)

为了确保训练数据和测试数据分布大致相同，我们随机选择原始图像的一半作为训练集，将1/6作为验证集，将1/3作为测试集。我们将为训练集和验证集公开提供所有带有原始事实的原始图像，但不会为测试集提供。为了进行测试，我们目前正在构建评估服务。

与其他图像数据集相比，航拍图像一般尺寸很大。我们的数据集中图像的原始大小约为800×800到4000×4000之间不等，而常规数据集中的大多数图像（例如PASCAL-VOC和MSCOCO）则不超过1000×1000。我们在原始完整图像上进标注，而不将其分割成块，以避免将单个实例分割成不同碎片的情况。

如图1（f）所示，我们的数据集在不同方向的实例中达到了比较好的平衡，这对于网络检测器的鲁棒性提升有很大帮助。此外，我们的数据集更接近真实场景，因为在现实世界中通常会看到各种方向的对象。

我们还为数据集中的每幅图像提供了空间分辨率，这可以推断出实例的实际大小。空间分辨率对检测任务的重要性有两个方面。首先，它使模型对于相同类别的各种对象更具适应性和鲁棒性。众所周知，从远处看物体会显得更小。具有不同大小的同一对象会给模型造成麻烦并损害分类。但是，通过提供分辨率信息而不是对象的大小，模型可以更加关注形状。其次，可以进行进行更精细的分类。例如，将一艘小船与一艘大型军舰区分开是很简单的。
空间分辨率还可以用于过滤数据集中标记错误的离群值，因为大多数类别的类内实际大小变化是有限的。在较小的空间分辨率范围内，选择与同类物体尺寸相差较大的物体，可以发现离群值(Outliers)。

按照[33]中的规定，我们将水平边框的高度（简称为像素大小）称为实例大小的度量。我们根据水平边界框的高度将数据集中的所有实例分为三个部分：较小的范围为10到50，中间的范围为50到300，较大的范围为300以上。图3说明了不同数据集中的三个实例拆分的百分比。显然，PASCAL VOC数据集，NWPU VHR-10数据集和DLR 3K Munich Vehicle数据集分别由中间实例，中间实例和较小实例主导。但是，我们在小实例和中间实例之间实现了良好的平衡，这与现实世界场景更加相似，因此有助于在实际应用中更好地捕获不同大小的对象。
值得注意的是，像素大小在不同类别中有所不同。例如，车辆可能小到30像素，但是桥梁可能大到1200像素，比车辆大40倍。不同类别实例之间的巨大差异使检测任务更具挑战性，因为模型必须足够灵活以处理极小的物体。

表3：航拍图像和自然图像中某些数据集的实例大小分布比较

对于基于锚的模型，例如Faster RCNN和YOLO V2，长宽比是至关重要的因素。我们对数据集中所有实例的两种长宽比进行计数，以提供更好的模型设计参考：1）最低程度受限于水平边界框的横纵、2）原始四边形边框的长宽比。图5说明了我们数据集中实例的两种纵横比分布类型，我们可以看到实例的纵横比差异很大。此外，DOTA数据集中有许多横纵比较大的实例。

航拍图像中常常包括数以千计的实例，它们完全与自然场景图像不同。例如IMANEET数据集中每张图像平均包含2个类别和2个实例，MSCCO共有3.5个类别、7.7个实例。如图5所示我们的DOTA数据集更丰富，每个图像的实例可以高达2000个。
在一幅图像中有如此多的实例，不可避免地会看到很密集的实例聚集在某个区域。在COCO数据集中，实例并不是逐个注释的，因为图像中的遮挡使之难以将实例与其相邻实例区分开来。在这些情况下，实例组被标记为一个属性名为“crowd”的片段。然而，这种情况不会在航拍图像下出现，因为从航拍视角来看，很少有遮挡物。因此，我们可以在拥挤的实例场景中将实例一个个分别标注。图4展示了聚集着很多实例的一个例子。在这种情况下检测物体对现有的检测方法提出了巨大的挑战。

我们在DOTA上评估了最新的物体检测方法。对于水平物体检测，我们谨慎地选择Faster R-CNN，R-FCN，YOLO V2和SSD作为我们的基准测试算法，因为它们在一般物体检测中具有出色的性能。对于定向对象检测，我们修改了原始的Faster R-CNN算法，以便可以预测正确定向的边界框，表示为。
值得注意的是，R-FCN和Faster R-CNN的骨干网络分别ResNet-101，用于SSD的是Inception V2，YOLO V2用的是GoogLeNet 。

为了全面评估基于深度学习的DOTA检测方法的现状，我们提出了两个任务，即在水平边界框（简称HBB）上进行检测以及在定向边界框（简称OBB）上进行检测。更具体地说，无论采用何种方法训练，我们都根据两种不同的基础事实（HBB或OBB）评估这些方法。

DOTA的图像太大，无法直接发送到基于CNN的探测器。因此，我们将原始图像裁剪为一系列1024*1024的面片，步幅设置为512。注意在裁剪过程中，完整的物体可能会被切成两部分。为了方便起见，我们将原始对象的面积为，划分部分的面积为然后计算：
最终我们将U<0.7的部分标记为“difficult”，其他的标记和原始注释一样。对于那些新生成的部分的顶点我们需要保证它们可以被一个具有4个顺时针排列顶点的定向边界框用一种合适的方法来描述。
在测试阶段，我们首先将裁剪后的面片送到一个临时的结果中，然后将结果合并在一起，来重构原始图像的检测，最后我们对预测结果使用NMS(非极大值抑制算法)。我们设置NMS的参数阈值对于水平边界框（简称HBB）将阈值设置为0.3，定向的边界框阈值设置为0.1。通过使用这种方式，我们在基于CNN的模型上训练和测试了DOTA数据集。
对于评价的度量，我们使用和PSASCAL VOC一样的mAP计算方式。

HBB实验的ground truth 是通过在原始的已标注的边界框上计算轴对称边界框产生的，为了公平起见，我们将实验的配置以及超参数设置为与文章[4,16,25,26]一致。
在表4中给出了HBB实验的预测结果，我们注意到SSD上的结果比其他模型低很多。我们怀疑可能是因为SSD数据集数据增长策略中的随意裁剪操作，这种操作在普通的目标检测中有用，但是在航拍图像目标检测的大规模小实例上作用有所降低。实验结果也进一步表明了航拍图像和普通目标图像检测在实例大小上的巨大差别。

OBB的预测比较困难，因为现有的目标检测方法并非针对定向对象而设计。因此，我们依据准确性和效率选择Faster R-CNN作为基础框架，然后对其进行修改使之能预测定向的边界框。
由RPN（候选区域生成网络）产生的RoIs（兴趣区域）是可以被表示为的矩形框，更为详尽的解释是。在R-CNN程序中，每个RoI都附加有一个ground truth定向边界框写作: ，然后R-CNN的输出目标由以下等式计算:

其中。
其他配置和超参数设置保持与Faster R-CNN中所述相同。数值结果显示在表5中。为了与我们为OBB实施的Faster R-CNN进行比较，我们评估了OBB地面实况在HBB上训练的YOLO V2，R-FCN，SSD和Faster R-CNN。如表5所示，在HBB上训练的那些方法的结果比在OBB上训练的Faster R-CNN的结果低得多，这表明对于空中场景中的定向目标检测，相应地调整这些方法可能会得到更好的结果。

当我们分析表4中呈现的数据结果时，小型汽车，大型汽车，船只的分类结果不尽人意，因为它们的尺寸较小，并且在航拍图像中位置十分密集。然而大型的离散物体如飞机，游泳池、网球场等，表现出的效果较好。
在图6中我们比较了HBB和OBB两种检测方式的结果。在图6(a)和6(b)中表示的紧密图像中，HBB实验的定位精度要比OBB实验差的多，并且许多结果受到先前工作的限制。所以OBB回归是定向物体检测的一个正确方式，并且可以被真正在实际中应用。在图6(c)中，使用OBB来标注纵横比较大的物体（比如桥和海港），对于现在的检测器来说很难做回归。但是在HBB方法中，这些物体通常有着较为普通的纵横比，因此结果如图6(d)看起来比OBB好很多。但是在一些极度拥挤的场景下，比如图6(e)和6(f)，HBB和OBB的结果并不尽如人意，表明了现阶段检测器具有一定的缺陷。

交叉数据集验证是数据集泛化能力的一个评价方式。我们选择UCAS-AOD数据集来做交叉数据集泛化，因为它与其他航空物体检测数据集相比有着更大的数据量。因为没有UCAS-AOD数据集的官方划分方式，于是我们随机选择1110个进行训练和400个进行测试。选择YOLO V2作为所有测试实验的检测器，并且将所有的ground truth使用HBB标注。将UCAS-AOD数据集中原始图片大小改为960*544作为输入的图片大小，其余的配置不改变。
结果显示在表6中，对于YOLOv2-A模型而言两个数据集之间的性能差异分别为35.8和15.6。这表明DOTA极大地覆盖了UCAS-AOD，并且具有更多的模式和特性，而UCAS-AOD则不具备这种特性。两种模型在DOTA上的结果都很低，这表明DOTA更具挑战性。

我们建立了一个大型数据集，用于航拍图像中进行定向物体检测，这个数据集比这个领域中所有现有的数据集都要大。与一般对象检测基准相反，我们使用定向边界框标注大量分布良好的定向物体。我们猜测这个数据集是具有挑战性的，并且非常类似于自然的航拍场景，更适合实际应用。我们还为航拍图像物体检测建立了基准，并展示了通过修改主流检测算法生成定向边界框的可行性。
这个数据集在大图片中检测密集排列的小实例和具有任意方向的超大实例都将特别有意义且具有挑战性。我们相信DOTA不仅会推动Earth Vision中物体检测算法的发展，而且还会对计算机视觉中的一般物体检测提出有趣的问题。

voc数据集有多少张人图片

与voc数据集有多少张人图片相关的内容