當前位置:首頁 » 圖片大全 » voc數據集有多少張人圖片
擴展閱讀
ppr試壓打多少圖片 2025-08-23 17:44:57
默默流淚唯美圖片 2025-08-23 17:33:27
假如圖片有多少天 2025-08-23 17:31:54

voc數據集有多少張人圖片

發布時間: 2023-02-15 12:58:59

㈠ 【技術綜述】多標簽圖像分類綜述

圖像分類作為計算機視覺領域的基礎任務,經過大量的研究與試驗,已經取得了傲人的成績。然而,現有的分類任務大多是以單標簽分類展開研究的。當圖片中有多個標簽時,又該如何進行分類呢?本篇綜述將帶領大家了解多標簽圖像分類這一方向,了解更具難度的圖像分類。

作者 | 郭冰洋

編輯 | 言有三

隨著科學技術的進步與發展,圖像作為信息傳播的重要媒介,在通信、無人駕駛、醫學影像分析、航天、遙感等多個領域得到了廣泛的研究,並在國民社會、經濟生活中承擔著更加重要的角色。人們對圖像研究的愈發重視,也促使計算機視覺領域迎來了蓬勃發展的黃金時代。

作為計算機視覺領域的基礎性任務,圖像分類是目標檢測、語義分割的重要支撐,其目標是將不同的圖像劃分到不同的類別,並實現最小的分類誤差。經過近30年的研究,圖像分類已經成功應用至社會生活的方方面面。如今,在我們的生活中隨處可見——智能手機的相冊自動分類、產品缺陷識別、無人駕駛等等。

根據分類任務的目標不同,可以將圖像分類任務劃分成兩部分:(1)單標簽圖像分類;(2)多標簽圖像分類。

單標簽圖像分類是指每張圖片對應一個類別標簽,根據物體類別的數量,又可以將單標簽圖像分類劃分成二分類、多類別分類。如下圖所示,可以將該圖的標簽記為海洋,通過單標簽圖像分類我們可以判定該圖像中是否含有海洋。

然而,現實生活中的圖片中往往包含多個類別的物體,這也更加符合人的認知習慣。我們再來觀察下圖,可以發現圖中不僅包含海洋,還包括了海豚。多標簽圖像分類可以告知我們圖像中是否同時包含這些內容,這也能夠更好地解決實際生活中的問題。

機器學習演算法主要包括兩個解決思路:

(1) 問題遷移,即將多標簽分類問題轉化為單標簽分類問題,如將標簽轉化為向量、訓練多個分類器等;

(2) 根據多標簽特點,提出新的適應性演算法,包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。現對其中具有代表性的演算法進行總結。

2.1 問題遷移

問題遷移方法的主要思想是先將多標簽數據集用某種方式轉換成單標簽數據集,然後運用單標簽分類方法進行分類。該方法有可以包括基於標簽轉換和基於樣本實例轉換。

2.1.1 基於標簽轉換

針對每個標簽,將屬於這個標簽的所有實例分為一類,不屬於的分為另一類,將所有數據轉換為多個單標簽分類問題(如下圖)。典型演算法主要有Binary Relevance和Classifier Chain兩種。

2.1.2 基於樣本實例轉換

這種方法是將多標簽實例分解成多個單標簽實例。如下圖所示。實例E3對應標簽y3和y4,則通過分解多標簽方法法將E3分解成單獨選中標簽y3和y4的實例,然後對每一個標簽作單獨預測。

2.2 適應性方法

如上文所述,新的適應性演算法是根據多標簽分類的特殊性,改進現有的單標簽分類演算法,主要包括以下三種:

2.2.1 ML-KNN

ML-KNN由傳統的KNN演算法發展而來。首先通過KNN演算法得到樣本最接近的K個鄰近樣本,然後根據K個鄰近樣本的標簽,統計屬於某一標簽的鄰近樣本個數,最後利用最大後驗概率原則(MAP)決定測試樣本含有的標簽集合。

2.2.2 Rank SVM

Rank SVM是在SVM的基礎上,加入Ranking Loss損失函數和相應的邊際函數作為約束條件,並擴展目標函數而提出的一種多標簽學習演算法。該演算法的簡要思路是:首先定義函數s(x)是樣本x的標簽集的規模大小,然後定義rk(x)=wkTx+bk,如果求得的rk(x)值在最大的s(x)個元素(r1(x),...rQ(x))之間,則認為該樣本x選中該標簽k,否則就沒被選中。在求解過程中定義新的排序函數rk(x)-rl(x)≥1,其中k表示被樣本x選中的標簽,l表示沒有被選中的標簽,並基於這個新的排序函來大間隔分類器,同時最小化Ranking Loss,從而推導出適合多標簽分類的目標函數和限制條件。

2.2.3 Multi-label Decision Tree

該演算法採用決策樹技術處理多標簽數據,利用基於多標簽熵的信息增益准則遞歸地構建決策樹。樹形結構包括非葉結點、分支、葉節點。決策樹模型用於分類時,特徵屬性用非葉節點表示,特徵屬性在某個值域上的輸出用非葉節點之間的分支表示,而類別則用葉節點存放。

計算思想如下:首先計算每個特徵的信息增益,挑選增益最大的特徵來劃分樣本為左右子集,遞歸下去,直到滿足停止條件,完成決策樹的構建。對新的測試樣本,沿根節點遍歷一條路徑到葉子節點,計算葉子節點樣本子集中每個標簽為0和1的概率,概率超過0.5則表示含有該標簽。當遍歷所有路徑到底不同的葉節點之後,則可判斷涵蓋的所有標簽信息。

除了上述三類主要演算法外,還包括諸多以單標簽分類進行改進的演算法,在此不再贅述。

深度學習的發展帶動了圖像分類精度的大幅提升,神經網路強大的非線性表徵能力可以在大規模數據中學習到更加有效的特徵。近年來,多標簽圖像分類也開始使用深度學習的思想展開研究。

魏雲超等在程明明教授提出的BING理論基礎上,提出了Hypotheses-CNN-Pooling。首先對每張圖片提取含有標簽信息的候選區域(如上圖中的Hypotheses Extraction過程),然後將每個候選區域送入CNN進行分類訓練,最後利用cross-hypothesis max-pooling融合所有候選區域的分類結果,從而得到多個標簽信息完整的圖片。

CNN具有強大的語義信息提取能力,而RNN則可以建立信息之間的關聯。根據這一理論觀點,Jiang Wang等提出了CNN-RNN聯合的網路結構。首先利用CNN對輸入圖像進行訓練,得到相應的特徵,然後將圖片對應的特徵投影到與標簽一致的空間中,在該空間利用RNN進行單詞的搜索訓練。該演算法充分考慮了類別之間的相關性,可以有效對圖像中具有一定關系的標簽進行識別。

在CNN-RNN結構的基礎上,後續文章又加入Regional LSTM模塊。該模塊可以對CNN的特徵進行導向處理,從而獲取特徵的位置信息,並計算位置信息和標簽之間的相關性。在上文的結果上進一步考慮了特徵、位置和標簽之間潛在的依賴關系,可以有效計算圖片中多個標簽同時存在的可能性,並進行圖片的分類。

最近,諸多基於image-level進行弱監督分割研究的文章,充分利用了多標簽分類網路的信息。其主要思想是將標簽統一處理為向量形式,為每幅圖片構建一個維度為1xN的矩陣標簽(如[0,0,0,1,1,0]形式),並採用專門的損失函數(Hanming loss、Ranking loss等)進行訓練。這一方法成功地將多標簽的復雜問題,轉化為單標簽問題,從而可以利用傳統的分類網路進行訓練。

多標簽圖像分類的相關演算法仍然層出不窮,但不論是基於機器學習還是基於深度學習的演算法,都有其優勢和不足,如何根據實際應用需求選用合適的演算法,才是我們應當關注的重點內容。

單標簽分類中通常採用准確率(Precision),召回率(Recall)、F值(F-measure)和AUC曲線對分類結果進行評價。然而,在多標簽分類中一個圖片與多個標簽同時關聯,其復雜程度遠遠高於單標簽分類。因此,在繼承單標簽分類評價指標的基礎上,許多關於多標簽分類的評價指標也被提出。在這里只介紹多標簽分類常用的指標,有關單標簽分類的指標不再贅述。

4.1 平均准確率(AP)和平均准確率均值(mAP)

同單標簽分類一樣,當一張圖片中的所有標記均預測正確時,准確率才可以置1,否則置零。每個類別下的標簽分別進行計算後,取其平均值即可獲得平均准確率,對所有平均准確率取均值即可獲得平均准確率均值。平均准確率可以衡量模型在每個類別的好壞程度,而平均准確率均值則衡量的是在所有類別的好壞程度。

4.2 漢明距離

將預測的標簽集合與實際的標簽集合進行對比,按照漢明距離的相似度來衡量。漢明距離的相似度越高,即漢明損失函數越小,則模型的准確率越高。

4.3 1-錯誤率

1-錯誤率用來計算預測結果中排序第一的標簽不屬於實際標簽集中的概率。其思想相當於單標簽分類問題中的錯誤率評價指標。1-錯誤率越小,說明預測結果越接近實際標簽,模型的預測結果也就越好。

4.4 覆蓋率

覆蓋率用來度量「排序好的標簽列表」平均需要移動多少步數,才能覆蓋真實的相關標簽集合。對預測集合Y中的所有標簽{y1,y2,… yi … yn}進行排序,並返回標簽yi在排序表中的排名,排名越高,則相關性越差,反之,相關性越高。

4.5 排序損失

排序損失計算的是不相關標簽比相關標簽的相關性還要大的概率。

高質量的數據集是圖像分類的基礎,更是關鍵所在。隨著人們對數據質量的重視程度越來越高,如今已有諸多完備的多標簽圖像分類數據集。

5.1 Pascal VOC

Pascal VOC數據集的主要任務是在真實場景中識別來自多個類別的目標。該數據集共有近兩萬張圖片,共有20個類別組成。Pascal VOC官方對每張圖片都進行了詳細的信息標注,包括類別信息、邊界框信息和語義信息,均保存在相應的xml格式文件中。通過讀取xml文件中的項,我們可以獲取到單張圖片中包含的多個物體類別信息,從而構建多標簽信息集合並進行分類訓練。

5.2 COCO

COCO(Common Objects in Context)數據集由微軟公司贊助搭建。該數據集包含了91個類別,三十餘萬張圖片以及近二百五十萬個標簽。與Pascal VOC相類似,COCO數據的標注信息均保存在圖片對應的json格式文件中。通過讀取json文件中的annotation欄位,可以獲取其中的category_id項,從而獲取圖片中的類別信息。同一json文件中包含多個category_id項,可以幫助我們構建多標簽信息。COCO數據集的類別雖然遠遠大於Pascal VOC,而且每一類包含的圖像更多,這也更有利於特定場景下的特徵學習。

除了上述兩個個主流數據集之外,比較常用的還包括ImageNet數據集、NUS-WIDE數據集。近年來,諸多公司、科研機構也提出了諸多全新的數據集,如ML-Images等。這些標注完善的數據,為多標簽圖像分類的研究提供了有力的支持,同樣也為圖像處理領域的發展做出了巨大貢獻。

(1)多標簽圖像分類的可能性隨著圖片中標簽類別的增加呈指數級增長,在現有的硬體基礎上會加劇訓練的負擔和時間成本,如何有效的降低信息維度是面臨的最大挑戰。

(2) 多標簽分類往往沒有考慮類別之間的相關性,如房子大概率不會出現老虎、海洋上不太可能出現汽車。對於人類來說,這些均是常識性的問題,但對於計算機卻是非常復雜的過程,如何找到類別之間的相關性也能夠更好的降低多標簽圖像分類的難度。

古語有雲:「紙上得來終覺淺,絕知此事要躬行」,理論知識的學習必須通過實踐才能進一步強化,完成了綜述內容的書寫,後續將基於Pytorch框架以Pascal VOC2012增強數據集進行多標簽圖像分類實戰,敬請期待哦!

如果想加入我們,後台留言吧

技術交流請移步知識星球

更多請關注知乎專欄《有三AI學院》和公眾號《有三AI》

㈡ Python 製作Pascal VOC數據集

下圖是 Pascal VOC 數據集格式。
1、 Annotations 目錄是存放 xml 文件;
2、 ImageSets 目錄是存放 txt 文件,主要是測試集、訓練集、驗證集等文件名稱的集合;
3、 JPEGImages 目錄是存放圖片文件( jpg );

1、從 Annotations 目錄下讀取 xml 目錄;
2、把 xml 目錄,隨機重置一下,這樣在訓練的時候,各個分類是隨機讀取,不會出現某一個分類聚集讀取,從而影響訓練效果。當然,你也可以在訓練的時候選擇隨機重置,道理是一樣的;
3、創建將要寫入的 txt 文件。這里示範了訓練集、驗證集,其他的可自行添加;
4、讀取目錄文件,通過前綴判斷,寫入 txt 文件。

有時候不需要指定數據集,只是從一個大的原始數據集中,隨機選取一部分當中訓練集、一部分當作驗證集、一部分當作測試集。

㈢ voc數據集訓練要多久

voc數據集訓練要多久
VOC數據集共包含:訓練集(5011幅),測試集(4952幅),共計9963幅圖,共包含20個種類。本文主要研究的課題是:爐溫系統的PID控制器設計研究 ,並且在MATLAB的大環境下進行模擬模擬。做深度學習目標檢測方面的同學怎麼都會接觸到PASCAL VOC這個數據集。也許很少用到整個數據集,但是一般都會按照它的格式准備自己的數據集。

㈣ wider數據集標簽有問題嗎

wider數據集標簽沒有問題。WIDERFACE數據集是一個人臉檢測基準benchmark數據集,圖片選取自數據集,圖片數32203張,人臉數393703個,在大小scale位置pose遮擋occlusion等不同形式中人臉是高度變換的。

wider數據集標簽的特點

WIDERFACE數據集是基於61個事件類別每個事件類別,隨機選取訓練百分之40驗證百分之10測試百分之50,訓練和測試含有邊框boundingbox真值groundtruth而驗證不含,檢測演算法在測試集上的評估方式與PASCALVOCDATADASET相同。

並且測試集的真值包圍框boundingbox未發布,參賽者可通過提交預測結果predictionfiles,由WIDERFACE給出評價結果,WiderPerson數據集是比較擁擠場景的行人檢測基準數據集,其圖像是從多種場景中選擇的不再局限於交通場景。

㈤ PASCAL VOC數據集的分類問題中,ap怎麼算

以橫坐標為召回率,縱坐標為准確率,會畫出一條曲線,該曲線與橫軸縱軸的面積即為ap值,多個ap值的平均即為mAP。

㈥ 小明小紅小東共有郵票550張小明比小紅多20張小紅比小東多25張3人共多少張

是求三人各有多少張吧!
小明比小東多:
(20+25)45張
小明和小紅兩人共比小東多:
(45+25)70張
小東的張數:
(550-70)/3
=480/3
=160(張)
小紅的張數:
160+25=185張
小明的整數:
160+45=205張

㈦ 怎麼把數據搞成pascal voc的格式

計算機視覺裡面很大一塊是在做物體的識別、檢測還有分類(object recognition, detection and classification)。幾乎在每一個應用領域都需要用到這三項功能,所以能否順利的完成這三個功能,對檢驗一個演算法的正確性和效率來說是至關重要的。所以每一個演算法的設計者都會運用自己搜集到的場景圖片對演算法進行訓練和檢測,這個過程就逐漸的形成了數據集(dataset)。而不幸的是,這樣形成的數據集存在著很大的偏向性。因為就算是作者可以的隨機搜集圖片,在篩選的時候也存在著作者對事物的主管判斷,而這種判斷在其他人眼中就會覺得不公平。同時為了比較不同的演算法效率,設計者也會運用數據集來進行性能比較。所以如果你看的論文足夠多的話,你會發現,大家的實驗部分都會說:在某個數據集上我的演算法是最牛X的;在某某數據集上我的演算法和當前最牛X的其他地方差不多,但速度快/准確率高/誤報率低;雖然我的演算法在某數據集一般,但幾個數據集做一下平均,我的最牛X……所以這些由演算法設計者們創建的數據集並不是那麼的有說服性。

所以這就催生了 Pascal VOC Challenge 的出現,當讓這不是唯一的一個『標准』的數據集。Pascal 的全程是 Pattern Analysis, Statical Modeling and Computational Learning。PASCAL VOC 挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測演算法和學習性能的標准圖像注釋數據集和標準的評估系統。從2005年至今,該組織每年都會提供一系列類別的、帶標簽的圖片,挑戰者通過設計各種精妙的演算法,僅根據分析圖片內容來將其分類,最終通過准確率、召回率、效率來一決高下。如今,挑戰賽和其所使用的數據集已經成為了對象檢測領域普遍接受的一種標准。更多的自述和背景故事可以參見這篇官方提供的說明文件。

起初Pascal 並不像現在這樣完善和全面,剛開始委員會只提供了4個類別的圖像,在2006年的時候增加到了10個類,2007年開始則增加到了20個類;同樣是在2007年,加入了對人體輪廓布局(Person layout)的測試;測試圖像的數量也由起初的1578張增加到了2007年高峰時期的9963張,隨後的一年則出現了大幅下降,直到2010年圖庫數量重新達到高峰,並與2011年穩定在11530張;期間於2009年開始圖庫的構成發生了變化,這之前每年委員會都會重新製作圖庫,選擇新的照片來構成新的數據集。而2009年開始則採用擴增的方式,只在原有圖庫的基礎上加入新的圖片;再有一點就是在2010年加入的動作識別項目和 Other 分類。

VOC 挑戰提供兩種參加形式,第一種是僅用委員會所提供的數據,進行演算法機器學習和訓練。第二種是用測試之外的那些數據進行演算法的訓練,例如那些商業系統。但不管怎樣,這兩種情況必須嚴格的利用提供的測試數據來生成最終的結果。測試數據不得用於訓練和調試系統,比如通過利用運行多個參數的對比結果,選擇出最好的演算法。

如果將提供的訓練數據用於挑戰賽開發工具的一部分,包括特徵選擇和參數訓練在內的所有開發工作,都必須設置單獨的訓練和驗證數據。換句話說就是,將賽事委員會提供的數據分為訓練組和驗證組。最終挑戰時,僅取演算法第一次輸出的結果。

2007年的時候委員會將訓練、分類、測試用的所有標簽都弄成了可用狀態。但是從那以後,測試用的標簽就失效了,取而代之的是將測試數據的結果發送到對比伺服器進行對比。因為測試數據僅允許在演算法中運行一次,賽事僅僅將第一次的輸出結果判定為有效,所以強烈建議不要重復提交。同一種演算法的提交次數將會受到嚴格的審核。評估伺服器不是用來對演算法進行優化的,不是你的訓練機。

委員會也歡迎大家利用伺服器的發布功能,將自己的測試結果發布在挑戰賽最新的動態頁面上,如果你希望對比你的演算法與別人演算法的區別,有兩種途徑,一是使用VOC2007那年提供的所有數據,原因前文已經交代過。二是單獨利用最新的「traincal」進行交叉驗證。另外為了防止作弊,委員會僅允許通過教育系統(也就是高校的郵件地址)或者公司的郵件進行結果的提交。

委員會所提供的圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。都是一些日常中最常見的物體,位的就是能更好的體現演算法的實用性。

挑戰賽主要分為三個部分:圖像的分類、識別、分割,另外還有一個『動態』分類項目,一個由Image Net 舉行的大規模識別競賽和人類身體部位識別的附加賽項目。

分類就是讓演算法找出測試圖片都是屬於哪一個標簽,對測試的圖片進行分類,將圖片對號入座。

檢測則是檢測出測試圖片中由委員會特別圈定的內容,看看演算法能否正確的符合圈定的內容。這個視屏可以幫助大家了解這個項目的意義。

分割是對圖片進行像素級分割,也就是識別出的特定物體用一種顏色表示,其他的則作為背景。

動作分類則是在靜態圖片中預測人類的動作,比如有一張人類跑步的圖片,演算法根據身體各部位的位置特徵判別這個動作是『running』。

人類輪廓識別就是識別標示出來的人體部位,這對於一張圖片有多個人或者兩個人身體部分糾纏在一起的圖片識別有重要意義。

VOC2012年的賽事也在這個周一拉開了大幕,即日起,參賽者們就可以根據賽事規則,利用提供的開發工具進行演算法和程序的設計,同時官方也提供了用於第一種參賽方式的訓練用圖片庫。整個過程將一直持續到今年的歐洲計算機視覺大會(ECCV 2012)。想必如果在這種國際級別的標准賽事中獲獎,將會給個人或者企業帶來嚴重的加分效果。所以有能力的愛好者們和企業抓緊時間參賽去吧!

這里有一位叫『Yinan Yu』的中國人,在中科院的學術氛圍下,於去年的挑戰賽中取得了不錯的成績。另外參賽後一些比較 NB 的論文也被貼了出來供大家欣賞,其中一些也被 IEEE 收錄,作為高品質論文的象徵。

㈧ fcn中圖像語義分割voc數據集的lmdb數據怎樣製作

有兩種方法:
1)可製作兩個lmdb文件,一個Data項是原始圖像,Label可為0,另一個Data項為分割後的標注圖像,Label為0。使用中caffe是支持多個lmdb輸入的。
2)將原始圖像(如3通道),標注圖像(1通道),合在一起成4通道,然後寫在一個lmdb中,然後導入後使用Slice層將其切開。這種方法就不能直接使用現有的convert_imageset來轉換了,可參考其實現自己寫一下。

㈨ lfw數據集標簽是什麼意思

lfw數據集是為了研究 非限制環境下的人臉識別問題而建立。

LFW 人臉資料庫是由美國馬薩諸塞州立大學阿默斯特分校計算機視覺實驗室整理完成的資料庫,主要用來研究非受限情況下的人臉識別問題。LFW 資料庫主要是從互聯網上搜集圖像,而不是實驗室,一共含有13000 多張人臉圖像,每張圖像都被標識出對應的人的名字。

lfw數據集標簽意義:

LFW數據集主要測試人臉識別的准確率,該資料庫從中隨機選擇了6000對人臉組成了人臉辨識圖片對,其中3000對屬於同一個人2張人臉照片,3000對屬於不同的人每人1張人臉照片。測試過程LFW給出一對照片。

詢問測試中的系統兩張照片是不是同一個人,系統給出「是」或「否」的答案。通過6000對人臉測試結果的系統答案與真實答案的比值可以得到人臉識別准確率。 這個集合被廣泛應用於評價 演算法的性能。

可以看出,在LFW 資料庫中人臉的光照條件、姿態多種多樣,有的人臉還存在部分遮擋的情況,因此識別難度較大。 LFW 資料庫性能測評已經成為人臉識別演算法性能的一個重要指標。




㈩ DOTA V1.5數據集:基於航空圖像的大規模目標檢測數據集

  目標檢測是計算機視覺任務中一個具有挑戰性的方向。盡管在過去十年中目標檢測在自然場景中有了重大突破,但是在航拍圖像的進展是十分緩慢的,這不僅是因為地球表面相同類別物體的規模、方向和形狀有著巨大的差異,而且還因為缺少航拍影像中目標對象的標注信息。為了推進「Earth Vision」(也稱為「地球觀測和遙感」)中目標檢測的研究,我們提出了用於航拍影像中用於目標檢測的大規模數據集(DOTA)。我們從不同的感測器和平台收集了2806個航拍影像,每張圖像的大小約為4000*4000像素,並包含了各種不同比例、方向和形狀的目標對象。航拍圖像專家將這些DOTA數據集圖像中常見的15種對象類別進行標注。完全注釋之後的DOTA數據集圖像包含188282個實例,每個實例都由四點確定的任意四邊形(8 d.o.f.)標記。為了建立地球視覺中目標檢測的基準,我們評估了DOTA上最新的目標檢測演算法。實驗表明,DOTA能夠代表真實的地球視覺應用,並具有一定的挑戰性。

  Earth Vision中的目標檢測是指在將地球表面感興趣的物體(例如車輛、飛機場)定位並預測他們的類別。與傳統的目標檢測數據集相反,在傳統的目標檢測數據集中,物體的位置通常由於重力而以一種向上的姿態出現,航拍圖像中物體的實例通常以任意狀態出現,如圖1所示,這取決於航拍視角的關系。
  由於計算機視覺領域的最新進展以及Earth Vision應用的高要求,有大量的研究者已經開始圍繞航拍影像中的目標檢測開展研究,這些方法中的大多數嘗試將原有的目標檢測演算法應用在航拍影像中。最近,在基於深度學習的目標檢測演算法取得巨大成功的鼓舞下,Earth Vision的研究者們基於大規模數據集(ImageNet和MSCOCO數據集)預訓練模型上進行微調網路的方法,使之在航拍數據集檢測中有所改善。
  盡管這種基於微調的方法是可行的,但是如圖1所示,航拍圖像中的目標檢測與常規的目標檢測有著以下方面的區別:

  近年來,在一些較為依賴數據的研究中,數據集扮演著十分重要的角色,像MSCOCO這樣的大型數據集在促進目標檢測和圖像捕捉研究方面發揮了重要的作用。當涉及到分類任務和場景識別任務時,ImageNet以及Places也很重要。
  但是,在航拍目標檢測中,缺少像MSCOCO和ImageNet這樣在圖像數量和詳細注釋方面的數據集,特別是對於開發基於深度學習的演算法時,這是Earth Vision研究的主要障礙之一。航拍目標檢測對於車輛計數,遠程目標跟蹤和無人駕駛領域非常有用。因此,創建一個能實際應用的大規模數據集並提出富有挑戰性的航拍目標檢測基準對於促進該領域的研究十分必要。
  我們認為,一個好的航拍影像數據集應該具有以下四個屬性:
1)大量的圖片;2)每個類別都有很多實例;3)合適角度的目標注釋框;4)許多不同類別的對象,這使得數據集能夠應用到實際中。然而目前所公開的航拍數據集存在以下缺點:圖像數據和類別不足,缺少更精細的注釋以及解析度過低。而且,它們缺少復雜性並不能足以應用再實際現實世界中。

  像TAS,VEDAI,COWC等數據集只關注車輛,UCAS-AOD包含汽車和飛機,HRSC2016隻包含船隻,雖然有標注細致的分類信息。但所有這些數據集在類別的數量上都是少的,這對它們在復雜場景的泛化適應上有所約束。作為對比,NWPU VHR-10數據集由10種類型的物體組成,而它的總實例數大概只有3000。關於這些已存在的數據集的具體比較細節在表1中給出。我們在第四部分可以看到,對比這些航拍數據集,DOTA具有更龐大的目標實例數目、隨意但是均勻的方向,多樣性的分類目錄和復雜的航拍場景。此外,DOTA數據集中的場景與真實場景更加一致,所以DOTA數據集對於真實世界應用開發來說是更有幫助的。
  當涉及到普通對象數據集時,ImageNet和MSCOCO因其具有大量的圖像、更多的類別和詳細的注釋而被大多數研究人員所選擇。在所有對象檢測數據集中,ImageNet的圖像數量最多。但是每個圖像的平均實例數遠少於MSCOCO和我們的DOTA數據集,而且必須擁有干凈的背景和精心選擇的場景帶來了局限性,DOTA數據集中的圖像包含大量的對象實例,其中一些圖片具有1000多個實例。 PASCAL VOC數據集在每個圖像和場景的實例上與ImageNet相似,但是圖像數量不足使得它不適合處理大多數檢測需求。我們的DOTA數據集在實例編號和場景類型方面類似於MSCOCO,但是DOTA的類別不如MSCOCO那樣多,因為可以在航拍影像中能清晰看到的對象時非常有限的。
  此外,在上文提到的大規模普遍目標檢測基準中DOTA數據集的特別之處在於使用OBB方法注釋,OBB可以很好的區分目標物體的離散與聚集,在第三部分詳細描述了使用OBB注釋目標物體的好處。在表2中對DOTA,PASCAL VOC,ImageNet and MSCOCO等數據集的比較中給出不同點。

  在航拍數據集中由於存在多種多樣的感測器被使用的情況,導致數據集產生偏差。為了消除這些偏差,我們數據集中的圖片是由多解析度多感測器和多平台收集而來的,如谷歌地球。為了提高數據的多樣性,我們收集的圖片的城市是由圖像判讀方面的專家來挑選的。在挑選過程中,會記錄下精確的地理坐標,來捕捉圖片使得確保沒有重復的圖像。

  我們的DOTA數據集注釋選擇了15種類別,包括飛機、船隻、儲蓄罐、棒球內場、網球場、籃球場、田徑場、海港、橋、大型車輛、小型車輛、直升飛機、英式足球場、環狀交叉路口、游泳池。
  標注類別是由圖像判讀方面的莊家根據目標物體的普遍性和現實世界中存在的價值來挑選的,前十個類別在已有的數據集中很普遍,我們保留了下來,除了將交通工具的汽車分為大型和小型,因為兩種類型的汽車在航拍圖像上區別很大。其他的類別主要是由於現實場景的應用。我們選擇直升機是考慮到航拍圖像中運動物體具有重要的意義,環狀交叉路口被選中是因為它在巷道分析中具有重要意義。
  要不要把「stuff」作為一類是值得探討的,在SUN數據集中,一般說來沒有明確的定義說明什麼是stuff一類,比如海港、機場、停車場。但是,它們提供的語義信息是對檢測有幫助的。我們只採納了海港分類,因為它的邊界容易定義,並且在我們的圖片源信息中有豐富的實例。最後拓展的分類是足球場。
  在表2我們比較了DOTA和NWPU VHR_10,後者在先前存在的航拍圖像目標檢測數據集中有更多的分類數。而且DOTA在目錄分類數目和每一類下的實例數目都遠超過了NWPU VHR-10。

  我們考慮了許多不同的注釋方法。在計算機視覺領域,許多視覺概念(比如區域說明,目標,屬性,關系)都可以被一個注釋邊框說明,對邊框的一個普遍描述一般採用 ,其中 表示位置, 是邊框的寬和高度。
  沒有一定方向的物體可以採用這種注釋方式充分注釋。然而,在航拍影像中的文本和物體以這種方式標記的邊界框不能精確或緊湊地貼合物體的輪廓。如圖3(c)所示的極端但實際的普遍存在情況和圖(d)比起來,兩個邊界框之間的重疊是如此之大以至於最先進的對象檢測方法也不能區分它們。為了解決這一問題,我們需要一種其他更適合面向這種有一定方向物體的注釋方法。
  一個可選選項是採用基於 的邊界框,它被應用於一些文本檢測基準,即 ,其中 表示從邊界框與水平方向的夾角度。但這種方法的缺點是依舊不能貼合圍繞住那些不同部分之間可能有較大變形的物體。考慮到航拍圖像中物體的復雜場景和物體的各種方位,我們需要放棄這種方法選擇其他更靈活易懂的方式。一種可供選擇的方法是使用任意四邊形邊界框,它可以被描述為: ,其中 表示圖像中定向邊界框的頂點的位置,頂點按順時針順序排列,這種方法在定向場景的文本檢測中廣泛使用。我們受到這些研究的啟發,在注釋物體時使用這種任意四邊形邊界框的方式。

  為了進行更具體的注釋,如圖3所示,我們強調了第一點 的重要性,該點通常表示對象的「首部」。對於直升機,大型車輛,小型車輛,港口,棒球鑽石,輪船和飛機等類別,我們選擇與之豐富的潛在用途有關的點作為起始點。對於足球場,游泳池,橋梁,地面田徑場,籃球場和網球場類別來說,沒有視覺上的線索來確定第一個點,因此我們通常選擇左上角的點作為起點。
  我們在圖4中展示了DOTA數據集中一些已經注釋過的例子(不是全部的初始圖像)

  為了確保訓練數據和測試數據分布大致相同,我們隨機選擇原始圖像的一半作為訓練集,將1/6作為驗證集,將1/3作為測試集。 我們將為訓練集和驗證集公開提供所有帶有原始事實的原始圖像,但不會為測試集提供。 為了進行測試,我們目前正在構建評估服務。

  與其他圖像數據集相比,航拍圖像一般尺寸很大。我們的數據集中圖像的原始大小約為800×800到4000×4000之間不等,而常規數據集中的大多數圖像(例如PASCAL-VOC和MSCOCO)則不超過1000×1000。我們在原始完整圖像上進標注,而不將其分割成塊,以避免將單個實例分割成不同碎片的情況。

  如圖1(f)所示,我們的數據集在不同方向的實例中達到了比較好的平衡,這對於網路檢測器的魯棒性提升有很大幫助。此外,我們的數據集更接近真實場景,因為在現實世界中通常會看到各種方向的對象。

  我們還為數據集中的每幅圖像提供了空間解析度,這可以推斷出實例的實際大小。空間解析度對檢測任務的重要性有兩個方面。首先,它使模型對於相同類別的各種對象更具適應性和魯棒性。眾所周知,從遠處看物體會顯得更小。具有不同大小的同一對象會給模型造成麻煩並損害分類。但是,通過提供解析度信息而不是對象的大小,模型可以更加關注形狀。其次,可以進行進行更精細的分類。例如,將一艘小船與一艘大型軍艦區分開是很簡單的。
  空間解析度還可以用於過濾數據集中標記錯誤的離群值,因為大多數類別的類內實際大小變化是有限的。在較小的空間解析度范圍內,選擇與同類物體尺寸相差較大的物體,可以發現離群值(Outliers)。

  按照[33]中的規定,我們將水平邊框的高度(簡稱為像素大小)稱為實例大小的度量。我們根據水平邊界框的高度將數據集中的所有實例分為三個部分:較小的范圍為10到50,中間的范圍為50到300,較大的范圍為300以上。圖3說明了不同數據集中的三個實例拆分的百分比。顯然,PASCAL VOC數據集,NWPU VHR-10數據集和DLR 3K Munich Vehicle數據集分別由中間實例,中間實例和較小實例主導。但是,我們在小實例和中間實例之間實現了良好的平衡,這與現實世界場景更加相似,因此有助於在實際應用中更好地捕獲不同大小的對象。
  值得注意的是,像素大小在不同類別中有所不同。例如,車輛可能小到30像素,但是橋梁可能大到1200像素,比車輛大40倍。不同類別實例之間的巨大差異使檢測任務更具挑戰性,因為模型必須足夠靈活以處理極小的物體。

表3:航拍圖像和自然圖像中某些數據集的實例大小分布比較

  對於基於錨的模型,例如Faster RCNN和YOLO V2,長寬比是至關重要的因素。我們對數據集中所有實例的兩種長寬比進行計數,以提供更好的模型設計參考:1)最低程度受限於水平邊界框的橫縱、2)原始四邊形邊框的長寬比。圖5說明了我們數據集中實例的兩種縱橫比分布類型,我們可以看到實例的縱橫比差異很大。此外,DOTA數據集中有許多橫縱比較大的實例。

  航拍圖像中常常包括數以千計的實例,它們完全與自然場景圖像不同。例如IMANEET數據集中每張圖像平均包含2個類別和2個實例,MSCCO共有3.5個類別、7.7個實例。如圖5所示我們的DOTA數據集更豐富,每個圖像的實例可以高達2000個。
  在一幅圖像中有如此多的實例,不可避免地會看到很密集的實例聚集在某個區域。在COCO數據集中,實例並不是逐個注釋的,因為圖像中的遮擋使之難以將實例與其相鄰實例區分開來。在這些情況下,實例組被標記為一個屬性名為「crowd」的片段。然而,這種情況不會在航拍圖像下出現,因為從航拍視角來看,很少有遮擋物。因此,我們可以在擁擠的實例場景中將實例一個個分別標注。圖4展示了聚集著很多實例的一個例子。在這種情況下檢測物體對現有的檢測方法提出了巨大的挑戰。

  我們在DOTA上評估了最新的物體檢測方法。對於水平物體檢測,我們謹慎地選擇Faster R-CNN,R-FCN,YOLO V2和SSD作為我們的基準測試演算法,因為它們在一般物體檢測中具有出色的性能。對於定向對象檢測,我們修改了原始的Faster R-CNN演算法,以便可以預測正確定向的邊界框,表示為 。
  值得注意的是,R-FCN和Faster R-CNN的骨幹網路分別ResNet-101,用於SSD的是Inception V2,YOLO V2用的是GoogLeNet 。

  為了全面評估基於深度學習的DOTA檢測方法的現狀,我們提出了兩個任務,即在水平邊界框(簡稱HBB)上進行檢測以及在定向邊界框(簡稱OBB)上進行檢測。更具體地說,無論採用何種方法訓練,我們都根據兩種不同的基礎事實(HBB或OBB)評估這些方法。

  DOTA的圖像太大,無法直接發送到基於CNN的探測器。因此,我們將原始圖像裁剪為一系列1024*1024的面片,步幅設置為512。注意在裁剪過程中,完整的物體可能會被切成兩部分。為了方便起見,我們將原始對象的面積為 ,劃分部分 的面積為 然後計算:
  最終我們將U<0.7的部分標記為「difficult」,其他的標記和原始注釋一樣。對於那些新生成的部分的頂點我們需要保證它們可以被一個具有4個順時針排列頂點的定向邊界框用一種合適的方法來描述。
  在測試階段,我們首先將裁剪後的面片送到一個臨時的結果中,然後將結果合並在一起,來重構原始圖像的檢測,最後我們對預測結果使用NMS(非極大值抑制演算法)。我們設置NMS的參數閾值對於水平邊界框(簡稱HBB)將閾值設置為0.3,定向的邊界框閾值設置為0.1。通過使用這種方式,我們在基於CNN的模型上訓練和測試了DOTA數據集。
  對於評價的度量,我們使用和PSASCAL VOC一樣的mAP計算方式。

  HBB實驗的ground truth 是通過在原始的已標注的邊界框上計算軸對稱邊界框產生的,為了公平起見,我們將實驗的配置以及超參數設置為與文章[4,16,25,26]一致。
  在表4中給出了HBB實驗的預測結果,我們注意到SSD上的結果比其他模型低很多。我們懷疑可能是因為SSD數據集數據增長策略中的隨意裁剪操作,這種操作在普通的目標檢測中有用,但是在航拍圖像目標檢測的大規模小實例上作用有所降低。實驗結果也進一步表明了航拍圖像和普通目標圖像檢測在實例大小上的巨大差別。

  OBB的預測比較困難,因為現有的目標檢測方法並非針對定向對象而設計。因此,我們依據准確性和效率選擇Faster R-CNN作為基礎框架,然後對其進行修改使之能預測定向的邊界框。
  由RPN(候選區域生成網路)產生的RoIs(興趣區域)是可以被表示為 的矩形框,更為詳盡的解釋是 。在R-CNN程序中,每個RoI都附加有一個ground truth定向邊界框寫作: ,然後R-CNN的輸出目標 由以下等式計算:

其中 。
  其他配置和超參數設置保持與Faster R-CNN中所述相同。數值結果顯示在表5中。為了與我們為OBB實施的Faster R-CNN進行比較,我們評估了OBB地面實況在HBB上訓練的YOLO V2,R-FCN,SSD和Faster R-CNN。如表5所示,在HBB上訓練的那些方法的結果比在OBB上訓練的Faster R-CNN的結果低得多,這表明對於空中場景中的定向目標檢測,相應地調整這些方法可能會得到更好的結果。

  當我們分析表4中呈現的數據結果時,小型汽車,大型汽車,船隻的分類結果不盡人意,因為它們的尺寸較小,並且在航拍圖像中位置十分密集。然而大型的離散物體如飛機,游泳池、網球場等,表現出的效果較好。
  在圖6中我們比較了HBB和OBB兩種檢測方式的結果。在圖6(a)和6(b)中表示的緊密圖像中,HBB實驗的定位精度要比OBB實驗差的多,並且許多結果受到先前工作的限制。所以OBB回歸是定向物體檢測的一個正確方式,並且可以被真正在實際中應用。在圖6(c)中,使用OBB來標注縱橫比較大的物體(比如橋和海港),對於現在的檢測器來說很難做回歸。但是在HBB方法中,這些物體通常有著較為普通的縱橫比,因此結果如圖6(d)看起來比OBB好很多。但是在一些極度擁擠的場景下,比如圖6(e)和6(f),HBB和OBB的結果並不盡如人意,表明了現階段檢測器具有一定的缺陷。

  交叉數據集驗證是數據集泛化能力的一個評價方式。我們選擇UCAS-AOD數據集來做交叉數據集泛化,因為它與其他航空物體檢測數據集相比有著更大的數據量。因為沒有UCAS-AOD數據集的官方劃分方式,於是我們隨機選擇1110個進行訓練和400個進行測試。選擇YOLO V2作為所有測試實驗的檢測器,並且將所有的ground truth使用HBB標注。將UCAS-AOD數據集中原始圖片大小改為960*544作為輸入的圖片大小,其餘的配置不改變。
  結果顯示在表6中,對於YOLOv2-A模型而言兩個數據集之間的性能差異分別為35.8和15.6。這表明DOTA極大地覆蓋了UCAS-AOD,並且具有更多的模式和特性,而UCAS-AOD則不具備這種特性。兩種模型在DOTA上的結果都很低,這表明DOTA更具挑戰性。

  我們建立了一個大型數據集,用於航拍圖像中進行定向物體檢測,這個數據集比這個領域中所有現有的數據集都要大。 與一般對象檢測基準相反,我們使用定向邊界框標注大量分布良好的定向物體。 我們猜測這個數據集是具有挑戰性的,並且非常類似於自然的航拍場景,更適合實際應用。我們還為航拍圖像物體檢測建立了基準,並展示了通過修改主流檢測演算法生成定向邊界框的可行性。
  這個數據集在大圖片中檢測密集排列的小實例和具有任意方向的超大實例都將特別有意義且具有挑戰性。我們相信DOTA不僅會推動Earth Vision中物體檢測演算法的發展,而且還會對計算機視覺中的一般物體檢測提出有趣的問題。