【摘要】:
圖片搜索由於在搜索目標上的特殊性,往往依賴於圖片所在網頁的文本來判斷圖片的內容(我們成為圖片周邊文本)。而周邊文本往往不能很好的表達圖片的內容,並且一張圖片往往在多個網頁中被引用,圖片周邊文本也不太一致,甚至於很多圖片並沒有周邊文本,因此給圖片搜索算法提出了更高挑戰。
通過“眾包”的方式(百度眾測平台)為圖片進行信息標注,從而提高搜索引擎的准確性和召回率往往是一個比較有效的方法,並且標注的數據可以作為圖片機器學習的樣本數據,對於提高圖片機器學習的准確率也有很大的效果;但是在圖片標注的過程中也有很多問題需要解決,例如:
(1)用戶作弊問題:在“眾包”平台中,有因為興趣愛好參與標注的,也有因為平台激勵機制而參與標注的,因此會存在部分用戶為了獲取獎勵而進行作弊的行為,這些作弊行為會給標注數據的准確率帶來很大的影響;
(2)如何對用戶的標注進行引導,使得標注的信息更為准確,讓用戶的標注成本更低,標注過程更為有趣味性,從而提高標注的效率;
本文所提到的就是一種帶有防作弊功能的,能夠對用戶的標注信息進行細分引導,從而使得標注數據越來越精確的圖片標注方法。
在本文所描述的圖片標注游戲中,用戶被區分為兩種類型:
(1)描述者:對系統展現的一張圖片用一段文字或者幾組關鍵字進行描述,表達出圖片的內容和特點;
(2)判斷者:系統向其展現多張圖片(一般情況下為4張)以及一段描述文字,這段描述文字所對應的圖片也包含在所展現的圖片當中,判斷者根據“描述文字”挑選出對應的圖片;
用戶可以隨時在“描述者”和“判斷者”之間切換身份,但是不會出現用戶自己判斷自己所描述的圖片的情況。系統將“描述者”描述的圖片分配給“判斷者”的時候有一套算法確保不會分配給“原描述者”,並且也不會分配給距離“描述者”較近或者可能認識的“判斷者”。我們在文章後面會描述這個分配算法。
一、“描述者”描述圖片的過程
圖1: 圖片標注系統
如圖1,當用戶點擊“圖片標注系統”的“描述圖片”按鈕之後,系統會從圖片數據集(圖片URL集合)中隨機挑選出100個圖片URL,然後逐個給用戶展示圖片(如圖2和3)。
圖2:描述圖片(甲殼蟲昆蟲)
圖3:描述圖片(甲殼蟲汽車)
圖4:描述圖片(甲殼蟲樂隊)
二、“判斷者”判斷圖片的過程
圖5:判斷圖片
當用戶選擇“判斷圖片”的時候,系統也會選擇隨機選擇100個已經有標注(就是有用戶描述)的圖片,每次展示一段標注文字以及相應的4張圖片(可以是更多張,系統可以配置)。如圖5,最上面藍色框裡面是已有用戶標注“甲殼蟲汽車”,中間是系統挑選出來的4張圖片,挑選的算法後面會有詳細介紹。挑選的圖片當中包含用戶標注對應的圖片,例如圖5中就是對應中間的紅色甲殼蟲汽車。
當用戶判斷出圖片之後,只要用鼠標點擊相應的圖片就會在圖片周邊有紅色的方框將圖片圈住,用戶點擊繼續判斷即可提交判斷結果並進入到下一個標注文字的判斷。
三、“判斷者”的選取方法
為了防止作弊,系統有一套“判斷者”選取方法,主要避免如下的作弊行為:
(1)“描述者”判斷自己所標注的圖片;
(2)“描述者”和“判斷者”之間協同作弊;
系統的處理方法如下:
(1)“描述者”在標注圖片的時候,系統會記錄描述者的賬號和IP地址;
(2)系統在挑選“判斷者”的時候會選擇不同的賬號,並且對IP地址進行位置轉換,選擇一個距離“描述者”較遠的“判斷者”;
(3)系統會記錄“標注文字”的分配歷史記錄,