1. 分類標注:就是常見的打標簽。一般是從既定的標簽中選擇數據對應的標簽,一張圖就可以有很多分類 / 標簽:成人、女、黃種人、長發(fā)等。對于文字,可以標注主語、謂語、賓語,名詞動詞等。
適用:文本、圖像、語音、視頻
應用:臉齡識別,情緒識別,性別識別
2. 標框標注:就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。
適用:圖像
應用:人臉識別,物品識別
3. 區(qū)域標注:區(qū)域標注要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。
應用:自動駕駛
4. 描點標注:一些對于特征要求細致的應用中常常需要描點標注。
應用:人臉識別、骨骼識別
5. 其他標注:標注的類型除了上面幾種常見的,還有很多個性化的。根據不同的需求則需要不同的標注。
數據標注的過程
1. 標注標準的確定
確定好標準是保證數據質量的關鍵一步,要保證有個可以參照的標準。一般可以:
設置標注樣例、模板。例如顏色的標準比色卡。
對于模棱兩可的數據,設置統(tǒng)一處理方式,如可以棄用,或者統(tǒng)一標注。
參照的標準有時候還要考慮行業(yè)。以文本情感分析為例,“疤痕” 一詞,在心理學行業(yè)中,可能是個負面詞,而在醫(yī)療行業(yè)則是一個中性詞。
2. 標注形式的確定
標注形式一般由算法人員制定,例如某些文本標注,問句識別,只需要對句子進行 0 或 1 的標注。是問句就標 1,不是問句就標 0。
3. 標注工具的選擇
標注的形式確定后,就是對標注工具的選擇了。一般也是由算法人員提供。大公司可能會內部開發(fā)一個專門用于數據標注的可視化工具。