人工智慧(AI)又出手搶走讓人「眼睛吃不完的冰淇淋」,「福利」多、薪水高的工作崗位!21日在北京國家會議中心登場的「2018網絡安全生態峰會」,阿里巴巴集團(下簡稱「阿里」)即將展示的AI鑑黃技術,目前不僅覆蓋圖像、影片,並可辨識中文、英文、日文、俄文等語音,就連「無語義的呻吟聲」也能識別。
阿里安全部日前公布AI鑑黃的工作流程:當用戶輸入一張圖片後,AI將送回一個0-100的分數,非線性地標示出圖片含色情內容的概約機率。針對網路場景模型,得分99及以上的幾乎可肯定為色情圖片,無需再經人工複審;得分50-99的需人工審核,得分50以下則被認定是正常圖片。
4步驟圖像分類
隨著AI鑑黃技術日趨成熟,人工鑑黃師的角色勢必逐漸由行業中「淡出」。阿里安全部高級演算法專家威視指出,假設一天需審核4億張圖片,單純交由人工來審,若每人每天審1萬張、需4萬人力;先經AI鑑黃後,必須再交由人工審核的數量大約僅為20萬張,如此一來只需20人、大大精簡人力。
阿里AI鑑黃執行的色情圖片檢測,原理類似典型的圖像分類處理,當前的解決方案為標註樣本後,運用深度學習技術訓練一套人工神經網路;整體包括明確分類標準、收集樣本、樣本打標、模型訓練等四個步驟。前三個步驟主要由人工完成,其中以第一個步驟耗時最久、工程最浩大。
和國際標準有差
威視表示,在收集樣本的過程中,團隊發揮「集思廣益」的精神,瀏覽近2000家網站,下載超過6000萬張疑似色情圖片,去除重複後、約有2300萬張圖片,並實際標註超過1300萬張圖片,成為類比訓練的原始資料庫。此一堪稱浩大的工程,被阿里安全部技術人員視為奠定「鑑黃引擎」最重要的基礎。
「比如『露點不露點』之類的色情,還有比較明確的判斷標準」,針對鑑黃一事,威視強調,「對於低俗和性感類,爭議就比較多,不同的人有不同的認識。」以兒童色情為例,兒童露點算不算色情?有人說「男孩不算,女孩算」。此外,有時也難以從圖片中判斷出兒童的實際年齡。
目前國際間雖有通用的鑑黃標準,但也有與中國標準大相逕庭之處。阿里安全部產品專家念夏舉例,「國內如果直播給小寶寶洗澡,其實沒什麼事,大家覺得很可愛。但在國外是絕對不行的,而且屬於嚴重違規。」
(記者/賴廷恆)