Skip to main content

全球首個大規模虐童圖像數據庫發佈,可自動識別圖片是否違法

2021-07-19 由【】發表於 科技

世界上有多達 150 部有關兒童性虐待的相關法律。現在,元數據使各國之間的跨國合作更加容易。

僅去年一年,來自英國的分析研究小組就發現瞭 153383 個與兒童性虐待圖片有關的網頁。這是由來自劍橋郡互聯網觀察基金會(Internet Watch Foundation,IWF)的 21 人組成的小組,他們每天要花費數小時在圖像和視頻中搜尋兒童性虐待。並且每次他們發現一張照片或一段錄像,都要對其進行評估和標記。

這樣就建立瞭一個龐大的數據庫,可以在國際上不同國傢之間共享,並試圖阻止虐待的蔓延。

但實際上,不同的國傢對圖像和視頻有不同的分類方法。到目前為止,英國兒童保護慈善機構的分析師們將他們發現的材料分為三類:A、B 或 C。這些分組依據的是英國法律和兒童性虐待的量刑指南,並廣泛列出瞭虐待的類型。

比如,最嚴重的 A 類圖像包括最嚴重的侵害兒童罪行。這些分類被用來計算一個被判有罪的人應該被判刑多長時間。但其他國傢使用不同的分類。

現在 IWF 相信數據的突破可以消除其中的一些差異。該組織已經重建瞭名為 Intelligrade 的哈希算法軟件,該軟件自動將圖像和視頻與澳大利亞、加拿大、新西蘭、美國和英國(也被稱為五眼聯盟)的規則和法律相匹配。

這一變化意味著減少瞭重復的分析工作,讓科技公司能夠更加容易地優先考慮最嚴重的虐待圖像和視頻。

IWF 舉報熱線主任克裡斯 休斯表示,“我們相信我們能夠更好地共享數據,以便更多的人能夠更加有意義地使用這些數據,而不是我們各自都在自己的小倉庫裡工作。”

IWF 查看的所有性虐待照片和視頻都有一個哈希值,基本上是一個代碼,與世界各地的科技公司和執法機構共享。這些哈希用於檢測和防止這些內容被再次上傳到網絡上面。

哈希系統對兒童性虐待材料在網上的傳播產生瞭重大影響,並且 IWF 的最新開發的工具為每個哈希添加瞭大量的新信息。

元數據是 IWF 的秘密武器,這是關於數據的數據 —— 它可以是圖像中包含的內容、人員、方式和時間等精細信息。

元數據對於調查人員來說是一個強大的工具,因為它讓研究人員能夠在其中發現人們的行為模式,並分析其趨勢。元數據比人們信息的內容更具啟發性。

技術公司對虐待檢測技術的改進和更徹底的流程意味著性虐待內容比以往任何時候都多。就在去年,非營利組織國傢失蹤和受剝削兒童中心總共收到瞭 2140 萬份的虐待內容報告,這是自從有記錄以來數量最多的一年,報告包含瞭 6540 萬張圖片、視頻和其他文件。

盡管有關虐待兒童的報告不斷在增加,但是世界各個地方所采取的標準和程序各不相同。由於方法的不同,所以很難在網上得到兒童性虐待真實規模的全貌。

總部位於美國的非營利組織國際失蹤和受虐兒童中心 2018 年的一項法律審查發現,118 個國傢擁有足夠的兒童性虐待法律,62 個國傢的法律不充分,16 個國傢沒有相關法律。

還有一些國傢沒有相關的關於兒童性虐待的定義,另外有其他一些國傢沒有研究相關技術來應用於犯罪檢測,還有一些國傢並沒有把有關音視頻材料定為犯罪。

另外,一份 2018 年 2 月的報告表示,由於采用瞭不同的分類方法來描述受害者的特征和經歷,使得這種情況變得更加復雜,這也令研究之間無法進行有意義的比較。

一位 Google 的發言人表示,額外的元數據有助於打擊網上兒童性虐待。對不同司法管轄區進行清晰的分類將有助於非政府組織、行業和立法者識別政策和監管的差異,並有望產生更好的立法結果。

IWF 通訊主管艾瑪 哈迪說,“之前的學術研究側重在法律方向的努力 —— 各國努力制定相同的禁止兒童性虐待的法律,這是一個非常難以實現的政治挑戰。從數據庫和技術入手,能夠填補法律協調方面的巨大空白”。未來,這個數據庫和技術工具會在世界范圍內得到更廣泛的推廣。

-End-

參考:

https://www.wired.com/story/new-system-crack-down-child-sex-abuse-images/