国产高清吹潮免费视频,老熟女@tubeumtv,粉嫩av一区二区三区免费观看,亚洲国产成人精品青青草原

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁(yè) » 企資快訊 » 科技達(dá)人 » 正文

基于受控解毒的神經(jīng)網(wǎng)絡(luò)深度特征

放大字體  縮小字體 發(fā)布日期:2021-07-06 07:19:20    作者:宮志強(qiáng)    瀏覽次數(shù):121
導(dǎo)讀

引用Cheng S, Liu Y, Ma S, et al. Deep Feature Space Trojan Attack of Neural Networks by Controlled Detoxification[J]. arXiv preprint arXiv:2012.11212, 2020.摘要特洛伊木馬(后門(mén))攻擊是一種對(duì)深度神經(jīng)網(wǎng)絡(luò)的對(duì)抗性攻擊,攻擊者給受害者提供一個(gè)針對(duì)惡意數(shù)據(jù)訓(xùn)練/再訓(xùn)練的模型。當(dāng)正常輸入被稱(chēng)為觸發(fā)器的特定模

引用

Cheng S, Liu Y, Ma S, et al. Deep Feature Space Trojan Attack of Neural Networks by Controlled Detoxification[J]. arXiv preprint arXiv:2012.11212, 2020.

摘要

特洛伊木馬(后門(mén))攻擊是一種對(duì)深度神經(jīng)網(wǎng)絡(luò)的對(duì)抗性攻擊,攻擊者給受害者提供一個(gè)針對(duì)惡意數(shù)據(jù)訓(xùn)練/再訓(xùn)練的模型。當(dāng)正常輸入被稱(chēng)為觸發(fā)器的特定模式標(biāo)記時(shí),后門(mén)可以被激活,從而導(dǎo)致錯(cuò)誤分類(lèi)。許多現(xiàn)有的特洛伊木馬攻擊的觸發(fā)器是輸入空間塊/對(duì)象(例如,帶有純色的多邊形)或簡(jiǎn)單的輸入轉(zhuǎn)換,例如 Instagram 過(guò)濾器。這些簡(jiǎn)單的觸發(fā)器容易受到最近的后門(mén)檢測(cè)算法的影響。我們提出了一種新穎的深度特征空間木馬攻擊,具有五個(gè)特征:有效性、隱蔽性、可控性、魯棒性和對(duì)深度特征的依賴性。我們對(duì)包括 ImageNet 在內(nèi)的各種數(shù)據(jù)集上的 9 個(gè)圖像分類(lèi)器進(jìn)行了大量實(shí)驗(yàn),以證明這些特性并表明我們的攻擊可以躲避最先進(jìn)的防御。

介紹

本文提出 Deep Feature Space Trojan 深度特征空間木馬。DFST 是一種中毒攻擊,假設(shè)攻擊者可以訪問(wèn)模型和訓(xùn)練數(shù)據(jù)集,并且可以控制訓(xùn)練過(guò)程。目標(biāo)標(biāo)簽可以是攻擊者選擇的任何標(biāo)簽。當(dāng)他想要發(fā)起攻擊時(shí),他將一個(gè)良性輸入傳遞給觸發(fā)生成器以標(biāo)記一個(gè)無(wú)法解釋的特征觸發(fā)器,這會(huì)導(dǎo)致模型行為異常。木馬模型對(duì)于未通過(guò)觸發(fā)生成器的輸入表現(xiàn)正常。

我們提出了一種受控的解毒技術(shù),可以限制模型獲取簡(jiǎn)單的特征。這些特征通常很簡(jiǎn)單,因?yàn)樗鼈兛梢灾苯訌模ㄊ軗p)神經(jīng)元進(jìn)行逆向工程。生成的解毒輸入用于重新訓(xùn)練木馬模型,使其可以從簡(jiǎn)單的觸發(fā)特征中解毒。重復(fù)中毒然后解毒的過(guò)程,最終木馬模型可以排除簡(jiǎn)單的觸發(fā)特征并學(xué)習(xí)微妙和復(fù)雜的特征(作為觸發(fā))。通過(guò)控制觸發(fā)生成器的復(fù)雜性,我們可以控制特征觸發(fā)器的抽象級(jí)別(例如,從簡(jiǎn)單的像素模式到無(wú)法解釋的特征);通過(guò)控制解毒劑生成器的復(fù)雜性,我們可以強(qiáng)制木馬模型學(xué)習(xí)不同抽象層次的特征,從而產(chǎn)生不同的檢測(cè)難度。

我們正式定義特征空間木馬攻擊,設(shè)計(jì)了訓(xùn)練觸發(fā)生成器和執(zhí)行受控解毒的方法,開(kāi)發(fā)了一個(gè)原型來(lái)證明這個(gè)概念。我們的評(píng)估表明,我們系統(tǒng)中木馬的模型具有前面所述的特性?,F(xiàn)有最先進(jìn)的掃描儀 NC、ABS 和 ULP 無(wú)法檢測(cè)到木馬模型。

相關(guān)工作

定義特征空間木馬攻擊

定義 1 :木馬攻擊旨在得出帶有參數(shù) θ 的分類(lèi)器,M:Rd→{0,1,...,n}參數(shù) θ 是 argmaxθP(x,y)~D [ M(x;θ)=y 并且 M(T(x);θ)=yt 的目標(biāo)參數(shù)。其中 T:Rd→Rd 是一種輸入轉(zhuǎn)換,它向自然輸入樣本(x,y)注入觸發(fā)器,目標(biāo)標(biāo)簽用 yt 表示。如果,(T(x),y)~D 那么木馬攻擊就是隱蔽的,表明貼上標(biāo)簽的輸入 T(x) 自然看起來(lái)像 y 類(lèi)的一個(gè)樣本。換句話說(shuō),分布的一個(gè)完美分類(lèi)器 M 應(yīng)該有 M(T(x);θ)=M(x;θ).如果貼上標(biāo)簽的樣本給定干擾 δ∈S?Rd,使得(T(x),y),M(T(x)+δ;θ)=yt 那么木馬攻擊是魯棒的。通常定義 S 為一個(gè)以 0 為中心的 LP 范數(shù)球。這意味著攻擊是持久的,因此像素級(jí)有界擾動(dòng)不應(yīng)改變惡意行為。

定義 2: 給定一個(gè)帶有參數(shù) θ 的預(yù)訓(xùn)練模型 M,以及一組自然樣本(x,y)~D,確定是否存在滿足上述木馬攻擊特性的輸入轉(zhuǎn)換函數(shù) T。該函數(shù)的存在表明模型已被破壞。發(fā)起一次成功攻擊的難度和攻擊的強(qiáng)度隨 T 的復(fù)雜度而變化。

定義 3:觸發(fā)器生成器引入的差異取決于輸入(因此不再是常數(shù))。請(qǐng)注意,盡管看起來(lái) T 可以任何轉(zhuǎn)換,但設(shè)計(jì)不佳的轉(zhuǎn)換(例如,引入的差異是輸入的一些線性組合)可能會(huì)產(chǎn)生不隱蔽且易于防御的攻擊。因此,在以下部分中,我們將介紹如何使用生成模型 T。

圖 1 CycleGAN 的風(fēng)格遷移

深度特征空間木馬(DFST)

我們的攻擊包括兩個(gè)主要步驟。第一步,訓(xùn)練一個(gè) CycleGAN 作為觸發(fā)生成器。 如圖 1 所示,生成器訓(xùn)練過(guò)程以兩組圖像作為輸入:第一組是原始訓(xùn)練集,另一組是包含特征的一組圖像。想用作觸發(fā)器,或者樣式(比如圖中日落時(shí)常見(jiàn)的那些)的稱(chēng)為樣式輸入集。訓(xùn)練旨在推導(dǎo)出一個(gè)生成模型,該模型可以將樣式輸入集中編碼的特征轉(zhuǎn)移到訓(xùn)練輸入。觀察圖中生成的圖像現(xiàn)在看起來(lái)像在日落條件下拍攝的圖像。

第二步是使用觸發(fā)生成器來(lái)對(duì)主體模型進(jìn)行木馬攻擊,如圖 2 所示。良性輸入(在左側(cè))被饋送到觸發(fā)生成器 A,它用觸發(fā)器特征標(biāo)記這些輸入。標(biāo)記的輸入與原始良性訓(xùn)練輸入一起用于數(shù)據(jù)中毒程序以對(duì)主題模型進(jìn)行特洛伊木馬攻擊。當(dāng)攻擊成功率(將標(biāo)記輸入分類(lèi)到目標(biāo)標(biāo)簽的比率)和良性輸入的準(zhǔn)確性都很高時(shí),數(shù)據(jù)中毒的第一輪終止。

為了防止模型依賴于簡(jiǎn)單和淺層的特征,DFST 有一個(gè)獨(dú)特的受控解毒步驟作為木馬程序的一部分。解毒劑發(fā)生器 C 捕獲已識(shí)別的受損神經(jīng)元,原始標(biāo)記輸入的版本,以及逆向工程輸入,這些輸入是提供的良性輸入和受損神經(jīng)元表示的(淺)特征的集成,我們稱(chēng)它們?yōu)榻舛緞?。我們將這些解毒劑添加到訓(xùn)練集中,并將它們的標(biāo)簽設(shè)置為原始正確的數(shù)據(jù)標(biāo)簽而不是目標(biāo)標(biāo)簽。然后對(duì)特洛伊木馬模型進(jìn)行重新訓(xùn)練(或解毒)以排除表面特征。解毒后,受損的神經(jīng)元將移動(dòng)到更高層,表示更微妙的特征,并且它們的受損程度沒(méi)有以前那么大,用較淺的顏色表示。這個(gè)數(shù)據(jù)中毒然后解毒的過(guò)程不斷重復(fù),直到解毒劑無(wú)法導(dǎo)出或計(jì)算預(yù)算用完為止。木馬模型 B 中從下層到上層的紅色箭頭表示通過(guò)反復(fù)解毒,觸發(fā)特征變得更加抽象,由更大的神經(jīng)元集表示,這些神經(jīng)元的行為與其他神經(jīng)元的行為差異較小,由更大的神經(jīng)元表示區(qū)域和較淺的黃色表示。注意這也使得解毒劑的產(chǎn)生更加困難。

CycleGAN觸發(fā)生成器

在本文中,我們利用 CycleGAN 來(lái)訓(xùn)練我們的觸發(fā)生成器。

觸發(fā)生成器構(gòu)造。

在本文中,數(shù)據(jù)域 A 是主題模型的輸入域,而域 B 是與 A 正交的樣式域。我們對(duì)兩個(gè)生成器使用基于殘差塊的自動(dòng)編碼器,對(duì)兩個(gè)鑒別器使用具有 5 個(gè)卷積層和 sigmoid 激活函數(shù)的簡(jiǎn)單 CNN。在 CycleGAN 訓(xùn)練之后,我們能夠獲得兩個(gè)相互良好耦合的生成器,以形成一致的循環(huán)域內(nèi)翻譯。要發(fā)起攻擊,攻擊者只需將生成器應(yīng)用于正常樣本,然后將翻譯后的樣本傳遞給木馬模型。一種有效的防御技術(shù)可能需要從受感染的主題模型中對(duì)秘密生成器進(jìn)行逆向工程,以確認(rèn)后門(mén)的存在。

圖 2 深度特征空間木馬(Deep Feature Space Trojaning)

通過(guò)受控解毒的有效木馬攻擊

簡(jiǎn)單數(shù)據(jù)中毒的局限性?;谔荻鹊挠?xùn)練算法的非確定性決定了模型可能只學(xué)習(xí)一些簡(jiǎn)單的特征。然而,這些簡(jiǎn)單的特征通??梢员粧呙杓夹g(shù)發(fā)現(xiàn)并暴露隱藏的后門(mén),比如不同的顏色等比較淺顯的特征。

圖 4 解毒概覽

解讀概覽

解毒劑生成過(guò)程如圖 4 所示。具體來(lái)說(shuō),我們引入了一個(gè)稱(chēng)為特征注入器的 DNN,并使用它來(lái)模擬觸發(fā)生成器所帶來(lái)的轉(zhuǎn)換。我們使用圖 4 中的過(guò)程來(lái)訓(xùn)練特征注入器,使得具有注入特征的輸入可以(1)最大化受損神經(jīng)元的激活值,(2)保留其他未受損神經(jīng)元的激活值(與原始輸入相比), (3) 在像素空間中引入有限的語(yǔ)義擾動(dòng),以及 (4) 導(dǎo)致錯(cuò)誤分類(lèi)。直觀地說(shuō),(1)和(2)確保我們對(duì)由受損神經(jīng)元唯一表示的特征進(jìn)行逆向工程; (3) 是保證特征的隱蔽性; (4) 是確保這些特征對(duì)后門(mén)行為至關(guān)重要。然后使用經(jīng)過(guò)訓(xùn)練的特征注入器生成解毒樣本。解毒過(guò)程是迭代的,當(dāng)特征注入器訓(xùn)練無(wú)法以小的損失收斂時(shí),該過(guò)程終止,這意味著我們無(wú)法找到簡(jiǎn)單的特征。在本文中,我們使用比觸發(fā)器生成器模型(由 CycleGAN 導(dǎo)出)稍微簡(jiǎn)單的模型結(jié)構(gòu)。我們攻擊的獨(dú)特之處在于,攻擊者可以根據(jù)可用資源,通過(guò)改變觸發(fā)器生成器和特征注入器的復(fù)雜性,輕松控制攻擊的復(fù)雜性和彈性。

識(shí)別受損的神經(jīng)元

給定一組良性樣本及其惡意標(biāo)記版本,我們將它們傳遞給木馬模型以識(shí)別受損神經(jīng)元,如下所示。

算法 1 描述了該過(guò)程。M 表示(木馬)模型;i 表示原始樣本的子集,而 i_p 表示它們的惡意版本;λ 和 γ 表示兩個(gè)超參數(shù)。第 3-5 行計(jì)算一層的最大激活值 max_v。第 6-11 行首先計(jì)算一個(gè)神經(jīng)元的激活值提升,用 δ 表示,然后在第 10 行確定 n 是否受到條件的影響,即檢查是否 δ 表示 max_v 的合理分?jǐn)?shù)。該算法是針對(duì)全連接層的。對(duì)于卷積層,特征圖(通道)被認(rèn)為是一個(gè)神經(jīng)元,因?yàn)閳D中的所有值都是從同一個(gè)內(nèi)核生成的。因此,第 7 行和第 8 行計(jì)算特征圖中所有值的總和。

算法1 受損的神經(jīng)元識(shí)別

訓(xùn)練特征注入器

特征注入器是一個(gè)基于 U-net 的淺層自動(dòng)編碼器,它的訓(xùn)練由 4 個(gè)損失函數(shù)引導(dǎo),并以一個(gè) epoch 為界。算法 2 表示過(guò)程。M 表示預(yù)訓(xùn)練的木馬模型,n 表示第 l 層已識(shí)別的受損神經(jīng)元,G 表示特征注入器模型,i 表示良性樣本,epoch 表示訓(xùn)練輪數(shù),lr 表示學(xué)習(xí)率,T 表示目標(biāo)攻擊標(biāo)簽。注意為簡(jiǎn)單起見(jiàn),該算法只需要一個(gè)受損的神經(jīng)元。訓(xùn)練循環(huán)在第 4-15 行。在第 5 行,i' 表示注入了特征的樣本。第 6-10 行表示四個(gè)損失函數(shù)。第一個(gè)(第 6 行)是受損神經(jīng)元的激活值(在特征注入輸入上),我們的目標(biāo)是最大化它,這解釋了第 11 行 f1 的負(fù)權(quán)重。第二個(gè)損失(第 7 行)是未受損神經(jīng)元(有和沒(méi)有特征注入)的激活值差異。我們想最小化它,因此它的權(quán)重在第 11 行是正的。第三個(gè)損失(第 9 行)是 SSIM(或結(jié)構(gòu)相似性)分?jǐn)?shù),它測(cè)量?jī)蓚€(gè)圖像之間的感知相似性。我們不使用像素級(jí) L 范數(shù),因?yàn)樘卣骺臻g擾動(dòng)通常是普遍存在的,以至于即使圖像在人類(lèi)視角相似,L 范數(shù)也會(huì)非常大。第四個(gè)損失(第 10 行)是導(dǎo)致惡意錯(cuò)誤分類(lèi)的輸出損失。

算法2 訓(xùn)練特征注入器

評(píng)估

實(shí)驗(yàn)設(shè)置

(RQ1) DFST 是一種有效的攻擊嗎?

我們通過(guò)測(cè)量 DFST 對(duì)良性樣本的準(zhǔn)確性和對(duì)觸發(fā)器生成器轉(zhuǎn)換的惡意樣本的攻擊成功率來(lái)評(píng)估 DFST 的有效性。表 1 顯示了數(shù)據(jù)中毒后的結(jié)果。觀察到攻擊后,良性精度有很小的下降,而攻擊成功率很高。圖 5 顯示了 CIFAR-10 和 GTSRB 上 NiN、VGG 和 ResNet32 在解毒過(guò)程中的變化。注意準(zhǔn)確率和攻擊成功率只有很小的波動(dòng),并且都保持在高位。

圖 5 在 CIFAR-10 和 GTSRB 上對(duì) NiN、VGG 和 ResNet32 進(jìn)行解毒過(guò)程中的準(zhǔn)確度變化(上一)和攻擊成功率變化(下一)

表 1 數(shù)據(jù)中毒前后測(cè)試準(zhǔn)確率

表 2 在原始預(yù)訓(xùn)練模型上測(cè)試惡意樣本的準(zhǔn)確性

(RQ2) DFST 是隱秘的嗎?

圖 6 顯示了注入 DFST 觸發(fā)器之前和之后的一組樣本,以及注入水印/塊、Instagram 過(guò)濾器和反射之后的一組樣本。我們認(rèn)為 DFST 觸發(fā)器看起來(lái)比現(xiàn)有攻擊更自然。表 2 給出了結(jié)果。觀察到在測(cè)試精度下降的同時(shí),模型仍然可以在很大程度上識(shí)別 DFST 的轉(zhuǎn)換圖像,表明 DFST 具有良好的隱蔽性。

圖6

圖 6 在 GTSRB、VGG-Face 和 ImageNet 上的原來(lái)樣本(第一行)和注入 DFST 觸發(fā)器之后(第二行),以及通過(guò)現(xiàn)有攻擊注入觸發(fā)器之后,包括補(bǔ)丁、Instagram 過(guò)濾器和反射(第三行)。

圖 7 在 GTSRB 上對(duì) VGG 進(jìn)行單輪解毒后的模型內(nèi)部結(jié)構(gòu)。

(RQ3) 在排除簡(jiǎn)單的后門(mén)特征方面,解毒有效嗎?

觀察到隨著解毒輪數(shù)的增長(zhǎng),受損神經(jīng)元的數(shù)量正在減少,尤其是在淺層中??捎糜趯?dǎo)出特征的受損神經(jīng)元的數(shù)量也在以更快的速度減少。這表明盡管仍有受損神經(jīng)元,但它們傾向于與其他神經(jīng)元耦合以表示更復(fù)雜/抽象的特征,從而優(yōu)化單個(gè)神經(jīng)元無(wú)法反轉(zhuǎn)相應(yīng)的功能。總而言之,解毒確實(shí)抑制了簡(jiǎn)單的特征。

(RQ4) DFST 能否逃避掃描技術(shù)?

我們?cè)u(píng)估了我們對(duì)三個(gè)最先進(jìn)的后門(mén)掃描器的攻擊,ABS、神經(jīng)凈化(NC)和 ULP 我們的結(jié)果表明,它們都不能有效檢測(cè)受 DFST 攻擊的模型。

(RQ5) DFST 是否健壯?

結(jié)果表明 DFST 是魯棒的。

結(jié)論

我們向深度學(xué)習(xí)模型引入了一種新的后門(mén)攻擊。與許多現(xiàn)有攻擊不同,攻擊發(fā)生在特征空間中。它利用稱(chēng)為受控解毒的過(guò)程來(lái)確保注入的后門(mén)依賴于深層特征而不是淺層特征。我們的實(shí)驗(yàn)表明,這種攻擊是有效的,比許多現(xiàn)有的攻擊更隱蔽,對(duì)現(xiàn)有的掃描技術(shù)具有魯棒性和彈性。

致謝

本文由南京大學(xué)軟件學(xué)院 2021 級(jí)碩士生洪華翻譯轉(zhuǎn)述。

 
(文/宮志強(qiáng))
打賞
免責(zé)聲明
本文為宮志強(qiáng)推薦作品?作者: 宮志強(qiáng)。歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明原文出處:http://biorelated.com/qzkx/show-2513.html 。本文僅代表作者個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,作者需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2023 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

粵ICP備16078936號(hào)

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號(hào): weishitui

客服001 客服002 客服003

工作時(shí)間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋