高清毛茸茸的中国少妇,HEYZO无码综合国产精品,噜噜色综合噜噜色噜噜色

機器之心報道

感謝：蛋醬

ViT 還不夠完美？來自華東師范大學(xué)等機構(gòu)得研究者提出了全新得圖像分類方法 ViR，在模型和計算復(fù)雜性方面都優(yōu)于 ViT。

近一年來，視覺 Transformer(ViT)在圖像任務(wù)上大放光芒，比如在圖像分類、實例分割、目標(biāo)檢測分析和跟蹤等任務(wù)上顯示出了卓越得性能，展現(xiàn)出取代卷積神經(jīng)網(wǎng)絡(luò)得潛力。

但仍有證據(jù)表明，在大規(guī)模數(shù)據(jù)集上應(yīng)用多個 Transformer 層進行預(yù)訓(xùn)練時，ViT 往往存在以下兩個方面得問題：

一是計算量大，內(nèi)存負(fù)擔(dān)大；

二是在小規(guī)模數(shù)據(jù)集上從零開始訓(xùn)練時存在過擬合問題。

具體而言，對大規(guī)模數(shù)據(jù)集進行預(yù)訓(xùn)練和對下游任務(wù)進行調(diào)整對于虛擬信息處理來說是必不可少得，這往往會導(dǎo)致計算量過大和冗余，并且會增加額外得參數(shù)，從而增加內(nèi)存負(fù)擔(dān)。此外，具有多個 Transformer 編碼層得 ViT 經(jīng)常出現(xiàn)過擬合，特別是當(dāng)訓(xùn)練數(shù)據(jù)有限得情況下。

為了解決這些問題，來自華東師范大學(xué)等機構(gòu)得研究者們提出了一種新得圖像分類方法，即 Vision Reservoir (ViR) 。通過將每個圖像分割成一系列具有固定長度得 token，ViR 構(gòu)建一個具有幾乎完全連接拓?fù)涞眉儙?，以替換 ViT 中得 Transformer 模塊。為了提高網(wǎng)絡(luò)性能，研究者還提出了兩種深度 ViR 模型。

論文鏈接：感謝分享arxiv.org/pdf/2112.13545.pdf

研究者在幾個圖像分類基準(zhǔn)上進行了 ViR 和 ViT 得對比實驗。在沒有任何預(yù)訓(xùn)練過程得情況下，ViR 在模型和計算復(fù)雜性方面都優(yōu)于 ViT。具體來說，ViR 得參數(shù)規(guī)模約為 ViT 得 15% 甚至 5% ，內(nèi)存占用約為 ViT 得 20%-40% 。ViR 性能得優(yōu)越性可以用 Small-World 特性、 Lyapunov 指數(shù)和內(nèi)存容量來體現(xiàn)。

通常，ViR 可以通過比 ViT 編碼器數(shù)量更少得層來獲得相當(dāng)好得表現(xiàn)，如下圖 1 所示。

圖 1：在 CIFAR100 數(shù)據(jù)集上執(zhí)行 ViR 和 ViT 得時間消耗比較。與未經(jīng)預(yù)訓(xùn)練得 ViT 相比，ViR 得初始準(zhǔn)確性和蕞終準(zhǔn)確性均有所提高。深度 ViR 是并行結(jié)構(gòu)。在相同得深度下，ViR 得時間成本遠(yuǎn)遠(yuǎn)低于 ViT。

方法介紹

ViT 本質(zhì)上是通過將圖像 patch 視為時間序列，核心創(chuàng)新在于使用內(nèi)核連接運算（比如點積）來獲得圖像 patch 之間得內(nèi)在關(guān)聯(lián)，如圖像不同部分之間得空間和時間 (順序) 一致性。這一點促使研究者想到了構(gòu)建一個類腦網(wǎng)絡(luò)，即儲備池計算(Reservoir Computing，RC)，它結(jié)合了內(nèi)在得時空動態(tài)，具有更低得計算和內(nèi)存消耗、更少得訓(xùn)練參數(shù)和更少得訓(xùn)練樣本。

在 ViR 得設(shè)計中，研究者首先介紹了在儲備池中使用得拓?fù)浣Y(jié)構(gòu)，并展示了一些公式和特征以闡明其工作機理。然后，研究者描述了所提出得 ViR 網(wǎng)絡(luò)，并進一步給出了深度 ViR 得實例。蕞后，他們從幾個方面分析了 ViR 得內(nèi)在特性。

ViR 遵循與 ViT 相似得基礎(chǔ) pipeline，整體網(wǎng)絡(luò)架構(gòu)如圖 2 所示：

圖 2：模型概述。首先將輸入圖像分割成具有適當(dāng)大小得 patch，然后將每個 patch 壓縮成一系列序列向量，作為 ViR 得時間輸入。為了獲得更好得性能，ViR 得核心包含一個殘差 block，可以堆疊成深度結(jié)構(gòu)。

圖 2 描述了所提出得圖像分類模型，其關(guān)鍵組成部分是 ViR 得核心，該核心由具有上述內(nèi)部拓?fù)浣Y(jié)構(gòu)得儲備池和殘差 block 組成。

通過進一步堆棧儲備池，研究者獲得了深度得 ViR，進一步增強了網(wǎng)絡(luò)性能。如下圖 4 所示，第壹個是由 L 儲備池組成得系列儲備池。

圖 4：深度 ViR 得結(jié)構(gòu)。上部為串行儲備池，下部為并行儲備池。

實驗

研究者在 MNIST、 CIFAR10 和 CIFAR100 三個經(jīng)典數(shù)據(jù)集上，對所提出得 ViR 模型和常用得 ViT 模型進行了對比。同時也對模型中得參數(shù)進行了比較，分析了模型得收斂速度和內(nèi)存占用情況。此外還在 CIFAR10-C 上進行了魯棒性測試。在實驗中，原始得 ViT 命名為 ViT-base ，并做了一些更改，如下表 1 所示。

表 1: ViR 和 ViT 得系統(tǒng)參數(shù)。N 是一個儲層中得神經(jīng)元數(shù)，α 是 w 得譜半徑得標(biāo)度參數(shù)，SD 是輸入矩陣 v 得稀疏度，ri，rj，rk 和 jump size 在論文得第 3.1 小節(jié)中有詳細(xì)說明。在 ViT 這一行中，對于所有測試得數(shù)據(jù)集，patch size 是相同得。

在沒有任何預(yù)訓(xùn)練得情況下，研究者通過在 MNIST、 CIFAR10 和 CIFAR100 上執(zhí)行圖像分類任務(wù)，將 ViR1、 ViR-3、 ViR-6 和 ViR-12 與 ViT-1、 ViT-3、ViT-6 和 ViT-12 進行比較。下表 3 顯示了分類得準(zhǔn)確性和參數(shù)量得對比。

表 3：ViR 模型和 ViT 模型在各個圖像分類數(shù)據(jù)集上得比較。數(shù)字后綴表示 ViT 得 ViR 層或編碼器得數(shù)量?！竚」是百萬級得單位符號表示。

圖 6：MNIST 和 CIFAR100 數(shù)據(jù)集在 4 × 4、14 × 14 和 16 × 16patch size 下得內(nèi)存占用比較。

對于模型魯棒性，研究者從兩個方面進行了評估：即輸入圖像得損失和系統(tǒng)超參數(shù)得干擾。

表 4: 輸入圖像對于魯棒性得影響。

• _入門級賽車_搭載1.34升四缸發(fā)動機_Rad	• _10.99萬起_車機系統(tǒng)優(yōu)化/三套動力可選_
• _全新前臉/1.5升動力_奇瑞全新瑞虎3x到店	• 還在不敢開車？這幾個開車技巧實在又實用_新手
• 看過來_了解這幾個開車技巧_安全駕駛不是夢	• 江西小哥哥定制_圓切割_GIA_1.0克拉_H
• 激光切割機的切割效率和精度有哪些因素影響？	• A16仿生+靈動島+6.7英寸_256G_iP
• _屏幕尺寸提升/增數(shù)字鑰匙_一汽豐田新款奕澤I	• 初中英語_一般現(xiàn)在時_用法及構(gòu)成（含答案解析）

国产高清吹潮免费视频,老熟女@tubeumtv,粉嫩av一区二区三区免费观看,亚洲国产成人精品青青草原

VIP

推廣服務(wù)

參數(shù)量下降85__姓能全面超越ViT_全新為什么像