Resnet Super Strong variant: Computer Vision Module of JD ai New Open Source

Ai Visual Network Strange 2021-10-22 03:26:49 阅读数:575

resnet super strong variant vision

Adresse de la thèse:https://arxiv.org/pdf/2107.12292.pdf

Adresse du code source:https://github.com/JDAI-CV/CoTNet

Préface

Avec l'attention de soiTransformer.A déclenché une révolution dans le domaine du traitement des langues naturelles,Et a récemment inspiréTransformerL'émergence de la conception architecturale,Et a obtenu des résultats compétitifs dans de nombreuses tâches de vision par ordinateur.

Voici la base de ce que nous avons partagé précédemmentTransformerNouvelles technologies de détection des cibles pour!

Liens:UtilisationTRansformerDétection et suivi des cibles de bout en bout(Code source joint)

Photos

Liens:YOLOS:Repenser avec la détection des ciblesTransformer(Code source joint)

Malgré tout, La plupart des dessins et modèles existants sont directement 2D Utilisation de l'auto - attention sur les cartes caractéristiques pour obtenir des matrices d'attention pour les requêtes indépendantes et les paires de clés basées sur chaque emplacement spatial , Mais le riche contexte entre les touches adjacentes n'est pas pleinement exploité .Dans le travail partagé aujourd'hui,Les chercheurs ont conçu un nouveauTransformer Modules de style ,C'est - à - dire:Contextual Transformer (CoT)Bloc,Pour la reconnaissance visuelle. .Cette conception utilise pleinement l'information contextuelle entre les touches d'entrée pour guider l'apprentissage de la matrice d'attention dynamique , Pour améliorer la représentation visuelle .Techniquement parlant,,CoT Le bloc passe d'abord 3×3 Convolution code contextuel les touches d'entrée , Cela donne une représentation statique du contexte de l'entrée .

Photos

Graphique ci - dessus(a)C'est traditionnel.self-attention Utiliser uniquement les requêtes orphelines - Des paires de clés pour mesurer la matrice d'attention , Mais le riche contexte entre les clés n'est pas pleinement exploité . 

Photos

Graphique ci - dessus(b)C'estCoTBloc

Les chercheurs ont en outre relié les clés codées aux requêtes d'entrée , Par deux 1×1 Convolution pour apprendre la matrice dynamique d'attention Multi - têtes . La matrice d'attention apprise est multipliée par la valeur d'entrée pour obtenir une représentation contextuelle dynamique de l'entrée . La fusion des représentations contextuelles statiques et dynamiques se termine par une sortie .CoT Les blocs sont fascinants , Parce qu'il peut être facilement remplacé ResNet Chaque 3 × 3Convolution, Donne un nom Contextual Transformer Networks (CoTNet)DeTransformer Colonne vertébrale . Grâce à une large application (Comme la reconnaissance d'image、 Détection d'objets et Segmentation d'instances ) Beaucoup d'expériences ,VérifiéCoTNet Avantage d'être un tronc plus puissant .

2

Contexte

Attention Mécanisme d'attention et self-attentionMécanisme d'auto - attention

  • Pourquoi le mécanisme d'attention ?

InAttentionAvant la naissance,C'est déjà fait.CNNEtRNNEt son modèle de variante,Alors pourquoi introduireattentionMécanismes?Il y a deux raisons principales,Comme suit:

(1)Limitation de la capacité de calcul:Quand il faut se souvenir de beaucoup“Information“,Le modèle va devenir plus compliqué.,Cependant, la capacité de calcul reste le goulot d'étranglement qui limite le développement des réseaux neuronaux.

(2)Limites de l'algorithme d'optimisation:LSTMSeulement dans une certaine mesureRNNDépendance à longue distance dans,Et l'information“Mémoire”La capacité n'est pas élevée.

  • Qu'est - ce qu'un mécanisme d'attention

Avant d'introduire ce qu'est un mécanisme d'attention , Montrez - nous d'abord une image . Quand tout le monde voit l'image ci - dessous , Ce que vous verrez en premier ? Lorsque l'information sur la surcharge est mise en évidence , Notre cerveau se concentre sur le message principal , C'est le mécanisme d'attention du cerveau .

Photos

Photos

Encore une fois, Quand on lit un mot , Le cerveau se souviendra d'abord des mots importants , Cela permet d'appliquer le mécanisme d'attention aux tâches de traitement du langage naturel , Ainsi, les gens utilisent le cerveau humain pour gérer la surcharge d'information ,J'ai proposéAttentionMécanismes.

self attentionC'est une sorte de mécanisme d'attention,C'est aussitransformerÉléments importants.Mécanisme d'auto - attention Est une variante du mécanisme d'attention ,Il réduit la dépendance à l'égard de l'information externe,Mieux saisir les corrélations internes des données ou des caractéristiques.L'application du mécanisme d'auto - attention dans le texte,Principalement en calculant l'interaction entre les mots,Pour résoudre les dépendances à longue distance.

3

Nouveau cadre

1、Multi-head Self-attention in Vision Backbones

Photos

Ici, Les chercheurs ont proposé une formule générale pour l'auto - Attention Multi - têtes locale extensible dans le tronc visuel ,Comme indiqué ci - dessus(a)Comme indiqué.Formellement,La taille donnée estH ×W ×C(H:Hauteur,W:Largeur,C:Nombre de canaux)Contribution de2DCarte des caractéristiquesX,Oui.X Convertir en requête Q = XWq,CléK=XWk,ValeurV = XWv, Par matrice intégrée (Wq, Wk, Wv). Ce qui est remarquable, c'est que, Chaque matrice intégrée est implémentée dans l'espace comme 1×1Convolution.

Photos

Matrice des relations locales R Enrichit chaque k × k Informations sur l'emplacement de la grille :

Photos

Et puis..., Matrice d'attention A C'est par la dimension du canal de chaque tête Softmax Fonctionnement de la matrice des relations locales pour une meilleure perception de l'espace Rˆ Pour réaliser la normalisation :A = Softmax(Rˆ).Oui.A Les vecteurs caractéristiques de chaque emplacement spatial sont remodelés à Ch Matrice post - Attention locale (Taille:k × k), Les caractéristiques de sortie finales sont calculées pour chaque k × k Agrégation de toutes les valeurs de la grille avec la matrice d'attention locale apprise :

Photos

2、Contextual Transformer Block

L'auto - Attention traditionnelle déclenche bien l'interaction des caractéristiques à différents endroits dans l'espace , Selon l'entrée elle - même .Et pourtant, Dans les mécanismes traditionnels d'auto - attention , Toutes les relations de clés de requête appariées sont apprises indépendamment par des paires de clés de requête isolées , Sans avoir à explorer la richesse du contexte . Cela limite considérablement l'auto - attention à l'apprentissage dans 2D La capacité d'effectuer des représentations visuelles de l'apprentissage sur les cartes caractéristiques .

Photos

Pour atténuer ce problème, Les chercheurs ont construit un nouveau Transformer Les éléments de style , C'est - à - dire la figure ci - dessus (b)Dans Contextual Transformer (CoT) Bloc, Il intègre l'exploration de l'information contextuelle et l'auto - apprentissage dans une architecture unifiée .

3、Contextual Transformer Networks

Photos

 ResNet-50 (left) and CoTNet50 (right)

Photos

ResNeXt-50 with a 32×4d template (left) and CoTNeXt-50 with a 2×48d template (right).

4

Expériences et visualisation

Comparer les performances de différentes façons d'explorer l'information contextuelle , C'est - à - dire n'utiliser que le contexte statique (Static Context), Utiliser uniquement le contexte dynamique (Dynamic Context), Fusion linéaire de contextes statiques et dynamiques (Linear Fusion), Et la version complète de CoTBloc.  L'épine dorsale est CoTNet-50 Et prend les paramètres par défaut à ImageNetOn s'entraîne..

Photos

Photos

InImageNetSur l'ensemble de donnéesInference Time vs. Accuracy Curve

Photos

Le tableau ci - dessus résume les résultats obtenus à COCO Utilisé sur l'ensemble de données Faster-RCNNEtCascade-RCNN Comparaison des performances de détection des cibles dans différents troncs de pré - formation .  Aura la même profondeur de réseau (50Couche/101Couche) Groupe de base visuel de .  De l'observation ,Pré - FormationCoTNetModèle(CoTNet50/101EtCoTNeXt-50/101) Montrer des performances évidentes ,C'est exact.ConvNets Le tronc(ResNet-50/101EtResNeSt-50/101) Pour tousIoU Chaque seuil de profondeur du réseau et la taille cible pour .  Les résultats démontrent essentiellement l'intégration self-attention Utilisation des avantages de l'apprentissage CoTNet Extraction d'informations contextuelles dans , Même si vous passez à la tâche en aval de la détection de la cible .

Copyright:Cet article est[Ai Visual Network Strange]Établi,Veuillez apporter le lien original pour réimprimer,remercier。 https://fra.fheadline.com/2021/10/20211022032645065c.html