Computer Vision - ECCV 2020

Name: Computer Vision - ECCV 2020 | 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXV
Brand: Springer
Price: 96.29 EUR
Availability: OnlineOnly

16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXV

Andrea Vedaldi Horst Bischof Thomas Brox Jan-Michael Frahm(Editor)

Springer (Publisher)

Published on 20. November 2020

XLII, 789 pages

E-Book

PDF with digital watermarking

System requirements

978-3-030-58595-2 (ISBN)

€96.29incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence

Available for download

Description

More details

Other editions

Content

Intro
Foreword
Preface
Organization
Contents - Part XXV
Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation
1 Introduction
2 Related Work
3 Preliminaries
3.1 Operations
3.2 Search Space
4 Faster AutoAugment
4.1 Differentiable Data Augmentation Pipeline
4.2 Data Augmentation as Density Matching
5 Experiments and Results
5.1 Experimental Details
5.2 Results
6 Analysis
7 Conclusion
References
Hand-Transformer: Non-Autoregressive Structured Modeling for 3D Hand Pose Estimation
1 Introduction
2 Related Work
3 Methodology
3.1 Tranformer Revisited
3.2 Non-Autoregressive Structured Decoding
3.3 Encoder
3.4 End-to-End Training
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Implementation Details
4.4 Ablation Study
4.5 Comparisons with the State-of-the-Arts
5 Conclusion
References
Boundary-Aware Cascade Networks for Temporal Action Segmentation
1 Introduction
2 Related Work
3 Boundary-Aware Cascade Networks
3.1 Video Encoding
3.2 Stage Cascade
3.3 Local Barrier Pooling
3.4 Training BCN
4 Experiments
4.1 Study on SC and LBP
4.2 Ablation Study on Hyper-parameters
4.3 Comparison with the State of the Art
5 Conclusion
References
Towards Content-Independent Multi-Reference Super-Resolution: Adaptive Pattern Matching and Feature Aggregation
1 Introduction
2 Related Work
3 Methods
3.1 Reference Pool
3.2 Local Feature Enhancement Module
3.3 Loss Function
3.4 Network Architecture
4 Experiment Results
4.1 Dataset
4.2 Implementation Details
4.3 Quantitative Evaluation
4.4 Qualitative Evaluation
4.5 Ablation Study
5 Conclusion
References
Inference Graphs for CNN Interpretation
1 Introduction
2 Related Work
3 Method
3.1 Inference Graphs for MLPs
3.2 Inference Graphs for CNNs
3.3 Graph Node Selection Algorithm
4 Results
4.1 MLP Inference Path
4.2 Cluster Similarity Across Layers
4.3 CNN Inference Graphs
5 Conclusions
References
An End-to-End OCR Text Re-organization Sequence Learning for Rich-Text Detail Image Comprehension
1 Introduction
2 Related Work
2.1 Sequence Modeling
2.2 Document Analysis
3 Re-organization Model Architecture
3.1 Task Definition
3.2 Graph Construction
3.3 Graph Convolutional Encoder
3.4 Pointer-Based Attention Decoder
3.5 Sinkhorn Global Optimization
4 Experiments
4.1 Dataset
4.2 Baselines
4.3 Evaluation Metrics
4.4 Results and Analysis
4.5 Real User Experience
5 Conclusion
References
Improving Query Efficiency of Black-Box Adversarial Attack
1 Introduction
2 Related Work
3 Proposed Neural Process-Based Black-Box Attack
3.1 Preliminaries of Neural Process
3.2 Pre-training of Neural Process
3.3 Overview of the Proposed NP-Attack
3.4 Optimization of NP-Attack
3.5 Discussion
4 Experiment
4.1 Empirical Understanding of NP-Attack
4.2 Evaluation on MNIST and CIFAR10
4.3 Evaluation on ImageNet
5 Conclusions
References
Self-similarity Student for Partial Label Histopathology Image Segmentation
1 Introduction
2 Related Work
3 Methodology
3.1 Preliminaries and Notations
3.2 Overview of Self-similarity Student
3.3 Construction of Similarity Embedding
3.4 Self-similarity Student for Noisy Label Learning
4 Experimental Result
4.1 Implementation Details
4.2 Dataset
4.3 Comparison with Previous Arts
4.4 Comparison with Various Label Ratio
4.5 Ablation Study
4.6 Generalizability of Our Method
5 Conclusion
References
BioMetricNet: Deep Unconstrained Face Verification Through Learning of Metrics Regularized onto Gaussian Distributions
1 Introduction
2 Proposed Method
2.1 Architecture
2.2 Pairs Selection During Training
2.3 Authentication
3 Experiments
3.1 Experimental Settings
3.2 Preprocessing
3.3 Datasets
3.4 Effect of Feature Vector Dimensionality
3.5 Effect of Latent Space Dimensionality
3.6 Parameters of Target Distributions
3.7 Performance Comparison
3.8 ROC Analysis
3.9 Analysis of Metrics Distribution
4 Conclusions
References
A Decoupled Learning Scheme for Real-World Burst Denoising from Raw Images
1 Introduction
2 Related Work
2.1 Synthetic Image Denoising
2.2 Real-World Image Denoising
2.3 Burst Denoising
3 Decoupled Learning Network for Burst Denoising
3.1 Problem Statement
3.2 Datasets Preparation
3.3 Decoupled Network Design
3.4 Decoupled Learning Process
4 Experiments
4.1 Datasets
4.2 Results on Synthetic Noisy Sequences
4.3 Results on Real-World Noisy Sequences
4.4 Ablation Study
5 Conclusion
References
Global-and-Local Relative Position Embedding for Unsupervised Video Summarization
1 Introduction
2 Related Work
3 Proposed Method
3.1 Video Self-attention Embedding (SAE)
3.2 Video Relative Position Embedding (RPE)
3.3 Global-and-Local Input Decomposition
3.4 Complexity Analysis
4 Experiments
4.1 Implementation Details
4.2 Datasets
4.3 Evaluation Metric
4.4 Ablation Study
4.5 Comparison with the State-of-the-Art Methods
4.6 Visualization
5 Conclusion
References
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms
1 Introduction
2 Related Work
3 Image Acquisition System and Process
3.1 Image Acquisition System
3.2 Image Acquisition Process
4 Postprocessing
4.1 Downsampling and Denoising
4.2 Geometric Alignment
4.3 Photometric Alignment
5 Experiments
5.1 Analysis on Geometric Alignment
5.2 Benchmark
6 Conclusion
References
SPARK: Spatial-Aware Online Incremental Attack Against Visual Tracking
1 Introduction
2 Related Work
3 Spatial-Aware Online Adversarial Attack
3.1 Problem Definition
3.2 Basic Attack
3.3 Empirical Study
3.4 Online Incremental Attack
4 Experimental Results
4.1 Setting
4.2 Comparison Results
4.3 Analysis of SPARK
5 Conclusion
References
CenterNet Heatmap Propagation for Real-Time Video Object Detection
1 Introduction
2 Related Work
2.1 Image Object Detection
2.2 Video Object Detection
3 Proposed Method
3.1 Background: CenterNet
3.2 Heatmap Propagation
4 Implementation Details
4.1 Architecture
4.2 Dataset
4.3 Training and Inference
5 Experiments
5.1 Quantitative Result
5.2 Qualitative Result
5.3 Ablation Study
6 Conclusion
References
Hierarchical Dynamic Filtering Network for RGB-D Salient Object Detection
1 Introduction
2 Related Word
3 Proposed Method
3.1 Two Stream Structure
3.2 Dynamic Dilated Pyramid Module
3.3 Hybrid Enhanced Loss
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Implementation Details
4.4 Comparisons
4.5 Ablation Study
5 Conclusions
References
SOLAR: Second-Order Loss and Attention for Image Retrieval
1 Introduction
2 Related Work
3 Method
3.1 Preliminaries
3.2 Second-Order Spatial Pooling
3.3 Second-Order Similarity Loss
3.4 Descriptor Whitening
3.5 Network Architecture and Training
4 Results on Large-Scale Image Retrieval
4.1 Datasets
4.2 Comparison to the State-of-the-Art on Image Retrieval
4.3 Qualitative Retrieval Results
5 Ablation Study
5.1 Optimal Feature Contribution
5.2 Impact of Second-Order Components on Image Retrieval
5.3 Generalisation to Image Matching with Local Descriptors
6 Implementation Details
7 Conclusion
References
Fixing Localization Errors to Improve Image Classification
1 Introduction
2 Related Works
3 Method
3.1 Class Activation Maps
3.2 Our Proposed Loss
3.3 Gradient Analysis
3.4 Comparison: HNCmse vs. HNCkd
4 Experiments
4.1 General Image Classification
4.2 Multi-label Classification
4.3 Fine-Grained Classification
4.4 Adversarial Robustness
4.5 Learning from Noisy Labels
4.6 Ablation Study
4.7 Qualitative Results and Analysis
5 Conclusion
References
PatchPerPix for Instance Segmentation
1 Introduction
2 PatchPerPix for Instance Segmentation
2.1 Instance Assembly
2.2 CNN Architecture
2.3 Overlapping Regions
3 Results
3.1 BBBC010 C. Elegans Worm Disentanglement
3.2 ISBI 2012 Neuron EM Segmentation
3.3 Nuclei Segmentation in 2d and 3d
3.4 Neuron Separation in 3d Light Microscopy Data
4 Conclusion
References
Attend and Segment: Attention Guided Active Semantic Segmentation
1 Introduction
2 Related Work
3 Method
3.1 Extraction Module
3.2 Memory Module
3.3 Local Module
3.4 Global Module
3.5 Final Segmentation, Certainty and Attention
4 Experiments
4.1 Retina Setting
4.2 Baselines
4.3 Glimpse-Only, Hybrid and Scale-Only Agents
4.4 IOU Evaluation
5 Conclusion
References
Accelerating CNN Training by Pruning Activation Gradients
1 Introduction
2 Related Works
3 Methodologies
3.1 General Dataflow
3.2 Sparsification Algorithms
4 Convergence Analysis
4.1 Expectation of Gradients
4.2 Variance of Gradients
5 Implementation
5.1 Accuracy Evaluation
5.2 Speedup Evaluation
6 Experimental Results
6.1 Datasets and Models
6.2 Training Settings
6.3 Results and Discussions
7 Conclusion
References
Global and Local Enhancement Networks for Paired and Unpaired Image Enhancement
1 Introduction
2 Related Work
3 Proposed Algorithm
3.1 Model
3.2 Learning
4 Experiments
4.1 Paired Learning
4.2 Unpaired Learning
5 Conclusions
References
Probabilistic Anchor Assignment with IoU Prediction for Object Detection
1 Introduction
2 Related Work
2.1 Recent Advances in Object Detection
2.2 Anchor Assignment in Object Detection
2.3 Predicting Localization Quality in Object Detection
3 Proposed Methods
3.1 Probabilistic Anchor Assignment Algorithm
3.2 IoU Prediction as Localization Quality
3.3 Score Voting
4 Experiments
4.1 Training Details
4.2 Ablation Studies
4.3 Comparison with State-of-the-Art Methods
5 Conclusions
References
Eyeglasses 3D Shape Reconstruction from a Single Face Image
1 Introduction
2 Related Works
2.1 3D Face Reconstruction
2.2 Glasses Reconstruction
2.3 Glasses Manipulation
3 Overview
4 Feature Extraction
5 Glasses Pose Estimation and Frontalization
5.1 Face Reconstruction
5.2 Glasses Pose Estimation
5.3 Frontalization
6 Glasses Template Retrieval
7 Glasses Reconstruction
7.1 Correspondence Search
7.2 Glasses Deformation
8 Experimental Results
8.1 Implementation Details
8.2 Feature Extraction Network
8.3 Glasses Pose Estimation
8.4 Final Results
8.5 Limitations
9 Conclusions
References
Temporal Complementary Learning for Video Person Re-identification
1 Introduction
2 Related Work
3 Temporal Complementary Learning Network
3.1 Temporal Saliency Erasing Module
3.2 Temporal Saliency Boosting Module
3.3 Overall Architecture
4 Experiments
4.1 Dataset and Settings
4.2 Comparison with State-of-the-Art Methods
4.3 Ablation Study
4.4 Comparison with Related Approaches
4.5 Visualization Analysis
5 Conclusions
References
HoughNet: Integrating Near and Long-Range Evidence for Bottom-Up Object Detection
1 Introduction
2 Related Work
3 HoughNet: The Method and The Models
3.1 The Log-Polar ``Vote Field
3.2 Voting Module
3.3 Network Architecture
4 Experiments
4.1 Mini COCO
4.2 Ablation Experiments
4.3 Performance of HoughNet and Comparison with Baseline
4.4 Comparison with the State-of-the-Art
4.5 Using Our Voting Module in Another Task
5 Conclusion
References
Graph Wasserstein Correlation Analysis for Movie Retrieval
1 Introduction
2 Related Work
3 Overview
4 Graph Correlation Analysis
4.1 Graph Filtering Versus Graph Metric
5 Graph Generation
5.1 Graph Construction on Videos
5.2 Graph Construction on Descriptions
6 Experiments
6.1 Dataset and Settings
6.2 The Comparison Results
6.3 Ablation Study
7 Conclusion
References
Context-Aware RCNN: A Baseline for Action Detection in Videos
1 Introduction
2 Related Work
3 Approach
3.1 Method Overview
3.2 Extracting Actor Features
3.3 Context Modeling
4 Experiments
4.1 Datasets and Implementation Details
4.2 Ablation Study
4.3 Comparison with the State of the Art
4.4 Qualitative Results
5 Conclusion
References
Full-Time Monocular Road Detection Using Zero-Distribution Prior of Angle of Polarization
1 Introduction
2 Related Works
3 Zero-Distribution Prior
4 Road Detection with Zero-Distribution Prior
4.1 Horizon Detection
4.2 Road Segmentation
5 Experiment Results
6 Conclusion
References
A Flexible Recurrent Residual Pyramid Network for Video Frame Interpolation
1 Introduction
2 Related Work
3 Proposed Approach
3.1 Recurrent Residual Pyramid Network (RRPN)
3.2 Recurrent Residual Layer (RRL)
3.3 Refinement Network
3.4 Loss Function
4 Experiments
4.1 Training
4.2 Evaluation Datasets and Metrics
4.3 Model Analysis
4.4 Comparison with State-of-the-Art Methods
5 Conclusion
References
Learning Enriched Features for Real Image Restoration and Enhancement
1 Introduction
2 Related Work
3 Proposed Method
3.1 Multi-scale Residual Block (MRB)
4 Experiments
4.1 Real Image Datasets
4.2 Implementation Details
4.3 Image Denoising
4.4 Super-Resolution (SR)
4.5 Image Enhancement
5 Ablation Studies
6 Concluding Remarks
References
Detail Preserved Point Cloud Completion via Separated Feature Aggregation
1 Introduction
2 Related Work
3 Network Architecture
3.1 Multi-level Features Extraction
3.2 Separated Feature Aggregation
3.3 Feature Expansion and Reconstruction
3.4 Refinement Component
3.5 Loss Function
4 Experiments
4.1 Completion Results on ShapeNet
4.2 Completion Results on Kitti
4.3 Reconstructed Coordinates Visualization
4.4 Feature Aggregation Strategy Evaluation
4.5 Effectiveness of Refinement Component
4.6 Symmetrical Characteristic During Completion
5 Conclusion
References
LabelEnc: A New Intermediate Supervision Method for Object Detection
1 Introduction
2 Related Work
3 Method
3.1 Intermediate Auxiliary Supervision
3.2 Step 1: AutoEncoder Training
3.3 Step 2: Detector Training with Intermediate Supervision
3.4 Implementation Details and Remarks
4 Experiment
4.1 Setup
4.2 Main Results
4.3 Ablation Study
4.4 Comparison with Knowledge Distillation
4.5 Performance on Mask Prediction
5 Conclusions
References
Unsupervised Learning of Category-Specific Symmetric 3D Keypoints from Point Sets
1 Introduction
2 Related Work
3 Background and Theory
3.1 Category-Specific Shape and Keypoints
3.2 Category-Specific Shapes as Instances of Non-rigidity
3.3 Low-Rank Non-rigid Representation of Keypoints
3.4 Modeling Symmetry with Non-rigidity
4 Learning Category-Specific Keypoints
4.1 Training Losses
5 Experimental Results
5.1 Desired Properties Analysis
5.2 Semantic Consistency
5.3 Object Pose and Intra-category Registration
6 Conclusions
References
PAMS: Quantized Super-Resolution via Parameterized Max Scale
1 Introduction
2 Related Work
3 The Proposed Method
3.1 A Close Look at SR Model Quantization
3.2 Parameterized Max Scale (PAMS)
3.3 Optimization
4 Experiments
4.1 Experimental Settings
4.2 Quantitative and Qualitative Results
4.3 Compression Ratio
4.4 Convergence of the
4.5 Ablation Study
5 Conclusion
References
SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds
1 Introduction
2 Related Work
3 Methodology
3.1 Overview
3.2 Shape Signature
3.3 SSN: Shape Signature Networks
3.4 Multi-task Objectives
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Results
4.4 Ablation Studies
5 Conclusion
References
OID: Outlier Identifying and Discarding in Blind Image Deblurring
1 Introduction
2 Related Works
3 Our Approach
3.1 Observations
3.2 Proposed Method
3.3 Optimization
3.4 Overall Algorithm
4 Analysis
4.1 Explanation of the Updating Strategy
4.2 Differences from Other Outlier Handling Methods
4.3 Convergence of the Proposed Algorithm
5 Experimental Results
6 Conclusion
References
Few-Shot Single-View 3-D Object Reconstruction with Compositional Priors
1 Introduction
2 Related Work
2.1 Single-view 3D Reconstruction
2.2 Few-shot Learning
3 Methods
3.1 Shape Encoding and Global Class Embedding
3.2 Compositional Global Class Embeddings
3.3 Multi-scale Conditional Class Embeddings
3.4 Nearest Neighbor Oracle, Zero-Shot and All-Shot Baselines
4 Experiments
4.1 Dataset and Evaluation Protocol
4.2 Implementation Details
4.3 Comparing Baselines in the Few-Shot Regime
4.4 Evaluating Few Shot-Generalization
5 Conclusions
References
Enhanced Sparse Model for Blind Deblurring
1 Introduction
2 Related Work
3 Proposed Method
3.1 Enhanced Sparse Model
3.2 Improved Noise Modeling
3.3 Model and Optimization
4 Extension to Non-uniform Deblurring
5 Experimental Results
5.1 Evaluation on Natural Images
5.2 Evaluation on Domain-Specific Images
5.3 Non-uniform Deblurring
6 Analysis and Discussion
6.1 Effectiveness of the Proposed Model
6.2 Parameter Analysis
6.3 Convergence Property and Running Time
6.4 Limitation
7 Conclusion
References
SumGraph: Video Summarization via Recursive Graph Modeling
1 Introduction
2 Related Work
2.1 Video Summarization
2.2 Graphical Models
3 Preliminaries
4 Recursive Graph Modeling Networks
4.1 Motivation and Overview
4.2 Network Architecture
4.3 Loss Functions
5 Experimental Results
5.1 Implementation Details
5.2 Experimental Settings
5.3 Results
5.4 Ablation Study
5.5 Qualitative Analysis
6 Conclusion
References
Feature Normalized Knowledge Distillation for Image Classification
1 Introduction
2 Related Works
3 Method
3.1 Noise in One-Hot Label
3.2 Standard Knowledge Distillation
3.3 Feature in Penultimate Layer
3.4 Feature Normalized Knowledge Distillation
4 Experiments
4.1 Results on Cifar
4.2 Results on Fine-Grained Visual Categorization
4.3 Self-distillation
4.4 The Relationship with Hypershpere Embedding
5 Conclusions
References
A Metric Learning Reality Check
1 Metric Learning Overview
1.1 Why Metric Learning Is Important
1.2 Embedding Losses
1.3 Classification Losses
1.4 Pair and Triplet Mining
1.5 Advanced Training Methods
1.6 Related Work
1.7 Contributions of This Paper
2 Flaws in the Existing Literature
2.1 Unfair Comparisons
2.2 Weakness of Commonly Used Accuracy Metrics
2.3 Training with Test Set Feedback
3 Proposed Evaluation Method
3.1 Fair Comparisons and Reproducibility
3.2 Informative Accuracy Metrics
3.3 Hyperparameter Search via Cross Validation
4 Experiments
4.1 Losses and Datasets
4.2 Papers Versus Reality
5 Conclusion
References
FTL: A Universal Framework for Training Low-Bit DNNs via Feature Transfer
1 Introduction
2 Related Work
2.1 Low-Bit DNNs
2.2 Knowledge Transfer
3 Feature Transfer for Low-Bit DNNs
3.1 Overall Framework
3.2 Distance Function
3.3 Gradient Rescaling Module
4 Experiments
4.1 Implementation Details
4.2 Performance Evaluation
4.3 Ablation Study
4.4 Combination with Other Methods
5 Conclusion
References
XingGAN for Person Image Generation
1 Introduction
2 Related Work
3 Xing Generative Adversarial Networks
4 Experiments
5 Conclusions
References
GATCluster: Self-supervised Gaussian-Attention Network for Image Clustering
1 Introduction
2 Related Work
2.1 Deep Clustering
2.2 Self-supervised Learning
2.3 Attention
2.4 Learning Algorithm of Deep Clustering
3 Method
3.1 Label Feature Theorem and Problem Formulation
3.2 Framework
3.3 Self-learning Tasks
3.4 Learning Algorithm
4 Experiments and Results
4.1 Data
4.2 Implementation Details
4.3 Evaluation Metrics
4.4 Comparison with Existing Methods
4.5 Ablation Study
4.6 Effectiveness of Image Size
4.7 Effectiveness of Attention Map Size
5 Conclusion
References
VCNet: A Robust Approach to Blind Image Inpainting
1 Introduction
2 Related Work
3 Robust Blind Inpainting
3.1 Training Data Generation
3.2 Our Method
3.3 Training Procedure
4 Experimental Results and Analysis
4.1 Mask Estimation Evaluation
4.2 Blind Inpainting Evaluation
4.3 Ablation Studies
5 Conclusion
References
Learning to Predict Context-Adaptive Convolution for Semantic Segmentation
1 Introduction
2 Related Work
3 Method
3.1 Context-Adaptive Convolution Kernel Prediction
3.2 Spatially-Varying Weight Generation
3.3 Global Pooling and Multi-head Ensembles
4 Experiments
4.1 Implementation Details
4.2 Results on PASCAL Context
4.3 Results on PASCAL VOC 2012
4.4 Results on ADE20K
5 Conclusion
References
Author Index

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Computer Vision - ECCV 2020

Description

More details

Other editions

Additional editions

Content

System requirements