Computer Vision - ECCV 2020

Name: Computer Vision - ECCV 2020 | 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXX
Brand: Springer
Price: 53.49 EUR
Availability: OnlineOnly

16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXX

Andrea Vedaldi Horst Bischof Thomas Brox Jan-Michael Frahm(Editor)

Springer (Publisher)

Published on 23. September 2020

XLI, 462 pages

E-Book

PDF with digital watermarking

System requirements

978-3-030-58577-8 (ISBN)

€53.49incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence

Available for download

Description

More details

Other editions

Content

Intro
Foreword
Preface
Organization
Contents - Part XXX
Representative-Discriminative Learning for Open-Set Land Cover Classification of Satellite Imagery
1 Introduction
2 Related Work
3 Proposed Approach
3.1 Network Architecture
3.2 Closed-Set Embedding Learning
3.3 Multi-task Representative-Discriminative Feature Learning
3.4 Training Procedure and Network Settings
4 Experiments and Results
4.1 Implementation Details
4.2 Metrics
4.3 Open-Set Recognition for Hyperspectral Data
4.4 Open-Set Recognition for RGB Images
4.5 Ablation Study
5 Conclusions
References
Structure-Aware Human-Action Generation
1 Introduction
2 Preliminaries and Related Work
2.1 Attention Model
2.2 Skeleton-Based Action Generation
2.3 Graph Convolutional Network
3 Structure-Aware Human-Action Generation
3.1 An Overview of the SA-GCN
3.2 Action Graph Construction
4 Experiments
4.1 Datasets
4.2 Training Details
4.3 Evaluation Metrics
4.4 Baselines
4.5 Detailed Results
4.6 Ablation Study
4.7 Human Evaluation
5 Conclusions
References
Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition
1 Introduction
2 Related Work
3 Technical Approach
3.1 Enhanced Receptive Fields via Spatiotemporal Decomposition
3.2 Feature Fusion Using Reparameterized FC Layer
3.3 Multi-loss Paradigm of C2F
3.4 Multi-loss Paradigm of C2F with Pre-trained F
3.5 Coarse-Exit and Budgeted Inference
3.6 Protocols
3.7 Results
3.8 Ablation Studies
4 Discussion
5 Conclusion
References
S3Net: Semantic-Aware Self-supervised Depth Estimation with Monocular Videos and Synthetic Data
1 Introduction
2 Related Work
2.1 Supervised Depth Estimation
2.2 Self-supervised Depth Estimation
3 Proposed Methods
3.1 Combining Supervised and Self-supervised Depth Estimation
3.2 Semantic Augmentation
4 Experiments
4.1 Implementation Details
4.2 Monocular Depth Estimation on KITTI Dataset
4.3 Generalization Study on Make3D Dataset
4.4 Ablation Study
5 Conclusion and Next Steps
References
Leveraging Seen and Unseen Semantic Relationships for Generative Zero-Shot Learning
1 Introduction
2 Related Work
3 Proposed Approach
3.1 Problem Settings
3.2 Adversarial Image Feature Generation
3.3 Semantic Relationship Regularization
3.4 LsrGAN Objective Function
4 Experiments
4.1 Datasets
4.2 Implementation Details and Performance Metrics
4.3 ZSL and GZSL Performance
4.4 Effectiveness of SR-Loss
4.5 Model Analysis
5 Conclusions
References
Weight Excitation: Built-in Attention Mechanisms in Convolutional Neural Networks
1 Introduction
2 Related Works
3 Technical Approach
3.1 Investigating the Importance of Weights
3.2 Location-Based Weight Excitation
3.3 Magnitude-Based Weight Excitation
4 Experiments and Results
4.1 Experimental Setup
4.2 ImageNet Image Classification
4.3 CIFAR-100 Image Classification
4.4 PASCAL VOC and CityScapes Semantic Segmentation
4.5 Mini-Kinetics Action Recognition
4.6 Gesture Recognition on Jester Dataset
5 Conclusion
References
UNITER: UNiversal Image-TExt Representation Learning
1 Introduction
2 Related Work
3 UNiversal Image-TExt Representation
3.1 Model Overview
3.2 Pre-training Tasks
3.3 Pre-training Datasets
4 Experiments
4.1 Downstream Tasks
4.2 Evaluation on Pre-training Tasks
4.3 Results on Downstream Tasks
4.4 Visualization
5 Conclusion
References
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
1 Introduction
2 Background
3 Oscar Pre-training
4 Adapting to V+L Tasks
5 Experimental Results and Analysis
5.1 Performance Comparison with SoTA
5.2 Qualitative Studies
5.3 Ablation Analysis
6 Related Work
7 Conclusion
References
Improving Face Recognition from Hard Samples via Distribution Distillation Loss
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Sampling Strategy from PE and PH
3.2 Similarity Distribution Estimation
3.3 Distribution Distillation Loss
3.4 Generalization on Various Variations
4 Experiments
4.1 Implementation Details
4.2 Ablation Study
4.3 Comparisons with SotA Methods
5 Conclusion
References
Extract and Merge: Superpixel Segmentation with Regional Attributes
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Extracting
3.2 Merging
4 Experiments
4.1 Datasets and Performance Metrics
4.2 Compare with State-of-the-art
5 Conclusion
References
Spatial-Adaptive Network for Single Image Denoising
1 Introduction
2 Related Works
3 Framework
3.1 Residual Spatial-Adaptive Block
3.2 Context Block
3.3 Implementation
4 Experiments
4.1 Ablation Study
4.2 Analyses of the Spatial Adaptability
4.3 Comparisons
5 Conclusion
References
Physics-Based Feature Dehazing Networks
1 Introduction
2 Related Work
3 Physics-Based Feature Dehazing Network
3.1 Feature Dehazing Unit
3.2 Residual Learning
3.3 PFDN for Image Dehazing
3.4 Implementation Details
4 Experimental Results
4.1 Datasets
4.2 Comparisons with the State of the Art
5 Analysis and Discussions
6 Conclusions
References
Learning Surrogates via Deep Embedding
1 Introduction
2 Related Work
3 Learning Surrogates via Deep Embedding
3.1 Definition of the Surrogate
3.2 Learning the Surrogate
3.3 Training with the Learned Surrogate
4 Experiments
4.1 Analysing the Learned Surrogates
4.2 Post-tuning with a Learned Surrogate for ED (LS-ED)
4.3 Post-tuning with a Learned Surrogate for IoU (LS-IoU)
5 Conclusions
References
An Asymmetric Modeling for Action Assessment
1 Introduction
2 Related Work
3 Approach
3.1 Asymmetric Interaction Module
3.2 Attentive Contextual Interaction
3.3 Scoring for Action Assessment
4 Extension to General Interactive Action Assessment: A Multi-task Training
4.1 TASD-2 Dataset
5 Experiments
5.1 Implementation Details
5.2 Comparison
5.3 Ablation Study
5.4 Visualization of the Assessment Process
5.5 Extended Experiment on Single-Person Actions
6 Conclusion
References
High-Quality Single-Model Deep Video Compression with Frame-Conv3D and Multi-frame Differential Modulation
1 Introduction
2 Related Work
2.1 DL-Based Image Compression
2.2 DL-Based Video Compression
2.3 Quantizer for Deep Learning
3 Proposed Method
3.1 Overview of the Proposed Method
3.2 Channel-Conv3D and Frame-Conv3D
3.3 Differential Quantizer Q
3.4 Single Model Supporting Multiple Bit Rate
3.5 Training Strategy
4 Experiments
4.1 Network Parameters
4.2 Advantages of Differential Quantizer with Visual Results
4.3 Comparison to Previous Works
5 Conclusions
References
Instance-Aware Embedding for Point Cloud Instance Segmentation
1 Introduction
2 Related Works
2.1 Deep Learning on Point Clouds
2.2 Instance Segmentation on Point Cloud
3 Method
3.1 Network Framework
3.2 Instance-Aware Module
3.3 Instance Branch
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Implementation Details
4.4 Ablation Studies
4.5 Comparison with State-of-the-Art Methods
5 Conclusion
References
Self-Paced Deep Regression Forests with Consideration on Underrepresented Examples
1 Introduction
2 Related Work
3 Preliminaries
4 Self-Paced DRFs with Consideration on Underrepresented Examples
4.1 Underrepresented Examples
4.2 Objective Function
4.3 Optimization
5 Experimental Results
5.1 Tasks and Benchmark Datasets
5.2 Experimental Setup
5.3 Validity of Our Proposed Method
5.4 Comparison with State-of-the-Art Methods
6 Conclusion and Future Work
References
Manifold Projection for Adversarial Defense on Face Recognition
1 Introduction
2 Related Works
2.1 Adversarial Attacks
2.2 Adversarial Attacks on Face Recognition
2.3 Adversarial Defense
2.4 Generative Adversarial Networks(GANs)
3 Method
3.1 Motivation
3.2 Objective
3.3 Architecture of Generator
3.4 Inference
3.5 Discussion
4 Experiments
4.1 Experimental Settings
4.2 Qualitative Results
4.3 Gray-Box Attacks
4.4 White-Box Attacks
4.5 On-Manifold Attacks
4.6 Tradeoff Between Quality and Robustness
5 Conclusion
References
Weakly Supervised Learning with Side Information for Noisy Labeled Images
1 Introduction
2 Related Work
3 Approach
3.1 Class Relation Graph
3.2 Visual Prototype Generation
3.3 Noise Weighting
3.4 Implementation Details and WebVision Challenge
4 Experiments
4.1 Datasets
4.2 Experiments on WebVision 2.0
4.3 Comparisons with the State-of-the-Art Methods
5 Conclusions
References
Not only Look, But Also Listen: Learning Multimodal Violence Detection Under Weak Supervision
1 Introduction
2 Related Work
3 XD-Violence Dataset
3.1 Selecting Violence Categories
3.2 Collection and Annotation
3.3 Dataset Statistics
3.4 Dataset Comparisons
4 Methodology
4.1 Multimodal Fusion
4.2 Holistic and Localized Networks
4.3 Online Detection
4.4 Training Based on MIL
4.5 Inference
5 Experiments
5.1 Evaluation Metric
5.2 Implementation Details
5.3 Ablation Studies
5.4 Comparisons with State-of-the-Arts
5.5 Qualitative Results
6 Conclusions
References
SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection
1 Introduction
2 Related Work
3 SNE-RoadSeg
3.1 SNE
3.2 RoadSeg
4 Experiments
4.1 Datasets and Experimental Setup
4.2 Performance Evaluation of Our SNE
4.3 Performance Evaluation of Our SNE-RoadSeg
4.4 Ablation Study
5 Conclusion
References
Modeling the Space of Point Landmark Constrained Diffeomorphisms
1 Introduction
2 Related Works
3 Theoretical Background and Definitions
4 Algorithm
4.1 Harmonic Map
4.2 Teichmüller Map
5 Experiment Results
6 Conclusion
References
PieNet: Personalized Image Enhancement Network
1 Introduction
2 Related Work
3 Proposed Algorithm
3.1 Preference Vector
3.2 PieNet Architecture
3.3 PieNet Training
3.4 Personalization for New Users
4 Experiments
4.1 Evaluation on MIT-Adobe 5K
4.2 Personalization
4.3 User Study
5 Conclusions
References
Rotational Outlier Identification in Pose Graphs using Dual Decomposition
1 Introduction
2 Probabilistic Model
2.1 Gaussian Noise Model and Uncertainty Propagation
2.2 Inlier and Outlier Gaussian Mixture Model
2.3 Graphical Model for Evidence over Cycles
3 Inference for Graphical Models
3.1 Belief Propagation
3.2 Alternating Direction Method of Multipliers
4 Expectation-Maximization
5 Simulations and Experiments on Map Merging
6 Conclusion
References
Speech-Driven Facial Animation Using Cascaded GANs for Learning of Motion and Texture
1 Introduction
2 Related Work
3 Proposed Methodology
3.1 Speech-Driven Motion Generation on Facial Landmarks
3.2 Spontaneous Eye Blink Generation on Facial Landmarks
3.3 Landmark Retargeting
3.4 Image Generation from Landmarks
4 Experimental Results
4.1 Datasets
4.2 Motion Generation on Landmarks
4.3 Texture Generation from Landmark Motion:
5 Conclusion
References
Solving Phase Retrieval with a Learned Reference
1 Introduction
1.1 Our Contributions
2 Related Work
3 Proposed Approach
4 Experiments
4.1 Configurations of Reference (u)
4.2 Setup of Training Samples and Sample Size
4.3 Generalization of Reference on Different Classes
4.4 Noise Response
4.5 Random Reference Versus Learned Reference
4.6 Comparison with Existing Phase Retrieval Methods
4.7 Effects of Number of Layers (K)
4.8 Localizing the Reference
5 Conclusion
References
Dual Grid Net: Hand Mesh Vertex Regression from Single Depth Maps
1 Introduction
2 Related Works
3 Dual Grid Net
3.1 Mesh Model
3.2 Mesh Coordinate Estimation
3.3 Mapping from Image Grid to Mesh Grid
3.4 Refining Mesh Vertices
3.5 Supervised Training Loss
3.6 Implementation Details
4 Self-supervision on Unlabelled Real Data
4.1 Data Terms
4.2 Kinematic Priors
4.3 Multiple View Consistency
4.4 Active Data Augmentation by Estimation
5 Experimentation
5.1 Dataset and Evaluation Protocols
5.2 Training with only Synthesized Data
5.3 Ablation Studies
5.4 Comparison to State-of-the-art
6 Conclusion and Discussion
References
Author Index

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Computer Vision - ECCV 2020

Description

More details

Other editions

Additional editions

Content

System requirements