Computer Vision - ECCV 2020

Name: Computer Vision - ECCV 2020 | 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part VII
Brand: Springer
Price: 96.29 EUR
Availability: OnlineOnly

16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part VII

Andrea Vedaldi Horst Bischof Thomas Brox Jan-Michael Frahm(Editor)

Springer (Publisher)

Published on 8. November 2020

XLII, 805 pages

E-Book

PDF with digital watermarking

System requirements

978-3-030-58571-6 (ISBN)

€96.29incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence

Available for download

Description

More details

Other editions

Content

Intro
Foreword
Preface
Organization
Contents - Part VII
Multiview Detection with Feature Perspective Transformation
1 Introduction
2 Related Work
3 Methodology
3.1 Multiview Aggregation
3.2 Spatial Aggregation
3.3 Training and Testing
4 Experiment
4.1 Experiment Setup
4.2 Implementation Details
4.3 Method Comparisons
4.4 Evaluation of MVDet
5 Conclusion
References
Learning Object Relation Graph and Tentative Policy for Visual Navigation
1 Introduction
2 Related Work
3 Proposed Method
3.1 Task Definition
3.2 Object Representation Graph
3.3 Navigation Driven by Visual Features
3.4 Trial-Driven Imitation Learning
3.5 Memory-Augmented Tentative Policy Network
3.6 Training Details
4 Experiments
4.1 Dataset and Evaluation
4.2 Task Setup and Comparison Methods
4.3 Results
4.4 Ablation Study
5 Conclusions
References
Adversarial Self-supervised Learning for Semi-supervised 3D Action Recognition
1 Introduction
2 Related Work
2.1 3D Action Recognition
2.2 Semi-supervised Learning
2.3 Self-supervised Learning for Action Recognition
3 Method
3.1 Problem Formulation
3.2 Neighborhood Consistency for Semi-supervised 3D Action Recognition
3.3 Adversarial Learning for Aligning Self-supervised and Semi-supervised Representations
3.4 Model Architecture and Optimization
4 Experiments
4.1 Experimental Setup
4.2 Comparison with Semi-supervised Methods
4.3 Ablation Study
5 Conclusions
References
Across Scales and Across Dimensions: Temporal Super-Resolution Using Deep Internal Learning
1 Introduction
2 Patch Recurrence Across Dimensions
3 Generating an Internal Training Set
4 `Zero-Shot' Temporal-SR - The Algorithm
5 Experiments and Results
References
Inducing Optimal Attribute Representations for Conditional GANs
1 Introduction
2 Related Works
3 Proposed Method
3.1 Overview on the Pipeline
3.2 Graph Convolution and Generator
3.3 Online Multitask Learning for Discriminator
4 Experiments
5 Conclusions
References
AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
1 Introduction
2 Related Works
3 Proposed Method
3.1 Approach Overview
3.2 Learning the Adaptive Resolution Policy
3.3 Loss Functions
4 Experiments
4.1 Experimental Setup
4.2 Main Results
4.3 Ablation Studies
4.4 Qualitative Analysis
5 Conclusion
References
Image-to-Voxel Model Translation for 3D Scene Reconstruction and Segmentation
1 Introduction
2 Related Work
3 Method
3.1 Semantic Frustum Voxel Model
3.2 SSZ Generator
3.3 Pose6DoF Discriminator
3.4 SemanticVoxels Dataset
4 Experiments
4.1 Baselines
4.2 Training Details
4.3 Qualitative Evaluation
4.4 Quantitative Results
4.5 Ablation Studies
5 Conclusions
References
Consistency Guided Scene Flow Estimation
1 Introduction
2 Related Work
3 Consistency Guided Scene Flow
3.1 Overview
3.2 Feedforward Scene Flow Module
3.3 Scene Flow Consistency Loss
3.4 Consistency Guided Refinement
3.5 Training
4 Experiments
4.1 Evaluation on Synthetic Data
4.2 Generalization to Real Images
4.3 Ablation Studies
4.4 Performance for Unseen Real Visual Data
5 Conclusions
References
Autoregressive Unsupervised Image Segmentation
1 Introduction
2 Related Works
3 Method
3.1 Orderings
3.2 Training Objective
3.3 Model
4 Experiments
4.1 Ablation Studies
4.2 Comparison with the State-of-the-Art
5 Conclusion
References
Controllable Image Synthesis via SegVAE
1 Introduction
2 Related Work
3 Semantic Maps Generation
3.1 Conditional VAE
3.2 Iterative Generation with Learned Prior
3.3 Implementation Details
4 Experimental Results
4.1 Quantitative Evaluation
4.2 Qualitative Evaluation
4.3 Editing
5 Conclusion
References
Off-Policy Reinforcement Learning for Efficient and Effective GAN Architecture Search
1 Introduction
2 Related Work
3 Preliminary
3.1 Generative Adversarial Networks
3.2 Reinforcement Learning
4 Problem Formulation
4.1 Motivation
4.2 GAN Architecture Search Formulated as MDP
5 Off-Policy RL for GAN Architecture Search
5.1 RL for GAN Architecture Search
5.2 Off-Policy RL Solver
5.3 Implementation of E2GAN
6 Experiments
6.1 Dataset
6.2 Search Space
6.3 Results
7 Discussion
7.1 Reward Choice: IS and FID
7.2 Reproducibility
8 Conclusion
References
Efficient Non-Line-of-Sight Imagingpg from Transient Sinograms
1 Introduction
2 Overview of Transient NLOS Imaging
3 The Geometry of Circular and Confocal Scanning
3.1 Equation (4) in Spherical Coordinates
3.2 Transient Sinograms
4 Reconstructing Images from Transient Sinograms
4.1 1D Reconstruction: Estimating 3D Positions
4.2 2D Reconstructions
4.3 3D Reconstruction: 3D Imaging via a Modified LCT
5 Experiments
5.1 1D Reconstruction: Object Localization
5.2 2D Reconstruction: 2D Plane Imaging
5.3 3D Reconstruction: 3D Volume Imaging
6 Conclusion
References
Texture Hallucination for Large-Factor Painting Super-Resolution
1 Introduction
2 Related Work
2.1 Single Image Super-Resolution
2.2 Reference-Based Super-Resolution
3 Approach
3.1 Pipeline
3.2 Wavelet Texture Loss
3.3 Degradation Loss
3.4 Implementation Details
4 Dataset
5 Experimental Results
5.1 Ablation Study
5.2 Quantitative Results
5.3 Visual Comparisons
5.4 User Study
5.5 Effect of Different References
6 Conclusions
References
Learning Progressive Joint Propagation for Human Motion Prediction
1 Introduction
2 Related Work
3 Methodology
3.1 Overview
3.2 Revisiting Transformer
3.3 Transformer for Pose Prediction
3.4 Progressive Joint Propagation
3.5 Dictionary
3.6 Training Strategy
4 Experiments
4.1 Implementation Details
4.2 Datasets and Evaluation Metrics
4.3 Comparison with the State-of-the-art Methods
4.4 Ablation Study
References
Image Stitching and Rectification for Hand-Held Cameras
1 Introduction
2 Related Work
3 Homography Preliminary
4 Methods
4.1 RS Motion Parameterization
4.2 RS-Aware Differential Homography
4.3 RS-Aware Spatially-Varying Differential Homography Field
4.4 RS Image Stitching and Rectification
5 Experiments
5.1 Synthetic Data
5.2 Real Data
6 Conclusion
References
ParSeNet: A Parametric Surface Fitting Network for 3D Point Clouds
1 Introduction
2 Related Work
3 Method
3.1 Decomposition Module
3.2 Fitting Module
3.3 Post-processing Module
4 Training
4.1 Dataset
4.2 Loss Functions
4.3 Training Procedure
5 Experiments
5.1 Segmentation and Labeling Evaluation
5.2 B-Spline Fitting Evaluation
5.3 Reconstruction Evaluation
6 Conclusion
References
The Group Loss for Deep Metric Learning
1 Introduction
2 Related Work
3 Group Loss
3.1 Overview of Group Loss
3.2 Initialization
3.3 Refinement
3.4 Loss Computation
3.5 Summary of the Group Loss
4 Experiments
4.1 Implementation Details
4.2 Benchmark Datasets
4.3 Evaluation Metrics
4.4 Results
4.5 Robustness Analysis
5 Conclusions and Future Work
References
Learning Object Depth from Camera Motion and Video Object Segmentation
1 Introduction
2 Related Work
3 Optical Expansion Model
3.1 Relating Depth and Scale
3.2 Object Depth Solution
4 Learning Object Depth from Camera Motion and Video Object Segmentation
4.1 Normalized Relative Distance Input
4.2 Normalized Relative Depth Loss
4.3 Relative Scale Loss
4.4 Remarks on Using Intermediate Observations
4.5 Object Depth Estimation Network Architecture
5 ODMS Dataset
5.1 Generating Random Object Masks at Scale
5.2 Robotics, Driving, and Simulation Validation and Test Sets
5.3 Training Object Depth Networks Using ODMS
6 Experimental Results
6.1 ODMS Test Results
6.2 Robot Object Depth Estimation and Grasping Experiments
7 Conclusions
References
OnlineAugment: Online Data Augmentation with Less Domain Knowledge
1 Introduction
2 Related Work
3 The Online Data Augmentation Formulation
4 Data Augmentation Models
4.1 Global Spatial Transformation Model
4.2 Local Deformation Model
4.3 Intensity Perturbation Model
5 Experiments
5.1 Experimental Settings
5.2 Experimental Results
6 Conclusion
References
Learning Pairwise Inter-plane Relations for Piecewise Planar Reconstruction
1 Introduction
2 Related Work
3 Algorithm
3.1 Inter-plane Relationships Learning
3.2 Plane Parameter Refinement
3.3 Plane Segmentation Refinement (Segmentation-MPN)
4 Dataset and Metrics
4.1 Dataset
4.2 Metrics
5 Experiments
5.1 Planar Reconstruction
5.2 Plane Instance Segmentation
5.3 Pairwise Relationship Inference
6 Conclusion
References
Intra-class Feature Variation Distillation for Semantic Segmentation
1 Introduction
2 Related Work
2.1 Semantic Segmentation
2.2 Vision Tasks Using Knowledge Distillation
3 Method
3.1 Overview
3.2 Intra-class Feature Variation Map
3.3 Intra-class Feature Variation Distillation
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Ablation Study
4.4 Results
4.5 Discussion
5 Conclusion
References
Temporal Distinct Representation Learning for Action Recognition
1 Introduction
2 Related Work
3 Proposed Method
3.1 Framework
3.2 Progressive Enhancement Module
3.3 Temporal Diversity Loss
4 Experiments
4.1 Datasets
4.2 Experimental Setup
4.3 Comparison with State-of-the-Arts
4.4 Ablation Study
4.5 Detailed Analysis
5 Conclusions
References
Representative Graph Neural Network
1 Introduction
2 Related Work
3 Representative Graph Neural Networks
3.1 Revisiting Non-local Graph Neural Network
3.2 Representative Graph Layer
3.3 Extended Instantiations
4 Experiments on Semantic Segmentation
4.1 Ablative Evaluation on ADE20K
4.2 Performance Evaluation
5 Experiments on Detection
6 Concluding Remarks
References
Deformation-Aware 3D Model Embedding and Retrieval
1 Introduction
2 Related Work
3 Deformation-Aware Embedding
3.1 Embedding with Egocentric Distances
3.2 Margin-Loss-Based Approach
3.3 Regression-Based Approach
4 Implementation Details
5 Results
5.1 Experiments on ShapeNet ch24ShapeNet
5.2 Scan-to-CAD
6 Conclusion
References
Atlas: End-to-End 3D Scene Reconstruction from Posed Images
1 Introduction
2 Related Work
2.1 3D Reconstruction
2.2 3D Semantic Segmentation
3 Method
3.1 Feature Volume Construction
3.2 3D Encoder-Decoder
4 Implementation Details
5 Results
5.1 Inference Time
6 Conclusions
References
Multiple Class Novelty Detection Under Data Distribution Shift
1 Introduction
2 Related Work
3 Novelty Detection Vs Distribution Shift
4 Robust Novelty Detection Under Distribution Shift
4.1 Problem Setting
4.2 Simple Approaches
4.3 Proposed Method
5 Experiments and Results
6 Conclusion
References
Colorization of Depth Map via Disentanglement
1 Introduction
2 Related Work
3 Proposed Method for Depth Map Colorization
3.1 Disentanglement via Self-supervised Learning
3.2 Adversarial Learning and Cycle Consistency
4 Experimental Results
4.1 Evaluation Metrics and Baselines for Comparison
4.2 Quantitative and Qualitative Results
4.3 Ablation Study
4.4 Recognition and Temporal Consistency
5 Conclusions
References
Beyond Controlled Environments: 3D Camera Re-localization in Changing Indoor Scenes
1 Introduction
2 Related Work
3 Benchmark Dataset
4 Evaluating Re-localization in Changing Indoor Scenes
4.1 Quantifying Change in (Indoor) Scenes
4.2 Measuring Re-localization Performance
5 Experiments
5.1 Classifying Frame Difficulty
5.2 Re-localization Performance
6 Conclusion
References
GeoGraph: Graph-Based Multi-view Object Detection with Geometric Cues End-to-End
1 Introduction
2 Related Work
3 Method
3.1 Object Detection
3.2 Object Re-identification
3.3 Geo-localization
3.4 Inference Operations
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Object Detection and Re-identification
4.4 Geolocalization
4.5 Ablation Studies
5 Conclusion
References
Localizing the Common Action Among a Few Videos
1 Introduction
2 Related Work
3 Method
3.1 Problem Description
3.2 Architecture
3.3 Optimization
4 Experimental Setup
4.1 Datasets
4.2 Experimental Details
4.3 Evaluation
5 Experimental Results
5.1 Ablation Study
5.2 Comparisons with Others
6 Conclusion
References
TAFSSL: Task-Adaptive Feature Sub-Space Learning for Few-Shot Classification
1 Introduction
2 Related Work
3 Method
3.1 FSSL and TAFSSL
3.2 Clustering
3.3 Implementation Details
4 Results
4.1 FSL Benchmarks Used in Our Experiments
4.2 Transductive FSL Setting
4.3 Semi-supervised FSL Setting
4.4 Ablation Study
5 Summary and Conclusions
References
Traffic Accident Benchmark for Causality Recognition
1 Introduction
2 Related Work
2.1 Traffic Accident Anticipation
2.2 Causality in Visual Domain
2.3 Action Understanding
3 Traffic Accident Dataset for Causality Understanding
3.1 Semantic Taxonomy of Traffic Accident
3.2 Construction of Dataset
3.3 Statistics of Our Dataset
4 Traffic Accident Benchmark
4.1 Temporal Cause and Effect Events Recognition
4.2 Baselines
4.3 Evaluation Metrics
4.4 Analysis of Action Classification Performance
4.5 Analysis of Action Localization Performance
5 Discussion and Future Works
References
Face Anti-Spoofing with Human Material Perception
1 Introduction
2 Related Work
2.1 Face Anti-Spoofing
2.2 Human and Machine Material Perception
3 Methodology
3.1 Bilateral Convolutional Networks
3.2 Multi-level Feature Refinement Module
3.3 Material Based Multi-head Supervision
4 Experiments
4.1 Datasets and Metrics
4.2 Implementation Details
4.3 Ablation Study
4.4 Intra Testing
4.5 Inter Testing
4.6 Analysis and Visualization
5 Conclusions
References
How Can I See My Future? FvTraj: Using First-Person View for Pedestrian Trajectory Prediction
1 Introduction
2 Related Work
3 Methodology
3.1 Problem Formulation
3.2 Model Overview
3.3 Trajectory Encoder
3.4 View Image Encoder
3.5 Social-Aware Attention Module
3.6 View-Aware Attention Module
3.7 Trajectory Decoder
3.8 Training and Implementation Details
4 Experiment Results
4.1 Quantitative Evaluation
4.2 Qualitative Evaluation
5 Conclusion
References
Multiple Expert Brainstorming for Domain Adaptive Person Re-Identification
1 Introduction
2 Related Works
2.1 Unsupervised Domain Adaptive Re-ID
2.2 Knowledge Transfer
2.3 Model Ensemble
3 The Proposed Approach
3.1 Overview
3.2 Learning in Source Domains
3.3 Clustering in the Target Domain
3.4 Expert Brainstorming
3.5 Authority Regularization
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Comparison with State-of-the-Arts
4.4 Ablation Studies
4.5 Discussion
5 Conclusion
References
NASA Neural Articulated Shape Approximation
1 Introduction
2 Related Work
3 Neural Articulated Shape Approximation
4 Pose Conditioned Occupancy O(x| )
4.1 Unstructured Model - ``U''
4.2 Piecewise Rigid Model - ``R''
4.3 Piecewise Deformable Model - ``D''
4.4 Technical Details
5 Dense Articulated Tracking
5.1 Fitting Energy
5.2 Pose Prior Energy
5.3 Iterative Optimization
6 Results and Discussion
6.1 Training Data
6.2 Reconstruction
6.3 Tracking
6.4 Discussion
7 Conclusions
References
Towards Unique and Informative Captioning of Images
1 Introduction
2 Related Work
3 Analysis: Prevalence and Causes of Common Concepts in Captions
3.1 Captioning Systems Prefer Common Concepts
3.2 Captioning Metrics Prefer Common Concepts
4 SPICE-U: A Uniqueness-Aware Metric
5 Generating Unique and Informative Captions
6 Experiments
7 Conclusion
References
When Does Self-supervision Improve Few-Shot Learning?
1 Introduction
2 Related Work
3 Method
3.1 Supervised Losses (Ls)
3.2 Self-supervised Losses (Lss)
3.3 Stochastic Sampling and Training
4 Experiments
4.1 Results on Few-Shot Learning
4.2 Analyzing the Effect of Domain Shift for Self-supervision
4.3 Selecting Images for Self-supervision
5 Conclusion
A Appendix
A.1 Results on Few-Shot Learning
A.2 Results on Selecting Images for SSL
A.3 Results on Standard Fine-Grained Classification
A.4 Visualization of Learned Models
A.5 Experimental Details
References
Two-Branch Recurrent Network for Isolating Deepfakes in Videos
1 Introduction
2 Prior Work
3 Method
3.1 Network Architecture and Optimization
3.2 Deep Laplacian of Gaussian
3.3 Loss Function to Isolate Manipulated Faces
4 Experimental Evaluation
4.1 FaceForensics++ (FF++)
4.2 Celeb-DF
4.3 The Deepfake Detection Challenge (DFDC) Preview Dataset
5 Conclusions and Future Work
References
Incremental Few-Shot Meta-learning via Indirect Discriminant Alignment
1 Introduction
1.1 Key Contribution and Organization
2 Method
2.1 Preliminaries
2.2 Indirect Discriminant Alignment (IDA)
2.3 Implementation
3 Empirical Validation
3.1 Baselines and Ablation Studies
3.2 Datasets
3.3 Quantitative Results
3.4 Limitations and Failure Cases
4 Discussion and Related Work
References
BigNAS: Scaling up Neural Architecture Search with Big Single-Stage Models
1 Introduction
2 Related Work
3 Architecture Search with Single-Stage Models
3.1 Training a High-Quality Single-Stage Model
3.2 Coarse-to-fine Architecture Selection
4 Experiments
4.1 Search Space Definition
4.2 Main Results on ImageNet
4.3 Ablation Study
4.4 Coarse-to-fine Architecture Selection
5 Analysis of BigNASModel
6 Conclusion
References
Differentiable Hierarchical Graph Grouping for Multi-person Pose Estimation
1 Introduction
2 Related Work
2.1 Multi-person Pose Estimation in Images
2.2 Graph Representation for Pose Estimation
2.3 Graph Neural Networks
3 Method
3.1 Hierarchical Graph Grouping
3.2 Grouping Discriminators
3.3 Implementation Details
4 Experiments
4.1 Datasets and Evaluation
4.2 Ablation Study
4.3 Qualitative Analysis
4.4 Comparisons with the State-of-the-art Methods
4.5 Runtime Analysis
5 Conclusion and Future Work
References
Global Distance-Distributions Separation for Unsupervised Person Re-identification
1 Introduction
2 Related Work
2.1 Unsupervised Person Re-identification
2.2 Metric Learning for Person Re-identification
3 Unsupervised ReID with GDS Constraint
3.1 Global Distance-Distribution Modeling with Momentum Update
3.2 Global Distance-Distributions Separation (GDS) Constraint
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Ablation Study
4.4 Design Choices of GDS
4.5 Visualization of Dataset-Wise (Global) Distance Distributions
4.6 Comparison with State-of-the-Arts
5 Conclusions
References
I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image
1 Introduction
2 Related Works
3 I2L-MeshNet
3.1 PoseNet
3.2 MeshNet
3.3 Final 3D Human Pose and Mesh
3.4 Loss Functions
4 Implementation Details
5 Experiment
5.1 Datasets and Evaluation Metrics
5.2 Ablation Study
5.3 Comparison with State-of-the-art Methods
6 Conclusion
References
Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh Recovery from a 2D Human Pose
1 Introduction
2 Related Works
3 PoseNet
3.1 Synthesizing Errors on the Input 2D Pose
3.2 2D Input Pose Normalization
3.3 Network Architecture
3.4 Loss Function
4 MeshNet
4.1 Graph Convolution on Pose
4.2 Coarse-to-fine Mesh Upsampling
4.3 Loss Function
5 Implementation Details
6 Experiment
6.1 Dataset and Evaluation Metric
6.2 Ablation Study
6.3 Comparison with State-of-the-art Methods
7 Discussion
8 Conclusion
References
ALRe: Outlier Detection for Guided Refinement
1 Introduction
2 Related Works
3 Anchored Linear Residual
4 Analysis
4.1 Invariance and Asymmetry
4.2 vs. Linear Residual
4.3 vs. Edge Strength Ratio
4.4 vs. SSIM
5 Applications
5.1 Transmission Refinement for Haze Removal
5.2 Disparity Refinement for Depth Estimation
5.3 Guided Feathering
5.4 Edge-Preserving Smoothing
6 Experiment
7 Conclusion
References
Author Index

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Computer Vision - ECCV 2020

Description

More details

Other editions

Additional editions

Content

System requirements