Discovery Science

Name: Discovery Science | 14th International Conference, DS 2011, Espoo, Finland, October 5-7, Proceedings
Brand: Springer
Price: 53.49 EUR
Availability: OnlineOnly

14th International Conference, DS 2011, Espoo, Finland, October 5-7, Proceedings

Tapio Elomaa Jaakko Hollmen Heikki Mannila(Editor)

Springer (Publisher)

Published on 30. September 2011

XIII, 381 pages

E-Book

PDF with digital watermarking

System requirements

978-3-642-24477-3 (ISBN)

€53.49incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence

Available for download

Description

More details

Other editions

Content

Title Page
Preface
Organization
Table of Contents
On the Expressive Power of Deep Architectures
Learning from Label Preferences
Introduction
Label Ranking
Label Ranking by Pairwise Comparison
Pairwise Classification
Label Ranking by Pairwise Comparisons
Combining Predicted Preferences into a Ranking
LPC for Generalized Classification Problems
Multilabel Classification
Ordered and Hierarchical Classification
Theoretical Foundations
Classification
Label Ranking
Position Error
Complexity
Training Time
Prediction Time
Memory Requirements
Conclusions and Outlook
References
Information Distance and Its Extensions
Information in One Object
Information Distance between Two Objects
Informatin Distance among Many Objects
Information Distance for Partial Matching
Discussions
References
Models for Autonomously Motivated Exploration in Reinforcement Learning
References
Optimal Estimation
Modeling Problem
Models and Estimators
Monotone Instance Ranking with mira
Introduction
Instance Ranking
Monotone Instance Ranking
A Monotone Scoring Function
Example
Experiments
Artificial Data
Real Data
An Improved Monotone Ranking Function
Additional Experiments
Conclusion and Further Research
References
MOA-TweetReader: Real-Time Analysis in Twitter Streaming Data
Introduction
Real-Time Twitter Analysis Framework
MOA-TweetReader
MOA-TweetReader Feature Generation Filter
Change Detection
Adaptive Frequent Item Miner for Data Streams
Applications
Twitter Term Frequency Detection
Twitter Sentiment Analysis
Related Work
Conclusions
References
Application of Semantic Kernels to Literature-Based Gene Function Annotation
Introduction
Related Work
System Description
Kernel Classifiers
Regularized Linear Classifiers
Kernelization
Class Imbalance Handling
Hyperparameter Tuning
Latent Topic Kernels
pLSA Background
pLSA Kernels
Experiments
Classifier Comparison
Kernel Comparison
Comparison with Existing Methods
Fast Learning, Prediction and Cross-Validation
Conclusion and Future Work
References
"Tell Me More": Finding Related Items from User Provided Feedback
Introduction
Problem Statement
Related Work
Algorithm
Graph Construction
Random Walk with Restarts
Tell Me More
Experiments
Text Documents
Binary Data
Numerical Data
Discussion and Conclusion
References
MEI: Mutual Enhanced Infinite Generative Model for Simultaneous Community and Topic Detection
Introduction
Mutual Enhanced Infinite Generative Model
Mutual Enhanced Generative Model
Mutual Enhanced Infinite Generative Model
Chinese Restaurant Process Metaphor
Model Learning via Gibbs Sampling
Sampling Equations
Parameter Estimation Algorithm
Hyper-parameter Setting
Experiments
Evaluation Criterion
Baseline Models
Dataset
Performance Study
Select the Number of Communities and Topics
Case Study
Conclusion and Future Work
References
A Methodology for Mining Document-Enriched Heterogeneous Information Networks
Introduction
Related Work
Proposed Methodology
Constructing Feature Vectors from Text Documents
Constructing Structural-Context Feature Vectors with Personalized PageRank
Combining Feature Vectors
Efficient Classification with PageRank-Based Centroid Classifier
VideoLectures.net Categorization Case Study
Dataset
Results of Text Mining and Diffusion Kernels
Results of the Proposed Methodology
Notes on Time and Space Complexity
Conclusions and Future Work
References
Multiple Hypothesis Testing in Pattern Discovery
Introduction
Statistical Significance Testing in Data Mining
Multiple Hypothesis Testing with Randomization
Proof of Theorem 1
Empirical p-Values
Marginal Probabilities as Test Statistic
Related Work
Experiments
Frequent Itemsets
Frequent Subgraphs
Discussion and Conclusions
References
A Parameter-Free Method for Discovering Generalized Clusters in a Network
Introduction
Related Work
Problem Definition
AutoPart: An Existing MDL-Based Clustering Method
Proposed Method
Cost Functions
Search Algorithm
Experiments
Experimental Setting
Synthetic Datasets
The Enron Dataset
Conclusions and Future Work
References
Detecting Anti-majority Opinionists Using Value-Weighted Mixture Voter Model
Introduction
Opinion Dynamics Models
Voter and Anti-voter Models
Value-Weighted Mixture Voter Model
Learning Problem and Behavior Analysis
Case of uniform opinion values:
Learning Method
Experimental Evaluation
Experimental Settings
Comparison Methods
Experimental Results
Conclusion
References
Using Ontologies in Semantic Data Mining with SEGS and g-SEGS
Introduction
Motivation
Related Work
Semantic Data Mining with g-SEGS
Semantic Data Mining
Hypothesis Language
Input
Rule Construction
Rule Filtering and Evaluation
g-SEGS Implementation
An Illustrative Example
Functional Genomics Use Cases
Conclusions
References
Mining Classification Rules without Support: an Anti-monotone Property of Jaccard Measure
Introduction
Related Works
An Anti-monotone Property of Jaccard Measure
Framework
Jaccard Measure
Jaccard's Anti-monotone Property
The Algorithm
Experimental Efficiency
Study on $Mushroom$ Database
Study on 10 Databases
Discussion on Nuggets
Conclusion
References
Bootstrapping Parameter Estimation in Dynamic Systems
Introduction
Least Square Parameter Estimation and Bootstrap Methods
Bootstrapped Parameter Estimator for Dynamic Systems
Applications: Biochemical Systems
Experiments and Results
Conclusion
References
Network Effects on Tweeting
Introduction
Data
Tweeting and the Social Network
The Retweet Network
URL Retweeting
The Social and Retweet Networks
Conclusion and Future Work
References
Context-Aware Personal Route Recognition
Introduction
Route Recognition Using Instance-Based Learning
The Setting of the Route Recognition Task
Baseline Route Recognition Approach
Using Context Information for Route Recognition
Performance Evaluation
Experimental Goals
Data
Data Preprocessing and Route Labeling
Evaluation Criteria
Experimental Protocol
Setting the Parameters
Context in the Dataset
Effects of Contextual Correction to the Route Recognition Accuracy
Aggregated Results
Related Work
Conclusions and Future Work
References
Scalable Detection of Frequent Substrings by Grammar-Based Compression
Introduction
Preliminaries
Pattern Detection Algorithm
Computational Experiments
Conclusion
References
A Statistical Model for Topically Segmented Documents
Introduction
Related Work
Model Definition
Perplexity and Cluster Analysis
Evaluation and Results
Perplexity Evaluation
Clustering Evaluation
Conclusions
References
Predicting Structured Outputs $k$-Nearest Neighbours Method
Predicting Structured Outputs
Three Tasks of Predicting Structured Outputs
Methods for Predicting Structured Outputs
$k$-Nearest Neighbors for Structured Prediction
$k$-Nearest Neighbors
Prototype Calculation in $k$-NN for Structured Prediction
Implementing $k$-NN for Structured Prediction ($k$NN-SP)
Experimental Evaluation
Datasets
Evaluation Metrics
Estimating and Comparing Predictive Performance
Results
Multi-Target Prediction
Hierarchical Multi-label Classification
Predicting Short Time Series
Conclusions and Further Work
References
The Augmented Itemset Tree: A Data Structure for Online Maximum Frequent Pattern Mining
Introduction
Related Work
Algorithm
Problem Statement
Main Idea of the Used Data Structure
Definition of the AIST
InsertPattern
SetNextNode.
UpdateMoreGeneralCounts.
Experiments
Data Sets
Empirical Evaluation
Conclusion
References
Word Clouds for Efficient Document Labeling
Introduction
Related Work
Methodology
Keyword and Key Sentence Extraction
Keyword Layout
User Evaluation
Design
Procedure
Test Material
Participants
Environment
Results
Influence on Labeling Accuracy
Influence on Labeling Time
Influence on Classifier Accuracy
Discussion
Conclusion and Future Work
References
Global and Local Spatial Autocorrelation in Predictive Clustering Trees
Introduction
Related Work
Spatial Autocorrelation
Building Predictive Clustering Trees
Learning Spatial PCTS
The Algorithm
Estimating the Bandwidth
Time Complexity
Empirical Evaluation
Datasets
Experimental Setup
Results and Discussion
Conclusions
References
Rule Stacking: An Approach for Compressing an Ensemble of Rule Sets into a Single Classifier
Introduction
Rule Learning
Rule Stacking
Stacking
Motivation for Rule Stacking
Generating the Meta Data
Re-transforming the Meta Classifier
Experimental Setup
Experiments
Conclusions
References
Graph Clustering Based on Optimization of a Macroscopic Structure of Clusters
Introduction
Related Work
Previous Work
HITS as a Classification Method
Our Algorithm
The Problem
Macroscopic Structures
Optimization
Experiment
Evaluation
Environment
Exp. 1: Exhaustive Study on Variously Noisy Graphs
Exp. 2: Application to Vector Clustering
Conclusion
References
Modeling the Temperature of Hot Rolled Steel Plate with Semi-supervised Learning Methods
Introduction
Temperature Modeling in the Hot Plate Rolling Process
COREG
Learning Methods
Neural Network Model
MARS
Stochastic Gradient Boosting Machine
Results
Prediction Accuracy
Analysis of the Features
Discussion and Conclusion
References
Controlled Permutations for Testing Adaptive Classifiers
Introduction
The Risk of Order-Dependence Bias in Evaluation
Proposed Permutations
Setting
The Time Permutation
The Speed Permutation
The Shape Permutation
Controlling the Permutations
Measuring the Extent of Permutations
The Theoretical Extent of Our Permutations
Preserving the Distributions
Experiments
Related Work
Conclusion
References
Author Index

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Discovery Science

Description

More details

Other editions

Additional editions

Content

System requirements