
Learning Cascading
Beschreibung
Alle Preise
Weitere Details
Weitere Ausgaben
Inhalt
- Cover
- Copyright
- Credits
- Foreword
- About the Authors
- About the Reviewers
- www.PacktPub.com
- Table of Contents
- Preface
- Chapter 1: The Big Data Core Technology Stack
- Reviewing Hadoop
- Hadoop architecture
- HDFS - the Hadoop Distributed File System
- The NameNode
- The secondary NameNode
- DataNodes
- MapReduce execution framework
- The JobTracker
- The TaskTracker
- Hadoop jobs
- Distributed cache
- Counters
- YARN - MapReduce version 2
- A simple MapReduce job
- Beyond MapReduce
- The Cascading framework
- The execution graph and flow planner
- How Cascading produces MapReduce jobs
- Summary
- Chapter 2: Cascading Basics in Detail
- Understanding common Cascading themes
- Data flows as processes
- Understanding how Cascading represents records
- Using tuples and defining fields
- Using a Fields object, named field groups and selectors
- Data typing and coercion
- Defining schemes
- Schemes in detail
- TupleEntry
- Understanding how Cascading controls data flow
- Using pipes
- Creating and chaining
- Pipe operations
- Each
- Splitting
- GroupBy and sorting
- Every
- Merging and joining
- The Merge pipe
- The join pipes - CoGroup and HashJoin
- CoGroup
- HashJoin
- Default output selectors
- Using taps
- Flow
- FlowConnector
- Cascades
- Local and Hadoop modes
- Common errors
- Putting it all together
- Summary
- Chapter 3: Understanding Custom Operations
- Understanding operations
- Operations and fields
- The Operation class and interface hierarchy
- The basic operation lifecycle
- Contexts
- FlowProcess
- OperationCall&Context&
- An operation processing sequence and its methods
- Operation types
- Each operations
- Every operations
- Buffers
- Assertions
- Summary
- Chapter 4: Creating Custom Operations
- Writing custom operations
- Writing a filter
- Writing a function
- Writing an aggregator
- Writing a custom assertion
- Writing a buffer
- Identifying common use cases for custom operations
- Putting it all together
- Summary
- Chapter 5: Code Reuse and Integration
- Creating and using subassemblies
- Built-in subassemblies
- Creating a new custom subassembly
- Using custom subassemblies
- Using cascades
- Building a complex workflow using cascades
- Skipping a flow in a cascade
- Intermediate file management
- Dynamically controlling flows
- Instrumentation and counters
- Using counters to control flow
- Using existing MapReduce jobs
- The FlowDef fluent interface
- Integrating external components
- Flow and cascade events
- Using external JAR files
- Using Cascading as insulation from big data migrations and upgrades
- Summary
- Chapter 6: Testing a Cascading Application
- Debugging a Cascading application
- Getting your environment ready for debugging
- Using Cascading local mode debugging
- Setting up Eclipse
- Remote debugging
- Using assertions
- The Debug() filter
- Managing exceptions with traps
- Checkpoints
- Managing bad data
- Viewing flow sequencing using DOT files
- Testing strategies
- Unit testing and JUnit
- Mocking
- Integration testing
- Load and performance testing
- Summary
- Chapter 7: Optimizing the Performance of a Cascading Application
- Optimizing performance
- Optimizing Cascading
- Optimizing Hadoop
- A note about the effective use of checkpoints
- Summary
- Chapter 8: Creating a Real-world Application in Cascading
- Project description - Business Intelligence case study on monitoring the competition
- Project scope - understanding requirements
- Understanding the project domain - text analytics and natural language processing (NLP)
- Conducting a simple named entity extraction
- Defining the project - the Cascading development methodology
- Project roles and responsibilities
- Conducting data analysis
- Performing functional decomposition
- Designing the process and components
- Creating and integrating the operations
- Creating and using subassemblies
- Building the workflow
- Building flows
- Managing the context
- Building the cascade
- Designing the test plan
- Performing a unit test
- Performing an integration test
- Performing a cluster test
- Performing a full load test
- Refining and adjusting
- Software packaging and delivery to the cluster
- Next steps
- Summary
- Chapter 9: Planning for Future Growth
- Finding online resources
- Using other Cascading tools
- Lingual
- Pattern
- Driven
- Fluid
- Load
- Multitool
- Support for other languages
- Hortonworks
- Custom Taps
- Cascading serializers
- Java open source mock frameworks
- Summary
- Appendix: Downloadable Software
- Contents
- Installing and using
- Index
Systemvoraussetzungen
Dateiformat: ePUB
Kopierschutz: Adobe-DRM (Digital Rights Management)
Systemvoraussetzungen:
- Computer (Windows; MacOS X; Linux): Installieren Sie bereits vor dem Download die kostenlose Software Adobe Digital Editions (siehe E-Book Hilfe).
- Tablet/Smartphone (Android; iOS): Installieren Sie bereits vor dem Download die kostenlose App Adobe Digital Editions oder die App PocketBook (siehe E-Book Hilfe).
- E-Book-Reader: Bookeen, Kobo, Pocketbook, Sony, Tolino u.v.a.m. (nicht Kindle)
Das Dateiformat ePUB ist sehr gut für Romane und Sachbücher geeignet – also für „fließenden” Text ohne komplexes Layout. Bei E-Readern oder Smartphones passt sich der Zeilen- und Seitenumbruch automatisch den kleinen Displays an.
Mit Adobe-DRM wird hier ein „harter” Kopierschutz verwendet. Wenn die notwendigen Voraussetzungen nicht vorliegen, können Sie das E-Book leider nicht öffnen. Daher müssen Sie bereits vor dem Download Ihre Lese-Hardware vorbereiten.
Bitte beachten Sie: Wir empfehlen Ihnen unbedingt nach Installation der Lese-Software diese mit Ihrer persönlichen Adobe-ID zu autorisieren!
Weitere Informationen finden Sie in unserer E-Book Hilfe.
Dateiformat: PDF
Kopierschutz: Adobe-DRM (Digital Rights Management)
Systemvoraussetzungen:
- Computer (Windows; MacOS X; Linux): Installieren Sie bereits vor dem Download die kostenlose Software Adobe Digital Editions (siehe E-Book Hilfe).
- Tablet/Smartphone (Android; iOS): Installieren Sie bereits vor dem Download die kostenlose App Adobe Digital Editions oder die App PocketBook (siehe E-Book Hilfe).
- E-Book-Reader: Bookeen, Kobo, Pocketbook, Sony, Tolino u.v.a.m. (nicht Kindle)
Das Dateiformat PDF zeigt auf jeder Hardware eine Buchseite stets identisch an. Daher ist eine PDF auch für ein komplexes Layout geeignet, wie es bei Lehr- und Fachbüchern verwendet wird (Bilder, Tabellen, Spalten, Fußnoten). Bei kleinen Displays von E-Readern oder Smartphones sind PDF leider eher nervig, weil zu viel Scrollen notwendig ist.
Mit Adobe-DRM wird hier ein „harter” Kopierschutz verwendet. Wenn die notwendigen Voraussetzungen nicht vorliegen, können Sie das E-Book leider nicht öffnen. Daher müssen Sie bereits vor dem Download Ihre Lese-Hardware vorbereiten.
Bitte beachten Sie: Wir empfehlen Ihnen unbedingt nach Installation der Lese-Software diese mit Ihrer persönlichen Adobe-ID zu autorisieren!
Weitere Informationen finden Sie in unserer E-Book Hilfe.