Cloudera Data Science at Scale using Spark and Hadoop –
Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.
Aprenda cómo Spark y Hadoop permiten a los data scientists ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.
Objetivos
Cómo identificar casos potenciales de uso comercial donde la ciencia de los datos puede proporcionar resultados impactantes
Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para el análisis
Qué métodos estadísticos aprovechar para la exploración de datos que proporcionarán información crítica sobre sus datos
Dónde y cuándo aprovechar Hadoop streaming y Apache Spark para data science pipelines
Qué técnica de aprendizaje de máquina utilizar para un proyecto particular de ciencia de datos
Cómo implementar y administrar los recomendadores con MLlib de Spark y cómo configurar y evaluar los experimentos de datos
Cuáles son las dificultades para desplegar nuevos proyectos analíticos en la producción, a escala
data
Disponible en formato e-learning
Disponible en formato presencial
Disponible en formato a distancia
Subvención disponible
A través de Fundae, cumpliendo requisitos.
Duración
21 horas
- Dificultad 50%
- Nivel alcanzado 80%
Dirigido a
Conocimientos requeridos
Temario
Introduction
About This Course
About Cloudera
Course Logistics
Introductions
Data Science Overview
What Is Data Science?
The Growing Need for Data Science
The Role of a Data Scientist
Use Cases
Finance
Retail
Advertising
Defense and Intelligence
Telecommunications and Utilities
Healthcare and Pharmaceuticals
Project Lifecycle
Steps in the Project Lifecycle
Lab Scenario Explanation
Data Acquisition
Where to Source Data
Acquisition Techniques
Evaluating Input Data
Data Formats
Data Quantity
Data Quality
Data Transformation
File Format Conversion
Joining Data Sets
Anonymization
Data Analysis and Statistical Method
Relationship Between Statistics and Probability
Descriptive Statistics
Inferential Statistics
Vectors and Matrices
Fundamentals of Machine Learning
Overview
The Three C’s of Machine Learning
Importance of Data and Algorithms
Spotlight: Naive Bayes Classifiers
Recommender Overview
What is a Recommender System?
Types of Collaborative Filtering
Limitations of Recommender Systems
Fundamental Concepts
Introduction to Apache Spark and MLlib
What is Apache Spark?
Comparison to MapReduce
Fundamentals of Apache Spark
Spark’s MLlib Package
Implementing Recommenders with MLlib
Overview of ALS Method for
Latent Factor Recommenders
Hyperparameters for ALS Recommenders
Building a Recommender in MLlib
Tuning Hyperparameters
Weighting
Experimentation and Evaluation
Designing Effective Experiments
Conducting an Effective Experiment
User Interfaces for Recommenders
Production Deployment and Beyond
Deploying to Production
Tips and Techniques for Working at Scale
Summarizing and Visualizing Results
Considerations for Improvement
Next Steps for Recommenders
Comentarios recientes