Curso de Apache Spark Fundamentals
Apache Spark es un motor de análisis diseñado para distribuir datos a través de un cluster con el fin de procesarlo en paralelo. Contiene módulos para streaming, SQL, aprendizaje de máquina y procesamiento de gráficos.
Este entrenamiento guiado por instructores, en vivo (online o on-site) está dirigido a ingenieros que desean implementar Apache Spark sistema para el tratamiento de cantidades muy grandes de datos.
Al final de este curso, los participantes podrán:
- Instalar y configurar Apache Spark.
- Conoce la diferencia entre Apache Spark y Hadoop MapReduce y cuándo usar.
- Leer rápidamente en y analizar conjuntos de datos muy grandes.
- Integrar Apache Spark con otras herramientas de aprendizaje de máquina.
Formato del curso
- Lecciones y discusiones interactivas.
- Muchos ejercicios y prácticas.
- Implementación de manos en un entorno de laboratorio en vivo.
Opciones de Customización de Curso
- Para solicitar una formación personalizada para este curso, por favor contacta con nosotros para organizar.
Programa del Curso
Introducción
- Apache Spark frente a Hadoop MapReduce
Descripción general de Apache Spark Características y arquitectura
Elección de un Programming idioma
Configuración Apache Spark
Creación de una aplicación de ejemplo
Elección del conjunto de datos
Ejecución Data Analysis en los datos
Procesamiento de datos estructurados con Spark SQL
Procesamiento de datos de streaming con Spark Streaming
Integración de Apache Spark con las herramientas de la 3ª parte Machine Learning
Uso de Apache Spark para el procesamiento de gráficos
Optimización Apache Spark
Solución de problemas
Resumen y conclusión
Requerimientos
- Experiencia con la línea de comandos de Linux
- Una comprensión general del procesamiento de datos
- Experiencia en programación con Java, Scala, Python o R
Audiencia
- Desarrolladores
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Apache Spark Fundamentals - Booking
Curso de Apache Spark Fundamentals - Enquiry
Apache Spark Fundamentals - Consultas
Consultas
Testimonios (5)
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafal - Nordea
Curso - Apache Spark MLlib
Traducción Automática
Suficiente práctica, el instructor es conocedor
Chris Tan
Curso - A Practical Introduction to Stream Processing
Traducción Automática
tareas de práctica
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
La máquina virtual que me gustó mucho El profesor era muy conocedor sobre el tema así como otros temas, fue muy amable y agradable Me gustó la instalación en Dubái.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Traducción Automática
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Curso - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
Traducción Automática
Próximos cursos
Cursos Relacionados
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEsta capacitación en vivo dirigida por un instructor en Peru (en línea o presencial) está dirigida a científicos e ingenieros de datos de nivel intermedio que deseen usar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al final de esta formación, los participantes serán capaces de:
- Configure un entorno de big data con Google Colab y Spark.
- Procese y analice grandes conjuntos de datos de manera eficiente con Apache Spark.
- Visualice big data en un entorno colaborativo.
- Integre Apache Spark con herramientas basadas en la nube.
Big Data Analytics in Health
21 HorasEl análisis de Big Data implica el proceso de examinar grandes cantidades de conjuntos de datos variados para descubrir correlaciones, patrones ocultos y otras ideas útiles.
La industria de la salud tiene cantidades masivas de datos clínicos y médicos heterogéneos complejos. La aplicación de análisis de big data en datos de salud presenta un enorme potencial para obtener información para mejorar la prestación de servicios de salud. Sin embargo, la magnitud de estos conjuntos de datos plantea grandes desafíos en los análisis y aplicaciones prácticas en un entorno clínico.
En esta capacitación en vivo (remota) dirigida por un instructor, los participantes aprenderán cómo realizar análisis de big data en salud a medida que realizan una serie de ejercicios prácticos de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instale y configure herramientas de análisis de big data como Hadoop MapReduce y Spark
- Comprender las características de los datos médicos.
- Aplicar técnicas de big data para manejar datos médicos.
- Estudiar los sistemas y algoritmos de big data en el contexto de las aplicaciones de salud.
Audiencia
- Desarrolladores
- Científicos de datos
Formato del curso
- Conferencia en parte, discusión en parte, ejercicios y práctica práctica.
Nota
- Para solicitar una capacitación personalizada para este curso, contáctenos para organizarlo.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Peru, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Hadoop and Spark for Administrators
35 HorasEsta capacitación en vivo dirigida por un instructor en Peru (en línea o presencial) está dirigida a administradores de sistemas que desean aprender a configurar, implementar y administrar Hadoop clústeres dentro de su organización.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Apache Hadoop.
- Comprenda los cuatro componentes principales del ecosistema Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilice Hadoop Sistema de archivos distribuido (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configure HDFS para que funcione como motor de almacenamiento para implementaciones de Spark locales.
- Configure Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3, y NoSQL sistemas de bases de datos como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Lleve a cabo tareas administrativas como el aprovisionamiento, la gestión, la supervisión y la seguridad de un clúster Apache Hadoop.
Hortonworks Data Platform (HDP) para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Peru (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
- Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
- Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
- Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
- Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Una introducción práctica al procesamiento de flujo
21 HorasEn esta capacitación en vivo dirigida por un instructor en Peru (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos Stream Processing con los sistemas de almacenamiento de big data existentes y las aplicaciones de software y microservicios relacionados.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure diferentes marcos Stream Processing, como Spark Streaming y Kafka Streaming.
- Comprender y seleccionar el marco más adecuado para el trabajo.
- Procesamiento de datos de forma continua, simultánea y registro por registro.
- Integre Stream Processing soluciones con bases de datos, almacenes de datos, lagos de datos, etc. existentes.
- Integre la biblioteca de procesamiento de flujos más adecuada con aplicaciones empresariales y microservicios.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Peru, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark