Working with Big Data

ofrecido por
Coursera Project Network
En este proyecto guiado, tú:

Process a large dataset from NOAA showing hourly precipitation rates for a ten year period from the state of Wisconsin

Clock2 hours
IntermediateIntermedio
CloudNo se necesita descarga
VideoVideo de pantalla dividida
Comment DotsInglés (English)
LaptopSolo escritorio

By the end of this project, you will set up an environment for Big Data Development using Visual Studio Code, MongoDB and Apache Spark. You will then use the environment to process a large dataset from NOAA showing hourly precipitation rates for a ten year period from the state of Wisconsin. MongoDB is a widely used NoSQL database well suited for very large datasets or Big Data. It is highly scalable and adaptable as well. Apache Spark is used for efficient in-memory processing of Big Data.

Habilidades que desarrollarás

  • PySpark Queries
  • Mongodb
  • Python Programming
  • Big Data
  • PySpark

Aprende paso a paso

En un video que se reproduce en una pantalla dividida con tu área de trabajo, tu instructor te guiará en cada paso:

  1. Set up Apache Spark and MongoDB Environment.

  2. Create a Python PySpark program to read CSV data.

  3. Use Spark SQL to query in-memory data.

  4. Configure Apache Spark to connect to MongoDB.

  5. Persist data using Spark and MongoDB.

Cómo funcionan los proyectos guiados

Tu espacio de trabajo es un escritorio virtual directamente en tu navegador, no requiere descarga.

En un video de pantalla dividida, tu instructor te guía paso a paso

Preguntas Frecuentes

Preguntas Frecuentes

¿Tienes más preguntas? Visita el Centro de Ayuda al Alumno.