Quantitative Text Analysis and Textual Similarity in R

ofrecido por
Coursera Project Network
En este proyecto guiado, tú:

Tokenize the dataset and convert the data into a document feature matrix Calculate cosine similarity across documents and plot the output

Clock1 hour
BeginnerPrincipiante
CloudNo se necesita descarga
VideoVideo de pantalla dividida
Comment DotsInglés (English)
LaptopSolo escritorio

By the end of this project, you will learn about the concept of document similarity in textual analysis in R. You will know how to load and pre-process a data set of text documents by converting the data set into a corpus and document feature matrix. You will know how to calculate the cosine similarity between documents and explore and plot the output of your calculation.

Habilidades que desarrollarás

  • cosine similarity
  • Text Analysis
  • Document Similarity
  • Data Visualization (DataViz)
  • Text Corpus

Aprende paso a paso

En un video que se reproduce en una pantalla dividida con tu área de trabajo, tu instructor te guiará en cada paso:

  1. Load textual data into R and turn it into a corpus object and understand the concept of calculating document similarity in textual analysis

  2. Extract meta-data from text document filenames and subset the data frame to exclude unwanted data

  3. Tokenize and clean the dataset and convert the data into a document feature matrix

  4. Calculate cosine similarity across documents and plot the output

Cómo funcionan los proyectos guiados

Tu espacio de trabajo es un escritorio virtual directamente en tu navegador, no requiere descarga.

En un video de pantalla dividida, tu instructor te guía paso a paso

Preguntas Frecuentes

Preguntas Frecuentes

¿Tienes más preguntas? Visita el Centro de Ayuda al Alumno.