Durante los últimos años hemos sido testigos de la expansión de nuevas herramientas computacionales que han cambiando el panorama en todas las áreas de investigación social. Estas herramientas nos permiten analizar nuevos tipos de datos (como archivos de texto, imágenes, o redes sociales), explotar bases de datos masivas, o enfrentar problemas de predicción con una gran precisión. Con ello, nos ofrecen la posibilidad de adentrarnos en temas de investigación que hasta ahora no eran factibles.
En esta primera mitad del curso Big Data para los sectores público y privado nos centraremos en la captura y el análisis de nuevas formas de información. Estudiaremos, por ejemplo, como obtener datos de Internet, cómo identificar a los actores más relevantes en una red social, cómo obtener información de una gran colección de archivos de texto, cómo sintetizar información cuantitativa y cómo fusionar bases de datos. La segunda mitad del curso se centrará en modelos predictivos.
Durante la primera mitad de cada sesión, cubriremos las intuiciones detrás de la teoría y en la segunda mitad aplicaremos esos conceptos a bases de datos y problemas reales.
Para poder seguir la clase, es necesario tener cierta exposición al análisis estadístico. En concreto, para aprovechar correctamente los contenidos de cada sesión deberás familiarizado con los fundamentos de la probabilidad y la estadística inferencial. Además, debes tener cierta soltura con modelos de regresión y clasificación como la regresión logística.
El lenguaje de programación R
será nuestra principal herramienta de trabajo.
En la primera clase repasaremos los fundamentos del lenguaje. Si no tienes
experiencia previa con programación, ni siquiera con un lenguaje estadístico
como Stata o SAS, probablemente querrás complementar esta clase con algunos
materiales adicionales antes de la segunda sesión. Ponte en contacto conmigo y
te puedo recomendar algunas lecturas.
El curso completo Big Data para los sectores público y privado será evaluado mediante cuatro pruebas prácticas (dos en cada una de las mitades) y un ejercicio de investigación.
Durante los días del curso estaré disponible para tutorías entre 10:30 y 12:00 en la oficina 3-15 Facultad de Economía. Fuera de esos horarios mantendré una política de puerta abierta. Si por cualquier motivo esas dos opciones no fuesen suficientes, ponte en contacto conmigo por correo electrónico.
- James, G., Witten, D, Hastie, T. y Tibshirani, R. (2013): An Introduction to Statistical Learning. Springer.
- Tilton, L. y Arnold, T. (2015): Humanities Data in
R
. Springer. - de Bruin, J. (2015): Probabilistic Record Linkage with the Fellegi and Sunter Framework. MSc Dissertation. Delft University of Technology.
- Borgatti, S. y Everett, M. (2013): Analyzing Social Networks. SAGE Publishing.
- Grolemund, G. y Wickham, H. (2016): R for Data Science. O'Reilly.
- Introducción
- ¿Qué es el Big Data?
- Ciencia de datos para la investigación social
- Retos
- Oportunidades
- ¿Qué necesitas para ser un científico de datos?
- Una introducción a
R
- Captura de datos de Internet
- Capturar datos provenientes de una REST API
- Estructura de una REST API
- Formatos de intercambio de datos
- Un ejemplo: Search API de Twitter
- Obtención de datos de páginas web
- Una breve introducción a HTML y CSS
- Un ejemplo: Resultados electorales en Colombia
- Captura de datos en streaming
- Un ejemplo: Streaming API de Twitter
- Capturar datos provenientes de una REST API
- Análisis de redes sociales
- Caminos
- Componentes
- Matrices de adyacencias
- Descriptivos de una red
- Medidas de cohesión
- Medidas de transitividad
- Medidas de centralidad
- Detección de comunidades
- Contraste de hipótesis en redes sociales
- Un ejemplo: Redes de colaboración en el Congreso de los Diputados
- Aprendizaje no-supervisado
- Una visión general del problema
- Análisis de componentes principales
- Análisis de conglomerados
- Escalado multidimensional
- Un ejemplo: Criminalidad en Colombia
- Procesamiento de lenguaje natural y análisis de textos
- Procesamiento de lenguaje natural
- Tokenización
- Normalización
- Reconocimiento de entidades
- Etiquetadores
- Análisis de textos
- El modelo de bolsa de palabras
- Matrices de términos y TF-IDF
- Similitud entre documentos
- Modelos de clasificación de documentos
- Un ejemplo: Temas en notas de prensa en el Senado de los Estados Unidos
- Procesamiento de lenguaje natural
- Fusión de registros
- Contexto del problema
- El marco Fellegi-Sunter
- Métricas en cadenas de texto
- Errores de clasificación
- Reglas óptimas de clasificación
- Estimación de parámetros
- Un ejemplo: Fusionar congresistas con cuentas de Twitter