GitHub

Proyecto GeoLife Curso Visualizacion de Datos

El proyecto inicia son 4 Python Notebooks para preprocesamiento:

Preprocesamiento:

GeolifePrj_00_plt2df.ipynb: La data original de GeoLife se encuentra en un formato llamado PLT, parecido a CSV. El primer paso es crear DataFrames de Pandas y serializarlas , para trabajar despues con ellas.Además facilita la transformación entre otros formatos como GeoJSon, CSV, etc

GeolifePrj_01_df2geojson.ipynb Una vez con toda la data en DataFrames la transformamos en GeoJSON, en versiones ligeras y completas, para poder visualizarla y explorarla con diferentes herramientas y tener una idea intuitiva del tipo de informacion con la que estamos lidiando.

Features extra:

GeolifePrj_02_extrafeatures.ipynb Deducimos informaciones extra utiles en base a la data original para enriquecer el dataset y poder sacar conclusiones -calculamos la velocidad en cada punto -calculamos la aceleracion -calculamos la velocidad filtrada con un "Moving Average" , para evitar picos en las velocidad, producto de ruido en la informacion GPS propia del sistema GPS. -calculamos distancias recorridas -con la distribucion de velocidades se puede intuir los diferentes modos de transporte utilizados y en que porcentajes

Data Mining:

GeolifePrj_03_clustering.ipynb

Utilizamos DBSCAN de sklearn como algortimo de clusterizacion porque se adapta muy bien al tipo de data geolocalizada y es resistente al ruido, correspondiente a ubicaciones poco visitadas por los usuarios. Aplicamos el algoritmo a cada usuario , para descubrir sus "stay points" , como universidad , centros comerciales, casa ,etc y poder deducir su comportamiento (Futuro: cruzar esa información con la información temporal para deducir a que tipo de actividad se relaciona ciertas areas geograficas)

Agregamos en base de datos grupos de 10 a 20 usuarios, con un promedio de 1'500'000 de registros, probamos un random undersampling y probamos la clusterizacion con diferentes subconjuntos aleatorios de esa data para confirmar que tienen los mismos clusteres. Ademas se puede deducir de los clusteres los lugares que visitan en COMUN ese grupo de usuarios.

Visualización

Usamos diferentes herramientas para visualizar la data preprocesada y taggeada como MapBox Kibana geojson.io

-Edwin Contreras -Jesús Chavez -Facundo Rodriguez

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
assets		assets
GeoLife_MapBox_FacundoRo.ipynb		GeoLife_MapBox_FacundoRo.ipynb
GeoObs.json		GeoObs.json
GeolifePrj_00_plt2df.ipynb		GeolifePrj_00_plt2df.ipynb
GeolifePrj_01_df2geojson.ipynb		GeolifePrj_01_df2geojson.ipynb
GeolifePrj_02_extrafeatures.ipynb		GeolifePrj_02_extrafeatures.ipynb
GeolifePrj_03_clustering.ipynb		GeolifePrj_03_clustering.ipynb
dash_test.ipynb		dash_test.ipynb
demoicons.geojson		demoicons.geojson
geolife_039_features.zip		geolife_039_features.zip
geolife_133_linesimpl2.geojson		geolife_133_linesimpl2.geojson
geolife_144_linesimpl2.geojson		geolife_144_linesimpl2.geojson
geolife_155_linesimpl.geojson		geolife_155_linesimpl.geojson
geolife_158_linesimpl.geojson		geolife_158_linesimpl.geojson
geolife_160_linesimpl.geojson		geolife_160_linesimpl.geojson
geolife_163_linesimpl.geojson		geolife_163_linesimpl.geojson
geolife_167_linesimpl.geojson		geolife_167_linesimpl.geojson
geolife_167_linesimpl2.geojson		geolife_167_linesimpl2.geojson
geolife_174_linesimpl.geojson		geolife_174_linesimpl.geojson
geolife_174_linesimpl2.geojson		geolife_174_linesimpl2.geojson
geolife_180_linesimpl2.geojson		geolife_180_linesimpl2.geojson
geolife_181_linesimpl.geojson		geolife_181_linesimpl.geojson
linestring_samples.geojson		linestring_samples.geojson
map.geojson		map.geojson
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

FacundoRo/GeoLife

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages