14 Kg of CO2: Analyzing the Carbon Footprint and Performance of Session-Based Recommendation Algorithms

Note: This documentation is currently in Spanish, but an English version will be available soon.

Repositorio oficial del estudio realizado para el proyecto del curso Sistemas Recomendadores 2024-1 de la Pontificia Universidad Católica de Chile.

Este proyecto está fuertemente basado en el paper The Effect of Third Party Implementations on Reproducibility de Balázs Hidasi y Ádám Tibor Czapp. Se puede encontrar más información sobre las implementaciones utilizadas en el repositorio oficial de dicha investigación.

Índice

Estructura del repositorio
Datasets
Ejecución local
Modificaciones a submodulos
Consideraciones adicionales

Estructura del repositorio

datasets/

En esta carpeta hay que agregar los set de datos a utilizar en sus respectivas carpetas. En dichas carpetas se agregan los sets de datos tras su preprocesamiento.

submodulos

El repositorio hace referencia a los repositorios oficilas de las implementaciones utilizadas. El detalle de los repositorios utilizados se encuentra en el archivo .gitmodules y para poder usarlos de manera local es necesario ejecutar el siguiente comando:

git submodule update --init --recursive

Preprocess/

En esta carpeta se encuentra el preprocesado utilizado para cada uno de los datasets. En caso de querer utilizar datos nuevos es necesario agregar su procesamiento en esta carpeta con el nombre <dataset>_preproc.py

Train_Test_Best_Models/

En esta carpeta se encuentran los cuadernillos con los experimentos realizados. El nombre de cada Jupyter Notebook hace referencia a la implementación usada en dicho experimento.

trained_models/

En esta carpeta se generan los modelos entrenados y se guardan los resultados de CO2 entregados por CodeCarbon. Los resultados para cada implementación y dataset se encuentran en archivos trainingData.json. Dependiendo del notebook utilizado los resultados pueden estar en un único archivo con detalles o guardados en una carpeta específica del dataset (más detalle en en el incido de Consideraciones adicionales).

Datasets

Los datasets utilizados para la realización de los experimentos pueden encontrase en los siguientes enlaces:

Ejecución local

Para ejecutar los archivos hay que modificar el nombre de los modelos, función de pérdida a usar y datasets a utilizar en el experimento. Dependiendo del notebook dichos parámetros se colocan al inicio o en los strings ingresados a las funciones. Una vez seleccionados, ejecutar las celdas en orden. Para algunos notebooks el test_script generado debe usarse en consola en lugar de entregar las métricas directamente (más detalle en en el incido de Consideraciones adicionales).

En caso de que se quiera utilizar un dataset u modelo no utilizado en el experimento, es necesario crear su respectiva carpeta con el formato <nombre modelo>_<función de pérdida> en la carpeta de los modelos entrenados. En dicha carpeta, por cada dataset hay que crear una carpeta con el nombre de este y un archivo trainingData.json vacío.

Modificaciones a submodulos

Actualizaciones y modificaciones en los repositorios de las implementaciones podrían generar problemas para su uso a futuro. En este caso, no se logró hacer uso de GRU4Rec y para poder utilizar KerasGRU4Rec, se realizan los siguientes cambios al archivo KerasGRU4Rec/model/gru4rec.py en las líneas 191 y 236.


190 ...
191 # gru_layer.reset_states(states=hidden_states)
192 gru_layer.reset_states()
---

235...
236 # gru_layer.reset_states(states=hidden_states)
237 gru_layer.reset_states()

Consideraciones adicionales

Como los experimentos fueron realizados en paralelo en branches diferentes, existen variaciones en el formato de algunos Jupyter Notebooks y sus respectivos archivos trainingData.json. Específicamente, es posible distinguir dos grupos de formato:

Experimentos de Torch-GRU4Rec y GRU4Rec-pytorch
Experimentos de KerasGRU4Rec, GRU4Rec-TensorFlow y Recpack.

No obstamte lo anterior, la estructura general de cada experimento es la misma. Los resultados del primer grupo de experimentos se encuentran en un mismo archivo con detalles del dataset y función de pérdida utilizado, mientras que los del segundo grupo se encuentras por separado en una carpeta específica para el dataset y función de pérdida.

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
GRU4REC-pytorch @ eaad3eb		GRU4REC-pytorch @ eaad3eb
GRU4Rec @ a4ed5fb		GRU4Rec @ a4ed5fb
GRU4Rec_TensorFlow @ f3ba65f		GRU4Rec_TensorFlow @ f3ba65f
KerasGRU4Rec @ bf4b7c8		KerasGRU4Rec @ bf4b7c8
Preprocess		Preprocess
Torch-GRU4Rec @ d183c13		Torch-GRU4Rec @ d183c13
Train_Test_Best_Models		Train_Test_Best_Models
datasets		datasets
recpack @ b6c2692		recpack @ b6c2692
trained_models		trained_models
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
gru4rec_conda_pytorch_env.yaml		gru4rec_conda_pytorch_env.yaml
gru4rec_conda_recpack_env.yaml		gru4rec_conda_recpack_env.yaml
gru4rec_conda_tensorflow_env.yaml		gru4rec_conda_tensorflow_env.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

14 Kg of CO2: Analyzing the Carbon Footprint and Performance of Session-Based Recommendation Algorithms

Estructura del repositorio

datasets/

submodulos

Preprocess/

Train_Test_Best_Models/

trained_models/

Datasets

Ejecución local

Modificaciones a submodulos

Consideraciones adicionales

About

Releases

Packages

Contributors 2

Languages

Juancagp/RecSys-Project-2024-1

Folders and files

Latest commit

History

Repository files navigation

14 Kg of CO2: Analyzing the Carbon Footprint and Performance of Session-Based Recommendation Algorithms

Estructura del repositorio

datasets/

submodulos

Preprocess/

Train_Test_Best_Models/

trained_models/

Datasets

Ejecución local

Modificaciones a submodulos

Consideraciones adicionales

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages