Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

Ajouter une fiche arrow #498

Merged
merged 100 commits into from
Jan 31, 2024
Merged

Ajouter une fiche arrow #498

merged 100 commits into from
Jan 31, 2024

Conversation

oliviermeslin
Copy link
Contributor

No description provided.

@arnaud-feldmann
Copy link

arnaud-feldmann commented Nov 22, 2023

Hello,

Super fiche ! 👍 Quelques commentaires mais c'est mon avis perso :

  • Je trouve que tu insistes un chouilla trop sur le fait que c'est difficile. A titre perso je trouve ça plus simple que la syntaxe data.table par exemple puisque ça ne demande pas d'apprendre encore une nouvelle syntaxe, c'est la même que dplyr/dbplyr ;) Dans ma division, des débutants en R qui ont tout juste appris dplyr manipulent des dataset issus d'open_dataset sans se poser de question ;) Si les données sont déjà sous forme de .parquet, ça passe sans avoir à cogiter pour 95% des requêtes de tous les jours qui sont des count(), des filter() et des distinct().
  • Un des trucs (vraiment relou) d'arrow à l'usage est par contre son incapacité à faire les window function à ce jour. Le cas qui revient le plus est les pourcentages, car mutate(pct=n/sum(n)) ne fonctionne pas. Le moteur ne gère que les fonctions scalaires 1 -> 1 (un mutate où chaque valeur est terme à terme) ou les fonctions N -> 1 d'agrégation (un summarise). Mais à ce jour pas de gestion des fonctions N -> N, y compris les plus simples. Du coup avant de faire ses pourcentages on doit faire collect(). Peut-être une remarque là dessus serait pertinente ?

@arnaud-feldmann
Copy link

Ah pardon au temps pour moi j'avais mal lu (il est tard) et il y a un paragraphe avec un exemple de window function.

oliviermeslin and others added 28 commits January 28, 2024 20:04
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
@oliviermeslin oliviermeslin merged commit 4da1f27 into master Jan 31, 2024
3 checks passed
@linogaliana linogaliana deleted the fiche_arrow_duckdb branch February 22, 2024 16:56
# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

6 participants