-
Notifications
You must be signed in to change notification settings - Fork 27
[ODK] Meeting 2019 06 12
- Dixon refacto:
- remarques de JG addressées.
- restait des pb de BlasPermutation -> issue crée, refacto à faire
- à nouveau ready for review
TODO: JG mergera
- RNS pour fgemv basé sur FFLAS::RNSInteger
-
pb d'ecriture dans la matrice sur des RNSInteger
-
ceil du cmax -> devrait résoudre le pb de taille de base RNS -> enlever le *16
-
pour le stride -> faire * stride
-
voir pourquoi le log n'a qu'un residu
-
planning -> fgemm d'ici la semaine pro + parallelisme éventuellement
-
puis
- benchmarks
- intégration dans le framework général (matrices non-inversibles, rectangulaires, etc)
- question synchro: faut-il synchroniser au niveau du fgemm: [D2]
- option 1: t Dixon en parallele qui se synchronisent avant un pfgemm fait par tout le monde
- option 2: parfor(l) sur les residus, chacun faisant un Dixon sequentiel, fgemm ou fgemv selon si les modulo sont premiers ou RNS -> choix de l'option 1.
TODO next: -> TODO: quand nullity>0 -> redraw a new prime
- LinBox error debug contracts: PR en WIP encore en WIP, a voir plus tard.
TODO: JG et CP
-
site web cleanup -> avec Dave du 30/06 au 3 /07
- création de la page linbox-team.github.io, -> done
- redirection linalg.org -> done
-
chgmnt de la CI inria et travis: make dist et build de l'archiv dans un builddir séparé -> fait pour CI -> autotune crash n'est pas reporté
- SG1: URGent
- pb pDet -> fait dans 2.4.1
- pSolve -> Sage appel LinBox qui appelle fflas solve. -> fixer pour appeller fflas pSolve directement -> pb d'arg numthreads manquant -> rerelease fflas-ffpack 2.4.2 et 2.4.3
-> A faire: finir #27444 :
-
merger #26932
-
recupérer les dernières releases et les mettre dans upstream
-
finir les hook python
-
benchs: verifier les speedup paralleles
-
becnhmarks fgemv -> confirmé: pas de ENABLE_CHECKER -> on passe dans le fgemm 2 gros pb du profiling:
- infNorm fait n^2 appels à bitsize -> prends 600ms pour un calcul de 2s -> tuner en remplaçant par abscompare qui évite d'appeler le bitsize -> enlever tous les bitsize
- pointwise product semble bof -> verifier que l'appel du wiki ne lui passe pas de degre de parallélisme. -> paralleliser les finit_rns and fconvert_rns (existe dejà , vérifier si il sont bien appelés) oui mais speedup bof -> tuning en cours
-> dans field/rns-double.inl remplacer les Recursive, TwoDAdaptive par un Block Threads pas mieux (voire pire)
Objectifs:
- remettre à jour l'utilisation des CUBLAS et voir si on peut faire des perfs sexy -> certains serveurs de LUKE ont des GPUs
Autres:
- JG fflas-ffpack #265 -> test-solve sur retourdest avec openblas en parallel -> USE_THREADS=0 incompatible avec set_num_threads -> CP regarde si c'ets un bug OpenBlAS et reporte
Prochaine reu: 19 (sans doute aprem)