LuxDL
diff --git a/‎lib/LuxLib/docs/make.jl
+27-9 b/‎lib/LuxLib/docs/make.jl
+27-9
diff --git a/‎lib/LuxLib/ext/LuxLibLuxCUDAExt.jl
+47-13 b/‎lib/LuxLib/ext/LuxLibLuxCUDAExt.jl
+47-13
diff --git a/‎lib/LuxLib/ext/LuxLibLuxCUDATrackerExt.jl
+65-25 b/‎lib/LuxLib/ext/LuxLibLuxCUDATrackerExt.jl
+65-25
diff --git a/‎lib/LuxLib/ext/LuxLibReverseDiffExt.jl
+45-19 b/‎lib/LuxLib/ext/LuxLibReverseDiffExt.jl
+45-19
diff --git a/‎lib/LuxLib/ext/LuxLibTrackerExt.jl
+22-10 b/‎lib/LuxLib/ext/LuxLibTrackerExt.jl
+22-10
@@ -3,13 +3,31 @@ using Documenter, DocumenterMarkdown, LuxLib
 deployconfig = Documenter.auto_detect_deploy_system()
 Documenter.post_status(deployconfig; type="pending", repo="github.com/LuxDL/LuxLib.jl.git")
 
-makedocs(; sitename="LuxLib", authors="Avik Pal et al.", clean=true, doctest=true,
-         modules=[LuxLib],
-         strict=[:doctest, :linkcheck, :parse_error, :example_block, :missing_docs],
-         checkdocs=:all, format=Markdown(), draft=false, build=joinpath(@__DIR__, "docs"))
+makedocs(;
+    sitename="LuxLib",
+    authors="Avik Pal et al.",
+    clean=true,
+    doctest=true,
+    modules=[LuxLib],
+    strict=[:doctest, :linkcheck, :parse_error, :example_block, :missing_docs],
+    checkdocs=:all,
+    format=Markdown(),
+    draft=false,
+    build=joinpath(@__DIR__, "docs"))
 
-deploydocs(; repo="github.com/LuxDL/LuxLib.jl.git", push_preview=true,
-           deps=Deps.pip("mkdocs", "pygments", "python-markdown-math", "mkdocs-material",
-                         "pymdown-extensions", "mkdocstrings", "mknotebooks",
-                         "pytkdocs_tweaks", "mkdocs_include_exclude_files", "jinja2"),
-           make=() -> run(`mkdocs build`), target="site", devbranch="main")
+deploydocs(;
+    repo="github.com/LuxDL/LuxLib.jl.git",
+    push_preview=true,
+    deps=Deps.pip("mkdocs",
+        "pygments",
+        "python-markdown-math",
+        "mkdocs-material",
+        "pymdown-extensions",
+        "mkdocstrings",
+        "mknotebooks",
+        "pytkdocs_tweaks",
+        "mkdocs_include_exclude_files",
+        "jinja2"),
+    make=() -> run(`mkdocs build`),
+    target="site",
+    devbranch="main")
@@ -10,31 +10,65 @@ LuxLib._replicate(rng::CUDA.RNG) = deepcopy(rng)
 
 # api/batchnorm.jl
 
-const CUDNN_BN_ARRAY_TYPE = Union{CuArray{<:FP_32_64, 2}, CuArray{<:FP_32_64, 4},
-                                  CuArray{<:FP_32_64, 5}}
+const CUDNN_BN_ARRAY_TYPE = Union{
+    CuArray{<:FP_32_64, 2},
+    CuArray{<:FP_32_64, 4},
+    CuArray{<:FP_32_64, 5},
+}
 const BNParamType = Union{Nothing, CuVector{<:FP_32_64}}
 
-function batchnorm(x::CUDNN_BN_ARRAY_TYPE, scale::BNParamType, bias::BNParamType,
-                   running_mean::BNParamType, running_var::BNParamType; momentum::Real,
-                   training::Val, epsilon::Real)
+function batchnorm(x::CUDNN_BN_ARRAY_TYPE,
+    scale::BNParamType,
+    bias::BNParamType,
+    running_mean::BNParamType,
+    running_var::BNParamType;
+    momentum::Real,
+    training::Val,
+    epsilon::Real)
     rm, rv = _get_batchnorm_statistics(x, running_mean, running_var, training)
 
     x_ = _batchnorm_cudnn!(rm, rv, scale, bias, x, momentum, epsilon, training)
     return x_, (; running_mean=rm, running_var=rv)
 end
 
-function _batchnorm_cudnn!(running_mean, running_var, scale, bias, x, momentum, eps,
-                           ::Val{training}) where {training}
-    return NNlibCUDA.batchnorm(scale, bias, x, running_mean, running_var, momentum; eps,
-                               training)
+function _batchnorm_cudnn!(running_mean,
+    running_var,
+    scale,
+    bias,
+    x,
+    momentum,
+    eps,
+    ::Val{training}) where {training}
+    return NNlibCUDA.batchnorm(scale,
+        bias,
+        x,
+        running_mean,
+        running_var,
+        momentum;
+        eps,
+        training)
 end
 
-function CRC.rrule(::typeof(_batchnorm_cudnn!), running_mean, running_var, scale, bias, x,
-                   momentum, epsilon, t::Val{training}) where {training}
+function CRC.rrule(::typeof(_batchnorm_cudnn!),
+    running_mean,
+    running_var,
+    scale,
+    bias,
+    x,
+    momentum,
+    epsilon,
+    t::Val{training}) where {training}
     y = _batchnorm_cudnn!(running_mean, running_var, scale, bias, x, momentum, epsilon, t)
     function ∇_batchnorm_cudnn!(Δ)
-        ∂g, ∂b, ∂x = NNlibCUDA.∇batchnorm(scale, bias, x, CRC.unthunk(Δ), running_mean,
-                                          running_var, momentum; eps=epsilon, training)
+        ∂g, ∂b, ∂x = NNlibCUDA.∇batchnorm(scale,
+            bias,
+            x,
+            CRC.unthunk(Δ),
+            running_mean,
+            running_var,
+            momentum;
+            eps=epsilon,
+            training)
         return (∂∅, ∂∅, ∂∅, ∂g, ∂b, ∂x, ∂∅, ∂∅, ∂∅)
     end
     return y, ∇_batchnorm_cudnn!
 
@@ -6,25 +6,34 @@ if isdefined(Base, :get_extension)
     using LuxCUDA
 else
     using ..Tracker
-    import ..Tracker: @grad, data, nobacksies, track, TrackedArray, TrackedVector,
-                      TrackedReal
+    import ..Tracker: @grad,
+        data, nobacksies, track, TrackedArray, TrackedVector, TrackedReal
     using ..LuxCUDA
 end
 using NNlib, LuxLib
-import LuxLib: AA, AV, _batchnorm_cudnn!, _get_batchnorm_statistics, FP_32_64, ∂∅,
-               __is_tracked
+import LuxLib: AA,
+    AV, _batchnorm_cudnn!, _get_batchnorm_statistics, FP_32_64, ∂∅, __is_tracked
 
 # api/batchnorm.jl
-const TR_CUDNN_BN_ARRAY_TYPE = Union{TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 2}},
-                                     TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 4}},
-                                     TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 5}}}
-const TR_BNParamType = Union{Nothing, TrackedArray{<:Any, <:Any, <:CuVector{<:FP_32_64}},
-                             CuVector{<:FP_32_64}}
-
-function LuxLib.batchnorm(x::TR_CUDNN_BN_ARRAY_TYPE, scale::TR_BNParamType,
-                          bias::TR_BNParamType, running_mean::TR_BNParamType,
-                          running_var::TR_BNParamType; momentum::Real, training::Val,
-                          epsilon::Real)
+const TR_CUDNN_BN_ARRAY_TYPE = Union{
+    TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 2}},
+    TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 4}},
+    TrackedArray{<:Any, <:Any, <:CuArray{<:FP_32_64, 5}},
+}
+const TR_BNParamType = Union{
+    Nothing,
+    TrackedArray{<:Any, <:Any, <:CuVector{<:FP_32_64}},
+    CuVector{<:FP_32_64},
+}
+
+function LuxLib.batchnorm(x::TR_CUDNN_BN_ARRAY_TYPE,
+    scale::TR_BNParamType,
+    bias::TR_BNParamType,
+    running_mean::TR_BNParamType,
+    running_var::TR_BNParamType;
+    momentum::Real,
+    training::Val,
+    epsilon::Real)
     rm, rv = _get_batchnorm_statistics(x, running_mean, running_var, training)
 
     x_ = _batchnorm_cudnn!(rm, rv, scale, bias, x, momentum, epsilon, training)
@@ -39,21 +48,52 @@ for RM in (:TrackedVector, :Nothing, :AbstractVector),
 
     __is_tracked(RM, RV, S, B, XT) || continue
 
-    @eval function _batchnorm_cudnn!(running_mean::$RM, running_var::$RV, scale::$S,
-                                     bias::$B, x::$XT, momentum, eps, training::Val)
-        return track(_batchnorm_cudnn!, running_mean, running_var, scale, bias, x, momentum,
-                     eps, training)
+    @eval function _batchnorm_cudnn!(running_mean::$RM,
+        running_var::$RV,
+        scale::$S,
+        bias::$B,
+        x::$XT,
+        momentum,
+        eps,
+        training::Val)
+        return track(_batchnorm_cudnn!,
+            running_mean,
+            running_var,
+            scale,
+            bias,
+            x,
+            momentum,
+            eps,
+            training)
     end
 end
 
-@grad function LuxLib._batchnorm_cudnn!(running_mean, running_var, scale, bias, x, momentum,
-                                        eps, training)
-    y = _batchnorm_cudnn!(data(running_mean), data(running_var), data(scale), data(bias),
-                          data(x), momentum, eps, training)
+@grad function LuxLib._batchnorm_cudnn!(running_mean,
+    running_var,
+    scale,
+    bias,
+    x,
+    momentum,
+    eps,
+    training)
+    y = _batchnorm_cudnn!(data(running_mean),
+        data(running_var),
+        data(scale),
+        data(bias),
+        data(x),
+        momentum,
+        eps,
+        training)
     function ∇_batchnorm_cudnn!(Δ)
-        ∂g, ∂b, ∂x = NNlibCUDA.∇batchnorm(data(scale), data(bias), data(x), Δ,
-                                          data(running_mean), data(running_var), momentum;
-                                          eps, training)
+        ∂g, ∂b, ∂x = NNlibCUDA.∇batchnorm(data(scale),
+            data(bias),
+            data(x),
+            Δ,
+            data(running_mean),
+            data(running_var),
+            momentum;
+            eps,
+            training)
         return (nothing, nothing, ∂g, ∂b, ∂x, nothing, nothing, nothing)
     end
     return y, ∇_batchnorm_cudnn!
 
@@ -2,14 +2,28 @@ module LuxLibReverseDiffExt
 
 if isdefined(Base, :get_extension)
     using ReverseDiff
-    import ReverseDiff: SpecialInstruction, TrackedArray, TrackedReal, decrement_deriv!,
-                        increment_deriv!, track, value, special_reverse_exec!,
-                        special_forward_exec!, @grad_from_chainrules
+    import ReverseDiff: SpecialInstruction,
+        TrackedArray,
+        TrackedReal,
+        decrement_deriv!,
+        increment_deriv!,
+        track,
+        value,
+        special_reverse_exec!,
+        special_forward_exec!,
+        @grad_from_chainrules
 else
     using ..ReverseDiff
-    import ..ReverseDiff: SpecialInstruction, TrackedArray, TrackedReal, decrement_deriv!,
-                          increment_deriv!, track, value, special_reverse_exec!,
-                          special_forward_exec!, @grad_from_chainrules
+    import ..ReverseDiff: SpecialInstruction,
+        TrackedArray,
+        TrackedReal,
+        decrement_deriv!,
+        increment_deriv!,
+        track,
+        value,
+        special_reverse_exec!,
+        special_forward_exec!,
+        @grad_from_chainrules
 end
 using ChainRulesCore, LuxLib, NNlib
 import ChainRulesCore as CRC
@@ -45,36 +59,48 @@ for func in (:conv, :depthwiseconv, :∇conv_data, :∇conv_filter),
             return track(NNlib.$(func), x, w, cdims; kwargs...)
         end
 
-        function ReverseDiff.track(::typeof(NNlib.$(func)), x::$(xType), w::$(wType),
-                                   cdims::ConvDims; kwargs...)
+        function ReverseDiff.track(::typeof(NNlib.$(func)),
+            x::$(xType),
+            w::$(wType),
+            cdims::ConvDims;
+            kwargs...)
             tape = ReverseDiff.tape(x, w, cdims)
-            output_value, back = CRC.rrule(NNlib.$(func), value(x), value(w), cdims;
-                                           kwargs...)
+            output_value, back = CRC.rrule(NNlib.$(func),
+                value(x),
+                value(w),
+                cdims;
+                kwargs...)
             output = track(output_value, tape)
             function closure(cls_args...; cls_kwargs...)
                 return CRC.rrule(NNlib.$(func), value(x), value(w), cdims; kwargs...)
             end
-            ReverseDiff.record!(tape, SpecialInstruction, NNlib.$(func), (x, w, cdims),
-                                output, (back, closure, kwargs))
+            ReverseDiff.record!(tape,
+                SpecialInstruction,
+                NNlib.$(func),
+                (x, w, cdims),
+                output,
+                (back, closure, kwargs))
             return output
         end
 
-        function special_reverse_exec!(instr::SpecialInstruction{typeof(NNlib.$(func)),
-                                                                 <:Tuple{$(xType), $(wType),
-                                                                         ConvDims}})
+        function special_reverse_exec!(instr::SpecialInstruction{
+            typeof(NNlib.$(func)),
+            <:Tuple{$(xType), $(wType), ConvDims},
+        })
             back_output = instr.cache[1](ReverseDiff.deriv(instr.output))
             input_derivs = back_output[2:end]
             ReverseDiff._add_to_deriv!.(instr.input, input_derivs)
             ReverseDiff.unseed!(instr.output)
             return nothing
         end
 
-        function special_forward_exec!(instr::SpecialInstruction{typeof(NNlib.$(func)),
-                                                                 <:Tuple{$(xType), $(wType),
-                                                                         ConvDims}})
+        function special_forward_exec!(instr::SpecialInstruction{
+            typeof(NNlib.$(func)),
+            <:Tuple{$(xType), $(wType), ConvDims},
+        })
             ReverseDiff.pull_value!.(instr.input)
             out_value = instr.cache[2](ReverseDiff.value.(instr.input)...;
-                                       instr.cache[3]...)
+                instr.cache[3]...)
             ReverseDiff.value!(instr.output, out_value)
             return nothing
         end
 
@@ -5,12 +5,12 @@ if isdefined(Base, :get_extension)
     import Tracker: @grad, data, nobacksies, track, TrackedArray, TrackedVector, TrackedReal
 else
     using ..Tracker
-    import ..Tracker: @grad, data, nobacksies, track, TrackedArray, TrackedVector,
-                      TrackedReal
+    import ..Tracker: @grad,
+        data, nobacksies, track, TrackedArray, TrackedVector, TrackedReal
 end
 using NNlib, LuxLib
-import LuxLib: AA, AV, _batchnorm_cudnn!, _get_batchnorm_statistics, FP_32_64, ∂∅,
-               __is_tracked
+import LuxLib: AA,
+    AV, _batchnorm_cudnn!, _get_batchnorm_statistics, FP_32_64, ∂∅, __is_tracked
 import ChainRulesCore as CRC
 
 # NNlib: batched_mul
@@ -86,14 +86,20 @@ for T1 in (:TrackedArray, :AbstractArray),
 
     __is_tracked(T1, T2, T3) || continue
 
-    @eval function LuxLib.groupnorm(x::$T1{T, 4}, scale::$T2{T}, bias::$T3{T}; groups::Int,
-                                    epsilon::Real) where {T <: FP_32_64}
+    @eval function LuxLib.groupnorm(x::$T1{T, 4},
+        scale::$T2{T},
+        bias::$T3{T};
+        groups::Int,
+        epsilon::Real) where {T <: FP_32_64}
         return track(LuxLib.groupnorm, x, scale, bias; groups, epsilon)
     end
 end
 
-@grad function LuxLib.groupnorm(x::AA{T, 4}, scale::AV{T}, bias::AV{T}; groups::Int,
-                                epsilon::Real) where {T <: FP_32_64}
+@grad function LuxLib.groupnorm(x::AA{T, 4},
+    scale::AV{T},
+    bias::AV{T};
+    groups::Int,
+    epsilon::Real) where {T <: FP_32_64}
     LuxLib._assert_same_backend(data(x), data(scale), data(bias))
     if length(scale) != length(bias) != size(x, 3)
         throw(ArgumentError("Length of `scale` and `bias` must be equal to the number of channels (N - 1 dim of the input array)."))
@@ -104,8 +110,14 @@ end
 
     y, mu, rsig = LuxLib._groupnorm(data(x), groups, data(scale), data(bias), epsilon)
     function groupnorm_pullback(dy)
-        dx, dscale, dbias = LuxLib._dgroupnorm(dy, y, data(x), groups, data(scale),
-                                               data(bias), mu, rsig)
+        dx, dscale, dbias = LuxLib._dgroupnorm(dy,
+            y,
+            data(x),
+            groups,
+            data(scale),
+            data(bias),
+            mu,
+            rsig)
         return nobacksies(:groupnorm, (dx, dscale, dbias))
     end
     return y, groupnorm_pullback