Skip to content

AArch64 status

[bot] michalowski-arm edited this page Dec 12, 2025 · 406 revisions

AArch64 Testing Status

Unit test results

c6g

✅ unit tests passed

c7g

✅ unit tests passed

c8g

✅ unit tests passed

Performance test results

c7g

problem v3.9 p50 time(ms) v3.9 p10 time (ms) e7ac8d p50 time(ms) e7ac8d p10 time (ms) speedup (>1 is faster)
eltwise alg=relu-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=relu-dst --alpha=0 --beta=0 384x384
0.0024 0.0022 0.0027 0.0024 $${\color{red}0.909\times}$$
eltwise alg=relu-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=relu-dst --alpha=0 --beta=0 384x384
0.0024 0.0022 0.0027 0.0024 $${\color{red}0.909\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA8b4a 384x384
0.0085 0.0083 0.005 0.005 $${\color{green}1.63\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384
0.009 0.009 0.0054 0.0054 $${\color{green}1.68\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.0083 0.0083 0.0056 0.0054 $${\color{green}1.48\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.0083 0.0081 0.0054 0.0054 $${\color{green}1.55\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA8b4a --dtag=ba 384x384
0.0066 0.0066 0.0034 0.0032 $${\color{green}1.93\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA4b4a --dtag=ba 384x384
0.0066 0.0066 0.0034 0.0032 $${\color{green}1.93\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.011 0.011 0.0039 0.0039 $${\color{green}2.94\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.011 0.011 0.0039 0.0039 $${\color{green}2.94\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.016 0.015 0.014 0.014 $${\color{green}1.12\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.015 0.015 0.0078 0.0078 $${\color{green}1.94\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.012 0.011 0.0039 0.0039 $${\color{green}3\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.013 0.013 0.0044 0.0044 $${\color{green}3\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.013 0.013 0.0046 0.0046 $${\color{green}2.79\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.011 0.011 0.0039 0.0039 $${\color{green}2.94\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.021 0.021 0.014 0.014 $${\color{green}1.44\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.0425 0.0425 0.018 0.017 $${\color{green}2.42\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0435 0.0435 0.018 0.018 $${\color{green}2.37\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.021 0.021 0.014 0.014 $${\color{green}1.43\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.043 0.043 0.015 0.015 $${\color{green}2.93\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0417 0.0417 0.015 0.015 $${\color{green}2.85\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.021 0.021 0.014 0.014 $${\color{green}1.42\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.014 0.014 0.0076 0.0076 $${\color{green}1.84\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.014 0.014 0.0076 0.0076 $${\color{green}1.84\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0254 0.0251 0.0081 0.0081 $${\color{green}3.15\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.026 0.026 0.009 0.0088 $${\color{green}2.86\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.014 0.014 0.0076 0.0076 $${\color{green}1.84\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.026 0.025 0.0078 0.0078 $${\color{green}3.28\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0251 0.0251 0.0078 0.0078 $${\color{green}3.22\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.014 0.014 0.0076 0.0076 $${\color{green}1.84\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.011 0.011 0.0027 0.0027 $${\color{green}4.09\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.011 0.011 0.0027 0.0027 $${\color{green}4.09\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.013 0.013 0.0059 0.0059 $${\color{green}2.25\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.014 0.014 0.0062 0.0061 $${\color{green}2.27\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.011 0.011 0.0027 0.0027 $${\color{green}4.09\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.013 0.013 0.0042 0.0042 $${\color{green}3.18\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.013 0.013 0.0042 0.0042 $${\color{green}3.12\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.011 0.011 0.003 0.003 $${\color{green}4.09\times}$$

c8g

problem v3.9 p50 time(ms) v3.9 p10 time (ms) e7ac8d p50 time(ms) e7ac8d p10 time (ms) speedup (>1 is faster)
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb1ic64ih200iw267oc256oh200ow267kh1kw1ph0pw0
1.63 1.63 2.65 2.64 $${\color{red}0.616\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
32 31 12 12 $${\color{green}2.62\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
31.5 31.5 12.1 12.1 $${\color{green}2.61\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33 32 12.2 12.2 $${\color{green}2.74\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33 32 12.2 12.2 $${\color{green}2.73\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4"
5.49 5.49 7.57 7.57 $${\color{red}0.725\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4"
5.5 5.49 7.611 7.609 $${\color{red}0.722\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a"
1.221 1.221 2.72 2.72 $${\color{red}0.449\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a"
1.22 1.22 2.733 2.732 $${\color{red}0.447\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2"
4.94 4.93 10.58 10.58 $${\color{red}0.467\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2"
4.96 4.95 10.67 10.66 $${\color{red}0.465\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.2 41 12.1 12.1 $${\color{green}3.41\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.2 40.9 12.1 12.1 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.3 41.1 12.2 12.1 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.4 41.1 12.2 12.1 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.92 7.91 3.06 3.06 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.92 7.91 3.06 3.06 $${\color{green}2.58\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.98 7.97 3.08 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
8 8 3.08 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4"
5.01 5.01 9.866 9.864 $${\color{red}0.508\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4"
5.02 5.02 9.891 9.889 $${\color{red}0.507\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3"
5.06 5.05 9.932 9.931 $${\color{red}0.509\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3"
5.06 5.06 9.932 9.931 $${\color{red}0.51\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 24.6 13.3 13.2 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 24.6 13.3 13.2 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 24.7 13 13 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 24.7 13.3 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 6.77 3.3 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 6.77 3.3 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 6.79 3.32 3.32 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 6.8 3.32 3.32 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6"
5.094 5.091 9.908 9.906 $${\color{red}0.514\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6"
5.1 5.1 9.917 9.914 $${\color{red}0.515\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5"
5.43 5.42 9.961 9.958 $${\color{red}0.545\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5"
5.43 5.43 9.971 9.966 $${\color{red}0.545\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.4 25.4 14.8 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.42 25.41 14.8 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.48 25.47 14.9 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.48 25.47 14.9 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 10.9 3.69 3.69 $${\color{green}2.97\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 10.9 3.69 3.69 $${\color{green}2.97\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 11 3.71 3.71 $${\color{green}2.96\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 11 3.71 3.71 $${\color{green}2.96\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3"
5.1 5.09 9.908 9.905 $${\color{red}0.514\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3"
5.1 5.09 9.914 9.912 $${\color{red}0.514\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2"
5.5 5.5 10.09 10.09 $${\color{red}0.545\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2"
5.51 5.49 10.1 10.1 $${\color{red}0.545\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384
0.0073 0.0073 0.0044 0.0044 $${\color{green}1.67\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.0071 0.0071 0.0044 0.0042 $${\color{green}1.61\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.0071 0.0071 0.0044 0.0042 $${\color{green}1.61\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA8b4a --dtag=ba 384x384
0.0059 0.0059 0.0027 0.0027 $${\color{green}2.18\times}$$
reorder sdt=bf16 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=bf16 --ddt=f32 --stag=BA4b4a --dtag=ba 384x384
0.0059 0.0059 0.0027 0.0027 $${\color{green}2.18\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.0095 0.0093 0.0042 0.0042 $${\color{green}2.29\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.0095 0.0093 0.0042 0.0042 $${\color{green}2.29\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.012 0.012 0.0078 0.0078 $${\color{green}1.56\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0132 0.0132 0.0068 0.0068 $${\color{green}1.93\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0095 0.0093 0.0042 0.0042 $${\color{green}2.29\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.012 0.012 0.0044 0.0042 $${\color{green}2.72\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.012 0.012 0.0044 0.0044 $${\color{green}2.67\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0095 0.0093 0.0042 0.0042 $${\color{green}2.29\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.016 0.015 0.013 0.013 $${\color{green}1.24\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.0374 0.0374 0.013 0.013 $${\color{green}2.94\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.0381 0.0381 0.013 0.013 $${\color{green}2.84\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.016 0.015 0.013 0.013 $${\color{green}1.25\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.0383 0.0383 0.013 0.012 $${\color{green}3.02\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.0371 0.0371 0.013 0.012 $${\color{green}2.92\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.016 0.016 0.013 0.013 $${\color{green}1.25\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x15x15
0.0095 0.0095 0.0071 0.0068 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x15x15
0.0095 0.0095 0.0071 0.0068 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x15x15
0.0234 0.0234 0.0071 0.0071 $${\color{green}3.31\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x15x15
0.0242 0.0242 0.0076 0.0076 $${\color{green}3.19\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0095 0.0095 0.0071 0.0068 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.024 0.023 0.0073 0.0071 $${\color{green}3.22\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.023 0.023 0.00732422 0.00732422 $${\color{green}3.18\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0095 0.0095 0.0071 0.0068 $${\color{green}1.34\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.0093 0.0093 0.0024 0.0022 $${\color{green}3.8\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.0093 0.009 0.0024 0.0022 $${\color{green}3.8\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x15x15
0.012 0.012 0.0049 0.0049 $${\color{green}2.45\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x15x15
0.012 0.012 0.0049 0.0049 $${\color{green}2.5\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.0093 0.0093 0.002 0.002 $${\color{green}3.8\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x15x15
0.012 0.012 0.0037 0.0037 $${\color{green}3.27\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x15x15
0.012 0.012 0.0037 0.0037 $${\color{green}3.2\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.0093 0.009 0.002 0.002 $${\color{green}3.8\times}$$

Clone this wiki locally