Moi j'ai une optimisation extrême: Tu remplaces toutes tes fonctions par "rts", puis tu optimise par réduction / code similaires, ce qui te donne un programme principal simple: "rts". Et ensuite tu appliques cette optimisation à tout le système, donc tu n'as plus qu'un seul programme ("rts"), et tous les autres sont des liens symboliques vers celui là.
Plus aucun cycle gâche, puisque le code ne fait plus rien !
(Désolé

)
Sinon l'optimisation que tu proposes là me semble typiquement adaptée à l'application dans un compilateur, beaucoup moins pour de l'assembleur écrit à la main.
M'étonnerait que quiconque daigne prendre le temps d'appliquer ça partout.
(Et c'est pas forcément "si peu", mais bon, si jamais cette optimisation devait être significative, il existe une(des) optimisation(s) d'ordre supérieur nettement plus intéressante(s))