Résumé
Le modèle U-Net, introduit en 2015, s'est imposé comme l'état de l'art pour la segmentation des images médicales, avec ses variantes UNet++, nnU-Net, V-Net, etc. En 2021, les "vision transformers" se sont imposés en vision par ordinateur. Depuis lors, de nombreuses architectures basées sur des transformers ou des architectures hybrides (combinant des blocs convolutifs et des blocs de transformer) ont été proposées pour la segmentation d'images, remettant en cause la suprématie de U-Net. Les transformers pourraient-ils arriver à détrôner U-Net pour la segmentation d'images médicales ? Dans cet article, nous prenons l'une des architectures de transformers les plus populaires pour effectuer la segmentation, SegFormer, et nous la comparons à U-Net dans trois jeux de données d'images médicales publiques, englobant diverses modalités et organes : la segmentation de structures cardiaques dans des images ultrasons issues du challenge CAMUS, la segmentation de polype dans des images d'endoscopie et la segmentation d'instruments dans des images de coloscopie issues du challenge MedAI. Nous les comparons à la lumière de plusieurs critères (performances de segmentation, temps d'apprentissage), et nous montrons que SegFormer peut être un concurrent sérieux d'U-Net dans le domaine de la segmentation des images médicales.