Qu'est-ce que la canonicalisation?
Le mot canonique signifie quelque chose qui est conforme à une norme acceptée. La canonicalisation - ou canonisation en anglais britannique - est le processus par lequel quelque chose est mis en conformité avec la norme acceptée. Dans le domaine de l'informatique, le terme canonisation est utilisé pour désigner le respect de normes dans plusieurs domaines. On considère souvent que c'est le problème, alors que c'est en fait la solution à une variété de problèmes. Puisque c'est un mot si long, la canonisation est abrégée en utilisant ses première et dernière lettres et le nombre de lettres entre: c14n.
La canonicalisation est utilisée en informatique (technologies de l'information) dans plusieurs contextes. Il fait référence aux adresses des expéditeurs de courrier électronique, à la construction du nom de fichier, au codage de chaîne en Unicode, à l'utilisation de XML (EXtensible Markup Language) et à la construction d'une URL (Uniform Resource Locator). Dans tous les cas, le problème réside dans la capacité de plusieurs formats représentant le même élément, la canonisation étant le moyen d'assurer la cohérence et la normalisation.
Prenons XML comme exemple. XML permet des modifications syntaxiques. Cela signifie que deux documents non identiques pourraient avoir la même forme canonique et donc être fonctionnellement équivalents. La spécification XML canonique a été conçue pour résoudre ce problème en établissant une méthode permettant d’établir l’identité de documents distincts. La méthode permettant de générer la forme canonique pour un document XML donné est appelée méthode de canonisation XML .
Pour la canonisation des URL, l’idée est de faire référence à une page Web spécifique en utilisant une seule URL. L’exemple le plus simple est celui de deux versions d’une page d’accueil, l’une contenant les trois w et l’autre:
http://www.wisegeek.com
contre
http://wisegeek.com
Ceci est un problème pour le référencement (Search Engine Optimization), car il divise les rapports pour le trafic, qui vont tous au même endroit. Le résultat est que le site avec plusieurs URL pour les mêmes pages semble fonctionner moins bien qu'en réalité.
Il y a d'autres problèmes que le w 's. Celles-ci incluent les barres obliques de fin et les différences entre les versions d'URL avec des lettres majuscules et minuscules. Matt Cutts de Google® recommande de résoudre ce problème en utilisant une redirection permanente (301) de toutes les URL de remplacement vers l'URL souhaitée, permettant ainsi aux moteurs de recherche de déterminer quelle est l'URL canonique.