O que é canonização?
A palavra canônico significa algo que está em conformidade com um padrão aceito. Canonicalização - ou canonização no inglês britânico - é o processo pelo qual algo é colocado em conformidade com o padrão aceito. No domínio dos computadores, o termo canonização é usado para se referir ao atendimento de padrões em várias áreas diferentes. Geralmente é considerado o problema, quando na verdade é a solução para uma variedade de problemas. Por ser uma palavra tão longa, a canonização é abreviada usando sua primeira e última letras e o número de letras entre elas: c14n.
A canonização é usada em TI (Tecnologia da Informação) em várias configurações. Refere-se a endereços de remetente de email, construção de nome de arquivo, codificação de seqüência de caracteres em Unicode, uso de XML (EXtensible Markup Language) e construção de URL (Uniform Resource Locator). Em todos os casos, o problema é a capacidade de múltiplos formatos que representam o mesmo item, com a canonização sendo o caminho para a consistência e a padronização.
Tome o XML como um exemplo. O XML permite alterações sintáticas. Isso significa que dois documentos que não são idênticos podem ter a mesma forma canônica e, portanto, serem funcionalmente equivalentes. A especificação XML canônica foi projetada para resolver isso, estabelecendo um método pelo qual a identidade de documentos separados pode ser estabelecida. O método para gerar o formulário canônico para qualquer documento XML é chamado de método de canonização XML .
Para a canonização de URL, a idéia é se referir a uma página da Web específica de forma consistente por um URL. O exemplo mais simples são duas versões de uma página inicial, uma das quais possui os três w 's e a outra não:
http://www.wisegeek.com
versus
http://wisegeek.com
Esse é um problema para o SEO (Otimização de mecanismos de pesquisa) porque divide os relatórios para o tráfego, todos indo realmente para o mesmo local. O resultado é que o site com vários URLs para as mesmas páginas parece ter um desempenho pior do que realmente é.
Existem outros problemas além dos w . Isso inclui barras e diferenças entre as versões de URL com letras maiúsculas e minúsculas. Matt Cutts, do Google®, recomenda o uso do redirecionamento permanente (301) de todos os URLs alternativos para o URL desejado, permitindo que os mecanismos de pesquisa julguem qual é o URL canônico.