Wat is Canonicalization?
Het woord canoniek betekent iets dat voldoet aan een geaccepteerde norm. Canonicalisatie - of canonicalisatie in Brits Engels - is het proces waarbij iets in overeenstemming wordt gebracht met de geaccepteerde standaard. Op het gebied van computers wordt de term canonicalisatie gebruikt om te verwijzen naar het voldoen aan normen op verschillende gebieden. Het wordt vaak als het probleem beschouwd, terwijl het eigenlijk de oplossing is voor verschillende problemen. Omdat het zo'n lang woord is, wordt de canonicalisatie afgekort met de eerste en laatste letters en het aantal letters ertussen: c14n.
Canonicalization wordt in IT (informatietechnologie) in verschillende instellingen gebruikt. Het verwijst naar de e-mailafzenderadressen, naar de bestandsnaamconstructie, naar stringcodering in Unicode, naar het gebruik van XML (EXtensible Markup Language) en naar de URL (Uniform Resource Locator). In elk geval is het probleem de capaciteit voor meerdere indelingen die hetzelfde item vertegenwoordigen, waarbij canonicalisatie de manier is voor consistentie en standaardisatie.
Neem XML als voorbeeld. XML zorgt voor syntactische wijzigingen. Dit betekent dat twee niet-identieke documenten dezelfde canonieke vorm kunnen hebben en dus functioneel equivalent kunnen zijn. De Canonical XML-specificatie is ontworpen om dit aan te pakken door een methode vast te stellen waarmee de identiteit van afzonderlijke documenten kan worden vastgesteld. De methode voor het genereren van de canonieke vorm voor een bepaald XML-document wordt de XML-canonicalisatiemethode genoemd .
Voor URL-canonicalisatie is het de bedoeling om consequent met één URL naar een specifieke webpagina te verwijzen. Het eenvoudigste voorbeeld is twee versies van een startpagina, waarvan er één de drie w 's heeft en de andere niet:
http://www.wisegeek.com
versus
http://wisegeek.com
Dit is een probleem voor SEO (Search Engine Optimization) omdat het de rapporten voor verkeer verdeelt, die eigenlijk allemaal naar dezelfde plek gaan. Het resultaat is dat de site met meerdere URL's voor dezelfde pagina's slechter presteert dan het in werkelijkheid is.
Er zijn nog andere problemen naast de w 's. Deze omvatten schuine strepen en verschillen tussen URL-versies met hoofdletters en kleine letters. Matt Cutts van Google® raadt aan dit aan te pakken door een permanente (301) omleiding van alle alternatieve URL's naar de gewenste URL te gebruiken, waardoor zoekmachines kunnen beoordelen welke de canonieke URL is.