Wat is datawarehouse-software?
Datawarehouse-software is de afgelopen jaren exponentieel gegroeid en zal naar verwachting tot ver in de toekomst een bovengemiddelde groei doormaken. Een datawarehouse is een repository van alle transactiegegevens van een organisatie of bedrijf. Het primaire doel van een datawarehouse is om transacties te analyseren en complexe rapporten uit te voeren.
Elk softwareproduct voor datawarehouse heeft drie primaire functies: gegevens extraheren, de databasestructuur maken en aangepaste query's maken. In de informatietechnologie-industrie staan datawarehouse-experts bekend als business intelligence-specialisten. Ze hebben meestal een achtergrond in wiskunde, statistiek of analyse van computersystemen. Extra training is vaak vereist in relationele databases, systeemarchitectuur en de basisprincipes van databaseprogrammering.
Een van de belangrijkste functies van alle datawarehouse-software is de mogelijkheid om gegevens uit verschillende bronnen correct te extraheren en te structureren. Dit wordt vaak een ETL-tool (extraheren, transformeren en laden) genoemd. Datawarehouses moeten worden gevuld met gegevens uit het transactiesysteem op een manier die de integriteit en onderlinge relaties van de gegevens in stand houdt, terwijl het personeel de gegevens kan aanpassen die worden geëxtraheerd. Dit is een essentieel onderdeel van de architectuur van het systeem.
Het is belangrijk op te merken dat de meeste softwareprogramma's voor gegevensopslag worden gebruikt om meerdere gegevenssets te maken, te ondersteunen en te onderhouden. In veel situaties zijn er enkele tabellen die over alle kubussen zijn gedupliceerd, terwijl er andere gegevenssets zijn die gescheiden en verschillend moeten blijven. Een gegevenskubus met inkoopgegevens heeft bijvoorbeeld veel gedeelde gegevenspunten met een kubus van leveranciersbetalingen. Er is echter ook een reeks specifieke informatie in elke kubus die alleen van toepassing is op die specifieke kubus.
De data-architect is verantwoordelijk voor het identificeren van de gedeelde gegevens, bevestigt dat deze correct is en staat toe dat deze informatie beschikbaar is in meerdere kubussen, zonder de integriteit van elke kubus te beïnvloeden. Bovendien is hij of zij verantwoordelijk voor het beheer van het gegevensuploadproces dat nodig is om de gegevenskubussen te vernieuwen. Dit kan een geautomatiseerd of handmatig proces zijn, afhankelijk van de complexiteit van de kubussen en hoe de gegevens worden verstrekt.
Alle softwareprogramma's voor datawarehouses worden geleverd met een reeks standaardrapporten en -query's. Deze rapporten zijn gebaseerd op gemeenschappelijke bedrijfsbehoeften en zijn doorgaans vrij algemeen van aard. Een rapport van de top tien klanten per verkoopvolume voor het lopende jaar is bijvoorbeeld een algemeen rapportverzoek en zou standaard zijn in de meeste programma's.
Veel bedrijven vinden echter dat ze aangepaste rapporten moeten maken om aan specifieke behoeften te voldoen. Het is bijvoorbeeld mogelijk dat hetzelfde verkooprapport de namen van de verkoopvertegenwoordigers moet bevatten en de gegevens in specifieke districten of gebieden moet sorteren. De mogelijkheid om snel een aangepast rapport te maken en aan te passen aan bestaande zakelijke behoeften is essentieel voor het succes van dit soort software.