Ga naar de inhoud

Het datawarehouse

Ideale kandidaten voor een datawarehouse (DWH) voldoen aan drie kenmerken: Ze werken in een branche met veel concurrentie, ze hebben een grote hoeveelheid data te verwerken en ze worstelen met de integratie van verspreide data.

Wat is een datawarehouse en waar wordt het voor gebruikt?

Het datawarehouse is een plek waar gegevens worden bewaard voor archief en analyse.
In de situatie waarin grote hoeveelheden en/of diverse soorten data moeten worden geanalyseerd, is het nodig om deze data op een slimme manier te rangschikken. Daarnaast moet de data zodanig worden opgeslagen dat de benodigde analyses binnen een acceptabele tijd kunnen worden geleverd. Om deze resultaten te kunnen bereiken is een databasevorm nodig die optimaal is ingericht voor dit doel: Het datawarehouse.

De data in een datawarehouse is bedoeld voor analyse doeleinden en is altijd gebaseerd op één of meerdere bronsystemen, zoals (online) bestelsystemen, ERP-systemen en/of CRM-data. De vorm waarin de data wordt opgeslagen wordt bepaald op basis van de analytische behoeften van een organisatie. Er zijn per bronsysteem één of meerdere ETL (Extract, Transform and Load) processen ingericht welke periodiek de (bron)data integreren in het datawarehouse.

Het DWH kent een verschil met databases die zijn bedoeld voor operationele, vaak transactionele, verwerking. Dit proces wordt ook wel OLTP (Online Transaction Processing) genoemd. De data in een transactionele database is bedoeld om het productie proces (bijvoorbeeld het verwerken van bestellingen) optimaal te ondersteunen. De manier waarop records worden opgeslagen is optimaal voor dit transactionele proces.

Een datawarehouse is dus veelzijdiger dan een gewone transactionele database. De gegevensverzameling in het datawarehouse is minder onderhevig aan fouten, omdat gegevens maar één keer ingevoerd worden en daarna niet meer wijzigen. Wijzigingen worden namelijk als nieuw record opgeslagen, zodat er op termijn een historie aan data wordt opgebouwd. De gegevens in een datawarehouse zijn dus na invoer statisch. Klanten kunnen zelf hun gegevens in het datawarehouse niet wijzigen. Sterker nog:

Klantgegevens in een datawarehouse zijn over het algemeen niet direct toegankelijk voor klanten.
Afhankelijk van de schaalgrootte bestaat een datawarehouse uit een enkele computer of veel computers die samen een groot netwerk of cluster vormen. Voor de dataopslag is het verstandig om een of meerdere RAID array’s in te zetten zodat de betrouwbaarheid van de dataopslag voldoende groot is.

Datamining met een datawarehouse

Datamining is het vinden van patronen of verbanden in de data. Een datawarehouse ondersteunt dit proces. De naam mining is ontleed aan het synoniem van graven naar iets wat waardevol is. Er kan op verschillende manieren worden gezocht naar verbanden. Binnen het bedrijfsleven worden onder andere beslissingsbomen toegepast en met de Rule Induction methode kan goed worden gezocht naar “als dit, dan dat” patronen.

In het ETL-proces van de verschillende bronsystemen naar het datawarehouse gaan vaak gedetailleerde gegevens verloren. In een datawarehouse gebruikt men in de meeste gevallen de samengevatte data terwijl voor datamining het gedetailleerde niveau nodig is. Om de generieke aard van een DWH meer in specifieke (analyse) behoefte te laten voorzien kan het DWH uitgebreid worden met een datamart. We spreken dan van een subset van de data.

Business Intelligence (BI)

datawarehouseDe gegevens uit een DWH kunnen zeer waardevolle managementinformatie bevatten. Het verzamelen van de gegevens uit het DWH en die gegevens omzetten in informatie wordt ook wel Business Intelligence genoemd. Het doel van Business Intelligence is om middels informatie inzicht te krijgen en voordeel te creëren ten opzichte van de concurrent of om als bedrijf inhoudelijk slimmer te werken.

Om het proces zo goed mogelijk te ondersteunen is het belangrijk om in het acquisitie- en verkooptraject zoveel mogelijk informatie van (potentiële) klanten te verzamelen. Iets wat bij verkoop in een fysieke winkel wellicht wat lastig is, maar wat bij online verkoop vaak geen enkel probleem vormt, omdat alle gegevens voor verzending en betaling immers inherent zijn aan een online bestelling.

Wat is OLAP?

Online Analytical Processing is een techniek die gebruikt wordt om grote hoeveelheden data te verwerken met businessanalyse als belangrijkste doel. Het doel van OLAP is het exponentieel verkorten van de tijd die het kost om nuttige doorsneden in de data (query’s) te verkrijgen. Online Analytical Processing creëert samenvattingen van data op basis van vooraf beschreven aannames.

OLAP processen extraheren data uit het datawarehouse en vatten de data vervolgens samen. De vorm waarin deze data wordt weergegeven bestaat vaak uit een multidimensionale grafiek, ook wel cube genoemd. Deze cubes geven de samenvattingen van de data zodanig weer dat gebruikers relatief eenvoudig met deze gegevens aan de slag kunnen gaan.

Met een goed ingericht datawarehouse wordt aan de analytische of statistische behoeften van alle afdelingen van een bedrijf voldaan.

BI voor Dynamics NAV

Voor Dynamics NAV zijn er inmiddels een aantal datawarehouse oplossingen ontwikkeld. Een voorbeeld hiervan is Jet Enterprise. Jet Enterprise wordt geleverd met een aantal standaard cubes, die specifiek ingericht zijn voor Dynamics NAV. Daarnaast is het mogelijk om met deze tool het datawarehouse verder uit te breiden, van ETL tot OLAP cube.

Daarnaast is het mogelijk om met deze tool het datawarehouse verder uit te breiden, van ETL tot OLAP cube. Hierdoor heeft de initiële implementatie van Jet Enterprise een zeer korte doorlooptijd. Tegelijkertijd is de organisatie in staat om het datawarehouse uit te breiden met strategische en branche specifieke wensen.