Fabric: Microsofts nieuwste mijlpaal in moderne datawarehousing

Fabric: Microsofts nieuwste mijlpaal in moderne datawarehousing

Artikel Data & AI Technology & Platforms

Microsoft heeft Fabric in de zomer van 2023 gelanceerd. Fabric is een alles-in-één-analyseoplossing voor ondernemingen en omvat alles van gegevensverplaatsing tot data science, realtime analyse en business intelligence. In dit artikel richten we ons voornamelijk op datawarehousing (DWH). We leggen uit hoe datawarehousing in de nieuwe Fabric-oplossing werkt. Ook laten we zien wat innovatief en onderscheidend is, en wat aansluit bij eerdere DWH-oplossingen van Microsoft. We doen dit door een beschrijving te geven van de verschillende DWH-oplossingen die Microsoft in de loop van de tijd op de markt heeft gebracht.

Datawarehousing is als concept al behoorlijk oud. Sommigen voeren het ontstaan ervan terug tot de jaren zestig en zeventig van de vorige eeuw, want toen al kwamen concepten als dimensies, feiten en datawarehouses ter sprake. Anderen wijzen de jaren tachtig aan, omdat IBM toen zijn eerste ‘business data warehouse’ bouwde om beslissingen te ondersteunen. En in de jaren negentig publiceerden Inmon en Kimball hun beroemde DWH-architecturen. Wij beginnen onze reis in de periode waarin on-premises SQL-servers een standaardoplossing waren en SQL Server 2005 door Microsoft werd uitgebracht. We verkennen de ontwikkeling van alle moderne datawarehouseoplossingen vanaf die begindagen tot de huidige staat van Fabric.

Het DWH-traject van Microsoft:

  1. Microsofts on-premises SQL Server
  2. De eerste stappen richting de cloud met Azure SQL Data Warehouse
  3. Azure Synapse Analytics, een onbeperkte analyseservice
  4. Een stap voorwaarts naar Fabric, het volgende integratieniveau

1. Microsofts on-premises SQL Server

SQL Server bestond al met Data Transformation Services (DTS), een databasetool waarmee je ETL-transacties (extract-transform-load) kon automatiseren. We beginnen hier echter in de periode waarin Microsoft SQL Server 2005 werd uitgebracht. In de versie van 2005 werden nieuwe add-onservices geïntroduceerd ter vervanging van DTS. SQL Server bevatte nu SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS) en SQL Server Reporting Services (SSRS).

Het hoofddoel van SISS is het uitvoeren van ETL-transacties. Andere functies werden ook beter, zoals het controleren van de gegevensstroom met voorwaardelijke logica, het afhandelen van fouten om te bepalen hoe een SSIS-pakket moet reageren, het beheren van de logboekregistratie en het verzenden van meldingen. SSAS is een service die analytische verwerking en gegevensmodellering biedt. Met deze service kunnen organisaties multidimensionale en tabellaire gegevensmodellen met een gegevenstoegangsstructuur maken. Ze kunnen dan tools als Power BI en Excel gebruiken om de gegevens te verkennen en te analyseren. SSAS aggregeert gegevens vooraf en slaat ze in een cache op. De query’s worden daardoor sneller. Met SSRS kunnen rapporten worden opgesteld en beheerd. Deze service kreeg al snel veel concurrentie van de Power BI-tools van Microsoft.

2. De eerste stappen richting de cloud met Azure SQL Data Warehouse

Microsoft wilde een moderne, cloud-native oplossing voor datawarehousing bieden, die gebruikmaakt van de kracht van het Azure-cloudplatform. Dat streven werd in 2016 bewaarheid met Azure SQL Data Warehouse. In deze oplossing waren bekende tools zoals SQL Server, SSIS, SSAS en SSRS geïntegreerd, waardoor organisaties hun on-premises datawarehouses naadloos naar de cloud konden migreren. De overstap naar de cloud kon worden gerealiseerd door te kiezen uit een lijst met afzonderlijke services. Er was veel moeite gedaan om de services in een werkend platform te integreren. Vergeleken met de on-premises oplossing was er nu het grote voordeel van schaalbare cloudresources, met een scheiding tussen rekenkracht en opslag. Dit vormde een logische combinatie met het concept van betalen naar gebruik.

ETL en de gegevensstroom konden voorheen worden georkestreerd door on-premises SSIS. Een nieuwe mogelijkheid was om SSIS-pakketten in de cloud uit te voeren in een aparte integratie-runtime. De gegevensorkestratie kon nu worden uitgevoerd met pijplijnen in Azure Data Factory (ADF). Dat bleek achteraf een van de kernservices te zijn die nog steeds bestaat. De opvolger van de on-premises SSAS is Azure Analytics Services (AAS). De service is nuttig voor analytische verwerking en gegevensmodellering, maar wordt tegenwoordig vooral beschouwd als een kostbare en complexe extra laag in het DWH-landschap. De traditionele rapporten van SSRS werden vervangen door de dynamische rapporten van Power BI. Power BI was goed geïntegreerd, maakte selfservice-BI mogelijk en vereiste minder technische resources.

3. Azure Synapse Analytics, een onbeperkte analyseservice

In 2019 werd de naam van Azure SQL Data Warehouse gewijzigd in Azure Synapse Analytics. Synapse werd gezien als een nieuwe generatie, met grote verbeteringen qua prestaties en mogelijkheden. De service droeg de belofte in zich om zakelijke datawarehousing en big data-analyses tot één ervaring te laten versmelten. Datawarehousing en data lakes bestonden naast elkaar en de kloof moest worden gedicht.

Synapse is één enkel platform waarop ook gegevensorkestratie met ADF en gegevenspresentatie met Power BI zijn geïntegreerd. Ook ondersteunt Synapse twee runtimes voor analyses: SQL-pools en Spark-pools. SQL-pools bieden mogelijkheden voor grootschalige parallelle gegevensverwerking om query’s op petabyteschaal uit te voeren. Spark-pools worden gebruikt om analysetaken op big data uit te voeren met de Apache Spark-engine en notebookondersteuning voor Python, SQL etc. Het populaire Databricks-platform is bijvoorbeeld een commerciële implementatie van de Apache Spark-technologie, welke open source is. Hiermee kunnen ook modellen voor machine learning (ML) op het Synapse-platform worden gebouwd.

4. Een stap voorwaarts naar Fabric, het volgende integratieniveau

Integratie, integratie, integratie! Sommigen zeggen dat Fabric niet meer is dan Synapse in een nieuw jasje. Anderen zien de voordelen van een alles-in-één-analyseplatform. De kant-en-klare integratie is in Fabric veel verder ontwikkeld dan in Synapse. Dit houdt in dat er geen handmatige implementaties nodig zijn om alle vereiste services te verbinden. De configuratie van Spark-pools of SQL-pools, toegewezen of serverless, is ook verleden tijd. Fabric is SaaS. Alles is nu automatisch beheerd.

Fabric biedt twee verschillende ervaringen voor datawarehousing: het SQL-eindpunt van het Lakehouse, en het Warehouse (ook wel Synapse Data Warehouse genoemd). De twee kunnen als volgt worden uitgelegd:

  • Het SQL-eindpunt is een read-only Warehouse dat automatisch wordt gegenereerd wanneer je in Microsoft Fabric een Lakehouse maakt. Een gebruiker kan kiezen tussen de Lake-weergave en de SQL-weergave van dat Lakehouse. Delta-tabellen die door middel van Spark in een Lakehouse worden gemaakt, verschijnen in het SQL-eindpunt automatisch als tabellen. Het SQL-eindpunt biedt data engineers de mogelijkheid om een relationele laag te bouwen, bovenop de fysieke gegevens in het Lakehouse. Die laag kan door analyse- en rapportagetools worden benaderd met behulp van de SQL-verbindingsreeks. Data-analisten kunnen vervolgens T-SQL gebruiken om Lakehouse-gegevens te verwerken met de Warehouse-ervaring. Gebruik het SQL-eindpunt om een Warehouse te ontwerpen dat voorziet in BI-behoeften en het leveren van gegevens.
  • Het Synapse Data Warehouse of Warehouse is een ‘traditioneel’ datawarehouse met alle transactionele T-SQL-mogelijkheden van een enterprise datawarehouse. Daar waar in het SQL-eindpunt automatisch tabellen en gegevens worden gegenereerd, heb je hier volledige controle over het maken van tabellen en het laden, transformeren en opvragen van je gegevens in het datawarehouse via de Microsoft Fabric-portal of T-SQL-opdrachten.

OneLake is één enkel, uniform, logisch data lake voor de hele organisatie, dat als onderdeel van Fabric wordt geleverd. Gegevens van het Lakehouse en gegevens van het Warehouse worden samen in OneLake opgeslagen. Ook kunnen de resulterende datasets van het Lakehouse en het Warehouse worden gepubliceerd en bijvoorbeeld in Power BI worden gebruikt. Fabric heeft met deze ‘dataproducten’ de integratie van Power BI sterk verbeterd.

Een overzicht van de verschillende generaties en van de services van DWH-oplossingen. Er is een breder spectrum aan services mogelijk, maar we richten ons hier alleen op DWH-services.

Wat is de volgende stap?

Het kan een hele uitdaging zijn om de constante stroom aan innovaties bij te houden. De ontwikkeling van technologische functies staat niet stil, terwijl dat niet voor jouw SQL-code hoeft te gelden. Zelfs als je volop in dit vakgebied werkt, blijft het een flinke klus om volledig up-to-date te blijven.

Elke nieuwe service of functie kan voordelen met zich meebrengen die je niet wilt missen. Datawarehouses zijn in de loop van de tijd steeds minder technisch geworden, waardoor de focus naar eindgebruikers is verschoven. Data engineers spelen echter nog steeds een cruciale rol bij het opzetten van de basis. Deze verschuiving, in combinatie met de SaaS-aanpak van Fabric, zorgt voor een snellere terugverdientijd. Daarom heet het product Microsoft Fabric, in plaats van Azure Fabric. Vergelijkbaar met hoe Power BI een Microsoft-product is binnen het Power Platform en geen Azure-service.

Vanaf november 2023 is Fabric algemeen beschikbaar. Er bestaat echter wel een roadmap en er zijn niet-gepubliceerde functies die voor jouw bedrijf relevant kunnen zijn bij de beslissing om te migreren. Eraneos Data & AI biedt je het benodigde inzicht om over te stappen naar een modern datawarehouse in de cloud. We bieden begeleiding bij het introduceren en definiëren van moderne cloudarchitecturen en het realiseren en implementeren ervan. Bij Eraneos ìs het ontwerpen en implementeren van dataplatforms ons dagelijks werk. We helpen je graag bij de beslissing over de beste oplossing voor jouw organisatie.Wil je Fabric proberen en ontdekken op een toegankelijke manier? Bel ons dan!Wil je Fabric proberen zonder op de blaren te hoeven zitten? Bel ons dan!

Rob van Zoest
Rob van Zoest
Data & AI Consultant , Gezondheidszorg

20 nov 2023
Knowledge hub overzicht

Blijf up-to-date!

Ontvang onze beste inzichten geschreven door onze experts.