Hei, og takk for at du tar deg tid til dette.
Du er en data engineer hos Nordvik Sparebank, en norsk regional sparebank. I dag kjører analysene deres direkte mot en Postgres read-replica. De har bedt deg bygge et lite warehouse-lag som løser én konkret forretningsoppgave ende-til-ende.
De fleste kandidater bruker to til tre timer på dette. Bruk mer hvis du vil, mindre hvis du vil. Det er ingenting som skal leveres inn: når du er ferdig, går du gjennom det du har bygget med oss. Vi er mer interessert i hvordan du tenker og valgene du tar, enn i et bestemt resultat.
Vi bruker havn, en self-hosted dataplattform bygget på DuckDB. Rene SQL transforms, Python ingest, single-file warehouse. Har du brukt dbt eller Databricks, er du produktiv på minutter.
Velg det spørsmålet som virker mest interessant for deg. Du trenger ikke gjøre mer enn én.
Nordviks compliance-team ønsker en etterprøvbar shortlist over transaksjoner som er verdt å undersøke. De er lei av å se på «alt over 50 000 NOK» og få enten ingenting eller tusenvis av rader. Bygg noe bedre, og forklar hva «mistenkelig» betyr i din modell.
CFO ønsker en månedlig oppsummering på én side hun kan lese på mobilen: totale inntekter, gebyrinntekter, aktive kunder, aktive kontoer, toppfilialer, trend mot forrige måned. Samme tall hver måned, som lar seg avstemme, med fotnoter for alt som er korrigert i ettertid.
Retail-teamet ønsker en månedlig oversikt per kunde: inflow, outflow, net flow, topp forbrukskategorier, churn-signaler. De vil bruke det til segmentering og til å prioritere kundekontakt. PII-håndtering er ditt ansvar; compliance kommer til å spørre.
Det du er komfortabel med å presentere. Som et utgangspunkt:
havn-prosjekt som bygger ende-til-ende og svarer på spørsmålet i den retningen du valgte.havn-prosjekter kommer med bronze/, silver/ og gold/-mapper under transform/. Bruk dem slik du synes er best. Vi har ingen fasit for hvilke modeller du bygger, hvordan schemas ser ut, eller hva de heter. Det er en del av det vi ønsker å se.
Tre oppsett. Velg det som passer det du vil bruke de to til tre timene på. Alle tre ser samme data, og vi evaluerer dem likt.
Ingest-scriptet er allerede skrevet for deg. De fem rå-tabellene lander
i landing.* når du kjører det, og du bruker tiden din på
modellering.
pip install havn
havn init nordvik --from https://altrocase.demant.app/bootstrap-with-ingest.tar.gz
cd nordvik
havn serve
Tomt prosjektoppsett. Du skriver Postgres-til-DuckDB-ingesten selv, og deretter modelleringen oppå.
pip install havn
havn init nordvik --from https://altrocase.demant.app/bootstrap-no-ingest.tar.gz
cd nordvik
havn serve
Hopp over havn helt. Last ned de fem rå-tabellene som Parquet og bruk det du selv foretrekker: pandas, polars, R, DuckDB CLI, BigQuery, ditt eget datavarehus. Samme data, samme evaluering. Si fra hva du brukte når vi går gjennom arbeidet sammen.
curl -O https://altrocase.demant.app/nordvik-data.tar.gz
tar -xzf nordvik-data.tar.gz
cd nordvik-data
# customers.parquet, accounts.parquet, transactions.parquet,
# fx_rates.parquet, branches.parquet
Kundemaster. ~10 000 rader
Kontoer per kunde. ~19 000 rader
Tre år med aktivitet. ~2 600 000 rader
Daglige FX-kurser til NOK. ~3 800 rader
Filialmaster. ~120 rader
2023-01-01 til 2025-12-31.