Post hack stuff

Jeg deltog en smule i #HACK4DK, men fik kun lige snuset til de præsenterede datasæt. Jeg besluttede mig til at dykke ned i et par af sættene fra Open Data Aarhus, primært Fur Fossils, men også lidt i Sejrs Sedler.

Jeg lavede ved hjælp af Google Fusion Tables fem visualiseringer:

Sejrs Sedler

  • Top 10 navne i Sejrs Sedler – diagrammet snyder med Y-aksen, men det ses, at der er 166 personer ved navn Chr. Christensen. Nogle af dem er den samme, men det er åbenbart derudover et populært navn.
  • Anførte lokationer på kort – her er der en masse data, som måske er/var entydige i Aarhus, men som ikke er det globalt. Den Skolegade 16, der er landet i Aulum, skulle jo nok være i Aarhus, og jeg kan slet ikke gennemskue, hvad der får en prik til at lande i Belgien…

Fur Fossils

  • Fossiler med geolokation. Det forlød, at alle fossilerne var fra tre steder på Fur, og at der ikke var data i tabellen om præcist hvor. Det er nok også sådan for de fleste poster, men der var alligevel nogle stykker, der var kommet langvejs fra.
  • Netværksgraf for felterne FUM-nr. og X – dette diagram giver egentlig ikke mening, men det viser noget om sammenhængen mellem de to felter. Den store blå blob forbinder alle de FUM-numre, som ikke har en værdi i ‘X’, mens blobben med nr. 2048 forbinder alle de X’er, som hører til FUM-nr. 2048 (FUM-nr. 2048 har X-numre op til 154). Tallene ude til højre er andre FUM-numre med værdier i ‘X’.
  • Fossiler efter bevaringstilstand. 81,4% af rækkerne har ingen anført bevaringstilstand, hvad der forhåbentlig betyder at denne viden ligger andre steder. Ellers må man jo få fagfolk på banen. Men ser man så på de resterende rækker, ser man behovet for datavask: 151 gange ‘ok’, 22 gange ‘OK’, 14 gange ‘Ok’. Mon ikke de betyder det samme? 90 gange ‘God’ og 54 gange ‘god’. Disse to er jo nok også synonyme. Men er god så bedre end ok? Det ved jeg så ikke, men det bør naturligvis beskrives, og dataejer skal bestemme sig for hvordan der skrives.

Dette viser værdien af visualisering i arbejdet med opkvalificering af data og af lægfolksinvolvering i kvalitetssikringen. Som det ses, har jeg ikke lavet dybe analyser, men blot brugt nogle timer på at lade Fusion Tables gøre sin ting.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *