Kamil Nešetřil

Environmental data management and analytics

User Tools

Site Tools


Action disabled: revisions

Stručná technická dokumentace

Na samostatných stránkách tohoto webu najdete snímky obrazovky systému a využité nástroje a technologie.
Neuvádíme zde podrobnou uživatelskou dokumentaci, protože HgIS může být pro různé účely a organizace nasazen v různé formě. Podrobná technická dokumentace je dostupná jen zákazníkům.

Data jsou načítána pomocí nástroje Pentaho Data Integration (PDI – tzv. Kettle). Jeho velkou výhodou je, že pro načítání nového formátu do databáze není třeba psát progra­mo­vý kód, ale je možno si celý algoritmus „naklikat“ v grafickém vývojovém prostředí Spoon. Podobným způsobem je možno vytvořit export dat do libovolného programu pro další zpracování. Data se načítají do serverové databáze PostgreSQL (možno načítat i do jiné databáze). Vyvinuli jsme datový model (schéma či strukturu databáze), který umožňuje uložit veškerá data o vrtech (mj. geologický popis, hydro­stratigrafie, technické provedení) i pozorováních (libovolné veličiny vč. karotáže). Data v databázi je možno prohlížet pomocí jednoduché webové aplikace. Pokročilou vizualizaci (profily vrtu, geologické řezy, 3D modely; kombinace map, tabulek a grafů) provádíme v cenově dostupném programu EnviroInsite, do kterého je možno data ze systému exportovat. Reporty (tiskové sestavy), ve kterých jsou prezentována data a analýzy a modely z nich vycházející, jsou vytvářeny v uživatelsky přívětivém prostředí Pentaho Report Designer a spouštět na webu (Pentaho Server – PBA). Reporty je možno zobrazovat online a ukládat v různých formátech (pdf, Excel, Word atd.).

Zdrojová data

HgIS momentálně umožňuje načtení dat z těchto souborů do databáze (datového skladu):

  • Laboratorní informační systém (LIMS) Labsystém: sada 2 souborů DBF – vzorky a hodnoty.
  • Česká geologická služba (Geofond)
  • gdBase – načítání některých polí.
  • RockWorks
  • Stanice FIEDLER
  • Srážky a teploty ve formě textového souboru na FTP serveru Povodí Ohře s. p.
  • Kontingenční tabulka v MS Excel.
  • Data (v Excelu a v textových souborech) v různých formátech různých dodavatelů dat (hladiny, čerpání, srážky, průtoky vodních toků) a další.
  • Inklinometrie (textové soubory – strojově generované exporty od AZ Consult, spol. s r.o.).
  • Data o chemismu z Palivového kombinátu Ústí, s. p. v Excelu (ručně vytvořené dokumenty).
  • Archivní průzkumné vrty ve Wordu, pravděpodobně exportované ze systému Geobanka firmy Data-PC Sokolov.

Pokud vám zde chybí nějaký zdroj dat, dejte nám vědět.

Následné operace s daty

Následuje automatizovaná úprava dat pomocí Pentaho Data Integration: čištění, validace, sjednocení užité terminologie, doplnění implicitních hodnot parametrů, výpočty veličin, agregace atd. Do této kategorie je možno zařadit i:

  • Výpočet hydrochemického typu vody (např. Ca-Mg-HCO3).
  • Agregace dat (např. roční úhrn srážek z denních srážek, minimální měsíční průtok v roce atd.).

Uložení dat

Databáze (datový sklad) obsahuje data o objektech (vrty, studny, srážkoměrné stanice, limnigrafy atd.), a to geologický popis, stratigrafii a technické provedení objektů. Dále obsahuje pozorování veličin (např. analytů, hladin, čerpání, srážek) v hloubkových inter­valech (např. perforace vrtu či interval odběru zeminy) a bodech v hloubce (např. karotáž). Níže je nejprve uvedena základní struktura dat. Dále databáze obsahuje strukturu pro uchování popisných dat o sondách (vrty), podmínkách vzorkování podzemní vody a časových inter­valech. Dále zejména číselníky, kódovníky a pomocná data pro načítání dat do systému, pro převod jednotek a veličin a pro přejmenování. Navíc obsahuje další tabulky pro data (sestavy analýz, plán vzorkování), metadata (obecná struktura pro zaznamenání interpretací k ulože­ným datům) a lokalizaci (vícejazyčné uživatelské rozhraní), které budou moci být v budoucnosti případně využity.

Využíváme databázový systém PostgreSQL (více v sekci o využitých nástrojích a technologiích).
Struktura databáze vychází z databáze programu EnviroInsite. Datový model EnviroInsite definuje pole, která je třeba zadat pro zobrazení v EnviroInsite. Pro uložení všech dat, s nimiž HgIS pracuje, byl datový model EnviroInsite rozšířen tak, aby umožnil uložení popisných dat o objektech (vrty, studny), podmínkách vzorkování podzemní vody a časových inter­valech. Dále aby obsahoval zejména číselníky, kódovníky a pomocná data pro načítání dat do systému, pro převod jednotek a veličin a pro přejmenování. Datový model HgIS vznikl z datového modelu EnviroInsite normali­zací. Dále obsahuje umělé klíče1), z tabulky constituents je vyčleněna tabulka standards a obsahuje číselníky kvalita a well_construction_material. Navíc obsahuje další tabulky pro data (sestavy analýz, plán vzorkování), metadata (obecná struktura pro zaznamenání interpretací a dalších popisů k uloženým datům) a lokalizaci, které budou moci být v budoucnosti případně využity v HgIS.2)

Tabulka: Popis tabulek původního datového modelu EnviroInsite

Tabulka Popis
Wells Identifikace objektů (zejm. vrtů, studní) – jejich souřadnice a další údaje
Borings Popis geologických vrstev
Stratigraphy Vymezení geologických vrstev a hydrostrati­grafických jednotek pro vytvoření řezů a 3D geologických modelů
Well Construction Výstroj studny (např. plná a perforovaná pažnice)
Fill Obsyp a těsnění vrtu
Screens Vzorkovaný hloubkový interval (otevřený úsek vrtu či hloubka odběru zeminy)
Constituents Kódovník měřených veličin (např. pH, chloridy, úhrn měsíčních srážek)
Observations Jednotlivá měření vázaná ke vzorkovanému hloubkovému intervalu
(tj. např. hodnoty hladiny podzemní vody či pH)
Point Values Jednotlivá měření vázaná ke konkrétní hloubce ve vrtu (tj. např. karotáž)

Tabulka: Popis důležitých tabulek databáze HgIS (datový sklad), jež nejsou v datovém modelu EnviroInsite

Tabulka Popis
standards Hodnoty pro srovnání (sanační limit, limit pro pitnou vodu atd.)
vzorky Popisná data pro soubor měření (vzorek, jedno karotážní měření)
– např. metodika odběru či nakládání se vzorkem.
jednotky Pro převod jednotek při importu i exportu
(přičítání konstanty, násobení konstantou, násobení molární hmotností atd.).
objekty Orientační definice druhů pozorovacích objektů (např. sanační vrt, důlní déšť, lysimetr).
validace Číselník pro popis stupně validace či chyby (např. nekonzistentní v časové řadě či v geologickém řezu, přirozená anomálie).
obdobi Obecné časové úseky (etapy) pro časové grafy, Ganttovy diagramy atd.
metody Popis metod (např. standardní operační postupy; subdodávka, výpočet).
prevodcc Převod mezi jednotlivými veličinami (např. převod dusičnanového dusíku na dusičnany či hladiny pod terénem na hladinu v m n.m.).
jmena_constituents Nahrazování textových řetězců při importu – jednoznačné názvy veličin.
jmena_wells Nahrazování textových řetězců při importu – jednoznačné názvy objektů.

Pro uchování prostorových interpretací dat a komplexnějších prostorových dat (polylinie, polygony, 3D objekty atd.) je možno využít PostGIS – prostorové rozšíření námi používané databáze PostgreSQL, které se ve výše uvedeném datovém modelu přímo neuplatňuje.

Datový model (struktura databáze) byl inspirován mimo jiné mezinárodními standardy pro výměnu dat o podzemní vodě.

Tiskové sestavy (reporty)

Byly vytvořeny následující analýzy a reporty3):

  • Graf a tabulka časového průběhu libovolných veličin v libovolných objektech a základní popisná statistika (snímek obrazovky)
  • Identifikace redukčně-oxidačních podmínek a převažujících procesů ve vodách z chemického složení4) 5) (snímek obrazovky)
  • Multikriteriální analýza hodnotící trend vývoje kvality vody jezer. Při překročení neznámé meze celkového skóre by se projevily důsledky eutrofizace (vodní květ). (snímek obrazovky)
  • Profil vrtu – report profilu geologicky dokumentovaných objektů. (snímek obrazovky )

Pentaho Server

Pentaho Server (PBA) je komponenta mj. pro zobrazo­vání tiskových sestav (reportů). Reporty je možno spouštět online na základě uživatelských voleb (výběr objektu, veličiny atd.). Po přihlášení do prostředí PBA pokračujte tlačítkem Browse files, kde jsou ve složkách umístěny jednotlivé tiskové sestavy (reporty).

Mapová online aplikace

Cílem mapové aplikace je provázat mapy, tabulky a grafy do uživatelského prostředí a názorně prezentovat většinu dat HgIS (snímek obrazovky). Aplikace obsahuje interaktivní podkladovou mapu s objekty. Pro jednotlivé objekty (vrty, studny) zobrazuje grafy a tabulky libovolných veličin (nejvýše dvou zároveň). Jsou to grafy časových řad6) či karotáže7). Po kliknutí na vrt v mapě je možno vybrat veličinu a časový úsek. Průběh veličiny se zobrazí jako tabulka v levé části okna a jako časový graf v horní části okna. V grafu se zobrazují i meze (sanační limity, legislativní omezení atd.)8). Je možno nastavit různé podkladové mapy (webové služby jako WMS, WMTS apod.). V jednoduché textové formě (snímek obrazovky) je možno zobrazovat geologii, stratigrafii a technické provedení objektů (vrtů, studní).

Analýzy dat a modely

Další směr vývoje HgIS směřuje k vývoji analýz a integraci modelů. Vítáme návrhy :-) Průměrný hydraulický gradient z hladin vybraných vrtů Obrázek: Průměrný hydraulický gradient z hladin vybraných vrtů a z toho odhad rychlosti proudění a doby zdržení (doběhu) – export do sešitu MS Excel 9), kde je výpočet prováděn maticovými vzorci.

Jednoduché modely je možné spouštět v PBA, pro náročnější simulace je možno data snadno exportovat pomocí PDI do formátu pro načtení do specifického simulačního software. Výpočty je možno provádět v PDI například za pomoci kroků Formula, Analytic query či Calculator. V reportech je možno používat vzorce, jejichž syntaxe (LibFormula) je zalo­žena na standardu OpenFormula10), který využívá například LibreOffice/OpenOffice. Agregace dat je možno provádět například v PDI pomocí kroku Group By. HgIS je navržen tak, aby umožňoval vytvářet dílčí (geo)prostorové analýzy v PDI či nad databází např. pomocí prostorového rozšíření jazyka SQL.

Rozesílání zpráv na základě událostí

Pentaho Server (PBA) umožňuje automatizaci procesů např. pro informování uživatele, že daná veličina překročila stanovenou hodnotu (e-mail např. s tabulkou a grafem v příloze). E-maily s reporty (Word, Excel, pdf) v příloze mohou být rozeslány v přípa­dně události či v pravidelných inter­valech.

Externí nástroje

Export do libovolných dalších nástrojů je prováděn pomocí Pentaho Data Integration (Kettle).

1)
surrogate keys, ID
2)
Struktura databáze odpovídá do jisté míry datovému skladu ve schématu sněhové vločky (snowflake) či souhvězdí (fact constellation), kde tabulky observations a point_values hrají roli faktových tabulek a například screens a constituents roli dimenzí (observations.date_ je pak degenerovaná dimenze). Velký počet atributů (denormalizace) např. v tabulkách well či vzorky a málo číselníků odpovídá běžné struktuře datových skladů. To odpovídá koncepci HgIS, protože taková struktura je vhodná pro analýzy, resp. reporting a nikoliv pro editaci dat více uživateli s udržením konzistence všech dat, jak je tomu v případě transakčních databází (OLTP). Datový model není v konkrétní normální formě, protože mnohé údaje (např. identifikace osob, organizací, zakázek, dokumentů a některých metod) jsou běžně využívány pouze pro reporting. Je vhodné, aby označení bylo v reportech stejné jako ve zdroji, přičemž konzistence dat není důležitá. U některých sloupců tak není zajištěna ani atomicita hodnot. Názvy některých tabulek a sloupců jsou anglicky z důvodu konzistence s datovým modelem EnviroInsite a na něm založeným výměnným formátem. Názvy týkající se hydro­geologie apod. jsou v češtině z důvodu jednoznačnosti popisu. V dokumentaci jsou uvedeny alternativní anglické názvy a terminologie využívaná mezinárodními standardy. Datový model byl vytvořen tak, aby maximálně využíval přístupy, pojmy atd. existujících standardů, EDMS a výměnných formátů a umožňoval uložení všech relevantních dat.
3)
pomocí Pentaho Report Designer a Pentaho Data Integration
4)
CHAPELLE, Francis H., Paul M. BRADLEY, Mary Ann THOMAS a Peter B. MCMAHON, 2009. Distinguishing iron-reducing from sulfate-reducing conditions. Ground Water. 47(2), 300–305. ISSN 1745-6584. 10.1111/j.1745-6584.2008.00536.x
5)
JURGENS, Bryant C., Peter B. MCMAHON, Francis H. CHAPELLE a Sandra M. EBERTS, 2009. An Excel® workbook for identifying redox processes in ground water. U.S. Geological Survey Open-File Report 2009–1004
6)
tabulka observations v databázi
7)
tabulka point_values v databázi
8)
z tabulky standards v databázi. K jednotlivým objektům se zobrazí popup okno s informacemi o objektu z tabulky wells v databázi
9)
DEVLIN, J.F., 2003. A spreadsheet method of estimating best-fit hydraulic gradients using head data from multiple wells. Ground Water. 41(3) 316–320. ISSN 1745-6584. 10.1111/j.1745-6584.2003.tb02600.x
10)
OASIS, 2011. Open Document Format for Office Applications (OpenDocument) Version 1.2 Part 2: Recalculated Formula (OpenFormula) Format. OASIS Standard.
Last modified: 2023-10-27