Kamil Nešetřil

Správa a analýza dat o životním prostředí

Uživatelské nástroje

Nástroje pro tento web


Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.


Předchozí verze
cs:documentation [27.10.2023] (aktuální) – [Stručná technická dokumentace] Kamil Nešetřil
Řádek 1: Řádek 1:
 +====== Stručná technická dokumentace ======
 +|Na samostatných stránkách tohoto webu najdete [[screenshots|snímky obrazovky systému]] a [[tools|využité nástroje a technologie]]. | 
 +|Neuvádíme zde podrobnou uživatelskou dokumentaci, protože HgIS může být pro různé účely a organizace nasazen v různé formě. Podrobná technická dokumentace je dostupná jen zákazníkům. |
 +
 +Data jsou načítána pomocí nástroje [[tools#pentaho_data_integration|Pentaho Data Integration]] (PDI – tzv. Kettle).  Jeho velkou výhodou je, že pro načítání nového formátu do databáze není třeba psát progra­mo­vý kód, ale je možno si celý algoritmus „naklikat“ v grafickém vývojovém prostředí {{ :pdi.png?linkonly |Spoon}}. Podobným způsobem je možno vytvořit export dat do libovolného programu pro další zpracování. Data se načítají do serverové databáze [[tools#PostgreSQL / PostGIS|PostgreSQL]] (možno načítat i do jiné databáze). Vyvinuli jsme datový model (schéma či strukturu databáze), který umožňuje uložit veškerá data o vrtech (mj. geologický popis, hydro­stratigrafie, technické provedení) i pozorováních (libovolné veličiny vč. karotáže). Data v databázi je možno prohlížet pomocí jednoduché {{ :mapap1.png?linkonly |webové aplikace}}. Pokročilou vizualizaci (profily vrtu, geologické řezy, 3D modely; kombinace map, tabulek a grafů) provádíme v cenově dostupném programu [[https://earthsoft.com/enviroinsite/|EnviroInsite]], do kterého je možno data ze systému exportovat. Reporty (tiskové sestavy), ve kterých jsou prezentována data a analýzy a modely z nich vycházející, jsou vytvářeny v uživatelsky přívětivém prostředí Pentaho Report Designer a spouštět na webu (Pentaho Server – PBA). Reporty je možno zobrazovat online a ukládat v různých formátech (pdf, Excel, Word atd.).
 +
 +==== Zdrojová data ====
 +HgIS momentálně umožňuje načtení dat z těchto souborů do databáze (datového skladu):
 +  * {{:xbase.png?nolink&18|}} Laboratorní informační systém (LIMS) [[http://www.labsys.cz|Labsystém]]: sada 2 souborů [[wpcs>DBase|DBF]] – vzorky a hodnoty.
 +  * Česká geologická služba (Geofond)
 +    * {{:access.svg?nolink&18|}} soubory MS Access a
 +    * {{:xml.png?nolink&18|}} soubory XML [[cgs>http://www.geology.cz/app/gdo/|Databáze geologicky dokumentovaných objektů České republiky – výdejní aplikace]]. Jedná se o výměnný formát podle mezinárodního standardu projektu eEarth.
 +  * {{:access.svg?nolink&18|}} gdBase – načítání některých polí.
 +  * {{:access.svg?nolink&18|}} [[https://www.rockware.com/product/rockworks/|{{:rockworks_logo.jpg?nolink&18|}}]] RockWorks
 +  * {{:excel.svg?nolink&18|}} ČHMÚ: [[https://www.chmi.cz/historicka-data/pocasi/denni-data/data-ze-stanic-site-RBCN|Historická data – meteorologie a klimatologie]]
 +  * {{:text.png?nolink&18|}} Stanice FIEDLER
 +  * {{:text.png?nolink&18|}} Srážky a teploty ve formě textového souboru na FTP serveru Povodí Ohře s. p.
 +  * {{:excel.svg?nolink&18|}} Kontingenční tabulka v MS Excel.
 +  * {{:excel.svg?nolink&18|}} Data (v Excelu a v textových souborech) v různých formátech různých dodavatelů dat (hladiny, čerpání, srážky, průtoky vodních toků) a další.
 +  * {{:text.png?nolink&18|}} Inklinometrie (textové soubory – strojově generované exporty od AZ Consult, spol. s r.o.).
 +  * {{:excel.svg?nolink&18|}} Data o chemismu z Palivového kombinátu Ústí, s. p. v Excelu (ručně vytvořené dokumenty).
 +  * {{:word.svg?nolink&18|}} Archivní průzkumné vrty ve Wordu, pravděpodobně exportované ze systému Geobanka firmy Data-PC Sokolov.
 +
 +
 +Pokud vám zde chybí nějaký zdroj dat, [[contact|dejte nám vědět]].
 +=== Následné operace s daty ===
 +Následuje automatizovaná úprava dat pomocí Pentaho Data Integration: čištění, validace, sjednocení užité terminologie, doplnění implicitních hodnot parametrů, výpočty veličin, agregace atd. Do této kategorie je možno zařadit i:
 +  * Výpočet hydrochemického typu vody (např. Ca-Mg-HCO3).
 +  * Agregace dat (např. roční úhrn srážek z denních srážek, minimální měsíční průtok v roce atd.).
 +
 +==== Uložení dat ====
 +Databáze (datový sklad) obsahuje data o objektech (vrty, studny, srážkoměrné stanice, limnigrafy atd.), a to geologický popis, stratigrafii a technické provedení objektů. Dále obsahuje pozorování veličin (např. analytů, hladin, čerpání, srážek) v hloubkových inter­valech (např. perforace vrtu či interval odběru zeminy) a bodech v hloubce (např. karotáž). Níže je nejprve uvedena základní struktura dat. Dále databáze obsahuje strukturu pro uchování popisných dat o sondách (vrty), podmínkách vzorkování podzemní vody a časových inter­valech. Dále zejména číselníky, kódovníky a pomocná data pro načítání dat do systému, pro převod jednotek a veličin a pro přejmenování. Navíc obsahuje další tabulky pro data (sestavy analýz, plán vzorkování), metadata (obecná struktura pro zaznamenání interpretací k ulože­ným datům) a lokalizaci (vícejazyčné uživatelské rozhraní), které budou moci být v budoucnosti případně využity.
 +
 +Využíváme databázový systém PostgreSQL ([[tools#PostgreSQL / PostGIS|více v sekci o využitých nástrojích a technologiích]]).\\ 
 +Struktura databáze vychází z databáze programu [[tools#EnviroInsite|EnviroInsite]]. Datový model EnviroInsite definuje pole, která je třeba zadat pro zobrazení v [[https://earthsoft.com/enviroinsite/|EnviroInsite]]. Pro uložení všech dat, s nimiž HgIS pracuje, byl datový model EnviroInsite rozšířen tak, aby umožnil uložení popisných dat o objektech (vrty, studny), podmínkách vzorkování podzemní vody a časových inter­valech. Dále aby obsahoval zejména číselníky, kódovníky a pomocná data pro načítání dat do systému, pro převod jednotek a veličin a pro přejmenování. Datový model HgIS vznikl z datového modelu EnviroInsite normali­zací. Dále obsahuje umělé klíče((//surrogate keys, ID//)), z tabulky ''constituents'' je vyčleněna tabulka ''standards'' a obsahuje číselníky ''kvalita'' a ''well_construction_material''. Navíc obsahuje další tabulky pro data (sestavy analýz, plán vzorkování), metadata (obecná struktura pro zaznamenání interpretací a dalších popisů k uloženým datům) a lokalizaci, které budou moci být v budoucnosti případně využity v HgIS.((Struktura databáze odpovídá do jisté míry datovému skladu ve schématu sněhové vločky (//snowflake//) či souhvězdí (//fact constellation//), kde tabulky ''observations'' a ''point_values'' hrají roli faktových tabulek a například ''screens'' a ''constituents'' roli dimenzí (''observations.date_'' je pak degenerovaná dimenze). Velký počet atributů (denormalizace) např. v tabulkách ''well'' či ''vzorky'' a málo číselníků odpovídá běžné struktuře datových skladů. To odpovídá koncepci HgIS, protože taková struktura je vhodná pro analýzy, resp. reporting a nikoliv pro editaci dat více uživateli s udržením konzistence všech dat, jak je tomu v případě transakčních databází (OLTP). Datový model není v konkrétní normální formě, protože mnohé údaje (např. identifikace osob, organizací, zakázek, dokumentů a některých metod) jsou běžně využívány pouze pro reporting. Je vhodné, aby označení bylo v reportech stejné jako ve zdroji, přičemž konzistence dat není důležitá. U některých sloupců tak není zajištěna ani atomicita hodnot.
 +Názvy některých tabulek a sloupců jsou anglicky z důvodu konzistence s datovým modelem EnviroInsite a na něm založeným výměnným formátem. Názvy týkající se hydro­geologie apod. jsou v češtině z důvodu jednoznačnosti popisu. V dokumentaci jsou uvedeny alternativní anglické názvy a terminologie využívaná mezinárodními standardy. Datový model byl vytvořen tak, aby maximálně využíval přístupy, pojmy atd. existujících standardů, EDMS a výměnných formátů a umožňoval uložení všech relevantních dat.))
 +
 +//Tabulka: Popis tabulek původního datového modelu EnviroInsite//
 +^ Tabulka                 ^ Popis                                                                                                              ^
 +| //Wells//               | Identifikace objektů (zejm. vrtů, studní) – jejich souřadnice a další údaje                                        |
 +| //Borings//             | Popis geologických vrstev                                                                                          |
 +| //Stratigraphy//        | Vymezení geologických vrstev a hydrostrati­grafických jednotek pro vytvoření řezů a 3D geologických modelů          |
 +| //Well Construction//  | Výstroj studny (např. plná a perforovaná pažnice)                                                                  |
 +| //Fill//                | Obsyp a těsnění vrtu                                                                                               |
 +| //Screens//             | Vzorkovaný hloubkový interval (otevřený úsek vrtu či hloubka odběru zeminy)                                        |
 +| //Constituents//        | Kódovník měřených veličin (např. pH, chloridy, úhrn měsíčních srážek)                                              |
 +| //Observations//        | Jednotlivá měření vázaná ke vzorkovanému hloubkovému intervalu \\ (tj. např. hodnoty hladiny podzemní vody či pH)  |
 +| //Point Values//       | Jednotlivá měření vázaná ke konkrétní hloubce ve vrtu (tj. např. karotáž)                                          |
 +
 +
 +//Tabulka: Popis důležitých tabulek databáze HgIS (datový sklad), jež nejsou v datovém modelu EnviroInsite//
 +^Tabulka ^ Popis ^
 +| ''standards'' | Hodnoty pro srovnání (sanační limit, limit pro pitnou vodu atd.)|
 +|''vzorky''| Popisná data pro soubor měření (vzorek, jedno karotážní měření) \\ – např. metodika odběru či nakládání se vzorkem.|
 +|''jednotky''| Pro převod jednotek při importu i exportu \\ (přičítání konstanty, násobení konstantou, násobení molární hmotností atd.).|
 +|''objekty''| Orientační definice druhů pozorovacích objektů (např. sanační vrt, důlní déšť, lysimetr).|
 +|''validace''| Číselník pro popis stupně validace či chyby (např. nekonzistentní v časové řadě či v geologickém řezu, přirozená anomálie).|
 +|''obdobi''| Obecné časové úseky (etapy) pro časové grafy, Ganttovy diagramy atd.|
 +|''metody''| Popis metod (např. standardní operační postupy; subdodávka, výpočet).|
 +|''prevodcc''| Převod mezi jednotlivými veličinami (např. převod dusičnanového dusíku na dusičnany či hladiny pod terénem na hladinu v m n.m.).|
 +|''jmena_constituents''| Nahrazování textových řetězců při importu – jednoznačné názvy veličin.|
 +|''jmena_wells'' |Nahrazování textových řetězců při importu – jednoznačné názvy objektů.|
 +
 +Pro uchování prostorových interpretací dat a komplexnějších prostorových dat (polylinie, polygony, 3D objekty atd.) je možno využít PostGIS – prostorové rozšíření námi používané databáze PostgreSQL, které se ve výše uvedeném datovém modelu přímo neuplatňuje.
 +
 +Datový model (struktura databáze) byl inspirován mimo jiné [[standards|mezinárodními standardy]] pro výměnu dat o podzemní vodě.
 +
 +==== Tiskové sestavy (reporty) ====
 +Byly vytvořeny následující analýzy a reporty((pomocí Pentaho Report Designer a Pentaho Data Integration)):
 +  * Graf a tabulka časového průběhu libovolných veličin v libovolných objektech a základní popisná statistika ({{ :prubeh_server.png?linkonly |snímek obrazovky}})
 +  * Identifikace redukčně-oxidačních podmínek a převažujících procesů ve vodách z chemického složení((CHAPELLE, Francis H., Paul M. BRADLEY, Mary Ann THOMAS a Peter B. MCMAHON, 2009. Distinguishing iron-reducing from sulfate-reducing conditions. //Ground Water//. **47**(2), 300–305. ISSN 1745-6584. [[doi>10.1111/j.1745-6584.2008.00536.x]])) ((JURGENS, Bryant C., Peter B. MCMAHON, Francis H. CHAPELLE a Sandra M. EBERTS, 2009. //An Excel® workbook for identifying redox processes in ground water//. [[usgs>https://pubs.usgs.gov/of/2009/1004/|U.S. Geological Survey Open-File Report 2009–1004]])) ({{ :redoxpba.png?linkonly |snímek obrazovky}})
 +  * Multikriteriální analýza hodnotící trend vývoje kvality vody jezer. Při překročení neznámé meze celkového skóre by se projevily důsledky eutrofizace (vodní květ). ({{ :mkaaq_pba.png?linkonly |snímek obrazovky}})
 +  * Profil vrtu – report profilu geologicky dokumentovaných objektů. ({{ :profil_prd.png?linkonly |snímek obrazovky }})
 +==== Pentaho Server ====
 +Pentaho Server (PBA) je komponenta mj. pro zobrazo­vání tiskových sestav (reportů). Reporty je možno spouštět online na základě uživatelských voleb (výběr objektu, veličiny atd.). Po přihlášení do prostředí PBA pokračujte tlačítkem ''Browse files'', kde jsou ve složkách umístěny jednotlivé tiskové sestavy (reporty).
 +
 +==== Mapová online aplikace ====
 +Cílem mapové aplikace je provázat mapy, tabulky a grafy do uživatelského prostředí a názorně prezentovat většinu dat HgIS ({{ :cdfmap09.png?linkonly |snímek obrazovky}}). Aplikace obsahuje interaktivní podkladovou mapu s objekty. Pro jednotlivé objekty (vrty, studny) zobrazuje grafy a tabulky libovolných veličin (nejvýše dvou zároveň). Jsou to grafy časových řad((tabulka ''observations'' v databázi)) či karotáže((tabulka ''point_values'' v databázi)). Po kliknutí na vrt v mapě je možno vybrat veličinu a časový úsek. Průběh veličiny se zobrazí jako tabulka v levé části okna a jako časový graf v horní části okna. V grafu se zobrazují i meze (sanační limity, legislativní omezení atd.)((z tabulky ''standards'' v databázi. K jednotlivým objektům se zobrazí //popup// okno s informacemi o objektu z tabulky ''wells'' v databázi)). Je možno nastavit různé podkladové mapy (webové služby jako [[wpcs>Web Map Service|WMS]], [[wp>Web Map Tile Service|WMTS]] apod.). V jednoduché textové formě ({{ :cdfmap10.png?linkonly |snímek obrazovky}}) je možno zobrazovat geologii, stratigrafii a technické provedení objektů (vrtů, studní).
 +
 +
 +==== Analýzy dat a modely ====
 +Další směr vývoje HgIS směřuje k vývoji analýz a integraci modelů. Vítáme návrhy :-)
 +{{:gradient.png?direct|Průměrný hydraulický gradient z hladin vybraných vrtů}}
 +//Obrázek: Průměrný hydraulický gradient z hladin vybraných vrtů a z toho odhad rychlosti proudění a doby zdržení (doběhu) – export do sešitu MS Excel// ((DEVLIN, J.F., 2003. A spreadsheet method of estimating best-fit hydraulic gradients using head data from multiple wells. //Ground Water//. **41**(3) 316–320. ISSN 1745-6584. [[doi>10.1111/j.1745-6584.2003.tb02600.x]])), kde je výpočet prováděn maticovými vzorci.
 +
 +Jednoduché modely je možné spouštět v PBA, pro náročnější simulace je možno data snadno exportovat pomocí PDI do formátu pro načtení do specifického simulačního software. Výpočty je možno provádět v PDI například za pomoci kroků ''Formula'', ''Analytic query'' či ''Calculator''. V reportech je možno používat vzorce, jejichž syntaxe (LibFormula) je zalo­žena na standardu OpenFormula((OASIS, 2011. //Open Document Format for Office Applications (OpenDocument) Version 1.2// Part 2: [[doc>https://docs.oasis-open.org/office/v1.2/os/OpenDocument-v1.2-os-part2.html|Recalculated Formula (OpenFormula) Format]]. OASIS Standard.)), který využívá například LibreOffice/OpenOffice. Agregace dat je možno provádět například v PDI pomocí kroku ''Group By''. HgIS je navržen tak, aby umožňoval vytvářet dílčí (geo)prostorové analýzy v PDI či nad databází např. pomocí prostorového rozšíření jazyka SQL.
 +=== Rozesílání zpráv na základě událostí ===
 +Pentaho Server (PBA) umožňuje automatizaci procesů např. pro informování uživatele, že daná veličina překročila stanovenou hodnotu (e-mail např. s tabulkou a grafem v příloze). E-maily s reporty (Word, Excel, pdf) v příloze mohou být rozeslány v přípa­dně události či v pravidelných inter­valech.
 +
 +==== Externí nástroje ======
 +Export do libovolných dalších nástrojů je prováděn pomocí [[cheatsheet|Pentaho Data Integration (Kettle)]].
 +