Obsah
Využité nástroje
HgIS je postaven na přístupech a nástrojích, které se využívají v obchodní informatice (datové sklady, business intelligence – BI)1), geoinformatice (geografické informační systémy – GIS) a hydrogeologii. Stručně řečeno se jedná o (geo)spatial business intelligence (GeoBI) pro hydrogeologii. Kromě programu EnviroInsite je veškerý níže uvedený software open source, což znamená, že je možno jej využívat zdarma pro jakýkoliv účel a je možno jej upravovat.
Platforma Pentaho
Od té doby, kdy byla firma Pentaho koupena korporací Hitachi, vývoj platformy Pentaho stagnuje a web platformy je zmatený. Původní autor PDI (Matt Casters) vytvořil Apache Hop, fork PDI, který má konečně elegantní architekturu a je intenzivně vyvíjen. Transformace PDI je možno do něj importovat.
Platforma Pentaho je sada nástrojů pro datové sklady a business intelligence.
Obsahuje následující komponenty (download):
Pentaho Data Integration
Pentaho Data Integration (PDI, dříve znám jako Kettle)2) – download. Je to tzv. datová pumpa (ETL). Umožňuje načítat data z nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, MS Access, CSV, TXT, ESRI SHP, XML, JSON, YAML, RSS, dBase, ZIP atd.). Umožňuje data transformovat (normalizace, denormalizace, výpočty, úpravy textových řetězců atd.) a uložit do databáze či souborů (příklad formátů viz výše).
V PDI existují dva typy úloh:
- transformation (v následujícím textu „transformace“), představuje základní instrukce pro načtení, transformaci a uložení dat či jiný převod dat.
- job je nadřazená úloha, která může obsahovat více „transformací“ a další operace – např. kopírování či kontrola souborů a odeslání e-mailu při chybě v transformaci.
PDI obsahuje dílčí programy:
- Spoon (snímek obrazovky) je integrované prostředí pro vývoj, testování a monitorování „transformací“ a jobů – využívá tzv. vizuální programování (Visual programming).
- Kitchen resp. Pan jsou určeny pro spouštění jobů resp. „transformací“ z příkazové řádky (spouštění na úrovni operačního systému) a
- Carte je server pro spouštění jobů (vzdálené spouštění a paralelizace). Od verze 7.0 však je již možno spouštět vše na serveru Pentaho (PBA).3)
Z hlediska praktické práce s vývojovým prostředím PDI (Spoon) hrají hlavní roli tzv. kroky, pomocí kterých se sestavují „transformace“. Jedná se o prvky, jež mají specifické funkce. Při tvorbě „transformací“ uživatel využívá kroků, které spojuje šipkami (boxes and arrows). Ty určují směr, jakým transformace probíhá. K dispozici jsou i kroky, které umožňují použít v „transformaci“ vlastní kód Java, Python, R nebo příkaz SQL. Pokud chcete sami začít používat PDI, pomůže vám náš tahák.
Funkce GIS umožňuje doplněk PDI GIS Plugins – geometrii z bodů zadat podle screenshotů. Existuje varianta pro HOP.
PDI funguje také jako rozhraní mezi jednotlivými komponentami platformy Pentaho.
Pentaho Report Designer
Pentaho Report Designer (PRD) (download) umožňuje návrh reportů4) (snímek obrazovky), jež poté mohou být zobrazovány na aplikačním serveru PBA. Reporty v Pentahu jsou tzv. „banded reports“ (pevně vymezené oblasti). Tip: využívejte vnořené reporty (subreports). Zastaralý zdroj v angličtině: Reporting Tales: Pentaho Reporting Tips and Tricks.
Pentaho Server
Pentaho Server (PBA, dříve BI Server, snímek obrazovky, download) je klíčová komponenta platformy. Umožňuje v uživatelsky přívětivém prostředí spouštět transformace, datové analýzy, generovat reporty, vytvářet a spouštět přehledová zobrazení (dashboard) a je možné je integrovat do dalších aplikací (pomocí REST API). Jeho součástí je aplikační server Apache Tomcat. Není přímo vhodný pro správu souborů a pro předávání souborů se vstupními daty do systému, což by měl umožňovat Community File Repository. Přehledová zobrazení (dashboard) je možno vytvářet za pomoci CDE – více: Community Tools (CTools) a (neoficiální Getting Started).
Obrázek: PBA – Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.
Pentaho Metadata Editor
Pentaho Metadata Editor vytvoří abstraktní vrstvu nad datovým modelem. Zjednodušuje se tak tvorba tiskových sestav a přehledových zobrazení (dashboards) včetně lokalizace. Viz obrázek (vrstvy též: physical, logical and delivery layer):
Alternativou k Pentaho Metadata je Community Data Access (CDA), který může využívat Pentaho Metadata.
Nejuniverzálnější alternativou je Pentaho Data Services – funguje to jako virtuální tabulka (vyžaduje Pentaho Data Services JDBC driver).
Všechny tři alternativy je možné využívat jako datový zdroj mj. pro reporty.
Prostředky využívané platformou Pentaho
- programovací jazyk Java
- webový server Apache Tomcat
- JDBC – API pro přístup k relačním databázím
- JNDI [džindi] – API pro adresářovou službu („abstraktní JDBC“, která však nepodporuje všechny vlastnosti SQL)
- Jackrabbit: implementace standardu Content repository API for Java – zajišťuje uložení souborů ve složkách PBA.
- Common Warehouse Metamodel – uplatňuje se v Pentaho Metadata – specifikace
Univerzitní knihovna Technické univerzity v Liberci má sadu nejužitečnějších knih o platformě Pentaho. Je to jediná knihovna v ČR, která má knihy v tištěné formě.
Kvalitu platformy demonstruje, že je využívána v jedné z největších výzkumných organizací na světě: CERN – viz video.
PostgreSQL / PostGIS
PostgreSQL je databázový server (systém řízení báze dat). Pro administraci databáze používáme DBeaver, který navíc dokáže zobrazovat prostorová data.
PostGIS je prostorové rozšíření databáze PostgreSQL, který tedy umožňuje ukládat prostorová data (geodata, geografická data) jako jsou body, linie, polygony a rastry v různých souřadnicových systémech (prostorová databáze čili geoprostorová databáze). K PostGIS můžou snadno přistupovat GIS (např. ArcGIS, QGIS), které mohou uložená data nejen zobrazovat. PostGIS implementuje standard pro uchovávání geodat – mezinárodní standard organizace Open Geospatial Consortium5). Využívání standardů umožňuje snadněji provádět (např. pomocí dotazu SQL) prostorové úlohy6) V HgIS je využíván PostGIS v samostatném databázovém schématu bez jinak striktně definovaného datového modelu.
QGIS
QGIS je geografický informační systém umožňující pracovat s prostorovými daty včetně dat, která jsou uložena v PostGIS. Pro publikaci prostorových dat kromě samotných bodů je možné využít mapový server. Zobrazení dat z bodových objektů (např. vrty, studny) je možné přímo v GIS či ve online mapové aplikaci (snímek obrazovky). V rámci HgIS využíváme mapový server QGIS Server. Zdrojem dat pro něj může být například prostorová databáze (např. PostGIS), georeferencované rastry (např. JPG – tzv. world file), soubory s geodaty (ESRI SHP, KML, GML atd.). Výstupy z mapového serveru mohou být publikovány pomocí standardizovaných služeb, jako jsou např. WMS (obrázky), WFS (vektory), WCS (rastry). Ty mohou být zobrazeny v desktopovém GISu (QGIS) či začleněny do online mapové aplikace. Publikace dat pomocí webových služeb je jednou z forem naplnění směrnice INSPIRE.
EnviroInsite
Pro pokročilou vizualizaci hydrogeologických dat využíváme7) software EnviroInsite. Jedná se o cenově dostupný komerční program implementovaný v .NET. Export do EnviroInsite podporují EDMS EQuIS a Enviro Data. Vyvíjí jej firma EI LLC. Reálně se jedná o jednu osobu (Bruce Jacobs), která zajišťuje vývoj, podporu a částečně prodej. Software je velmi flexibilní a dokáže zobrazovat veškerá hydrogeologická data. Práce s ním je intuitivní. Jeho cílem je, aby potřebnou vizualizaci dat mohl běžně provádět sám hydrogeolog a nepotřeboval k tomu specialistu GIS. Program zobrazuje data z databáze s danou strukturou. Databáze může být implementována v programu MS Access či MS Excel. Vlastní projekt je uložen v souboru XML. Software zobrazuje dokumentaci jednotlivých vrtů, stratigrafická schémata (snímek obrazovky), geologické řezy (snímek obrazovky), 3D vizualizaci geologie, mapy, chemické interpretační grafy (Piper, Stiff, Schoeller) umístěné na mapě nebo na samostatném listu. Obdobně zobrazuje souhrnné i detailní tabulky; grafy a tabulky časových řad. Umožňuje export pro zobrazení na webu 8). Software interpoluje data ve 2D i 3D a je možno do něj načíst běžné formáty podkladových map (ESRI SHP, DXF, DWG, DGN, rastrové obrázky – world file). EnviroInsite exportuje georeferencované vektory (DXF, DWG, ESRI SHP) i rastry (world file). Výsledky je možno vyexportovat např. jako EMF a zobrazit např. v ArcGIS (video). Na domovských stránkách EI jsou screenshoty a názorné videotutoriály.
Firma vyvíjející EI byla koupena firmou vyvíjející EQuIS (EarthSoft), která dále neplánuje vyvíjet samostatný EI.9) Proto EI nahradíme pravděpodobně programem Groundhog Desktop od Britské geologické služby (dokumentace), jehož vývoj byl ukončen v roce 2022; případně QGISem s doplňkem Midvatten.10)
Bibliografický manažer Zotero
Pro systematické uložení zejména publikací (a dokumentů) je možné používat bibliografickou databázi obsahující plné texty i metadata. Je tak možno publikace uchovávat, sdílet online, spravovat a vytvářet citace. Vše je zadáváno včetně metadat, a knihovna je tak přehledná, i když s ní pracuje větší počet uživatelů. Využíváme bibliografický manažer Zotero. Zotero je využíváno na Technické univerzitě v Liberci pro vědu i výuku. Ve firemním prostředí může být vhodnější využití systémů pro správu dokumentů. Výukový materiál o Zoteru.
R a Python
Pro pokročilou analýzu dat a vizualizaci je využíván jazyk R a to včetně tvorby online aplikací (Shiny) – viz naše příklady.
Další pokročilé nástroje (zejm. GIS) jsou integrovány za pomoci jazyka Python.
Zdroje
Aktuality () a literatura o výše uvedených technologiích a nástrojích.
program-features/web-control