Kamil Nešetřil

Environmental data management and analytics

User Tools

Site Tools


Action disabled: revisions

Využité nástroje

Platforma Pentaho (BI)   Pentaho Data Integration (Kettle)   Databáze PostgreSQL Správce databáze DBeaver + příp. Programovací jazyk R  Geografický informační systém QGIS Nextcloud (alternativa k Dropbox, Google Drive či OneDrive)

HgIS je postaven na přístupech a nástrojích, které se využívají v obchodní informatice (datové sklady, business intelligenceBI)1), geoinformatice (geografické informační systémy – GIS) a hydro­geologii. Stručně řečeno se jedná o (geo)spatial business intelligence (GeoBI) pro hydro­geologii. Kromě programu EnviroInsite je veškerý níže uvedený software open source, což znamená, že je možno jej využívat zdarma pro jakýkoliv účel a je možno jej upravovat.

Platforma Pentaho

Platforma Pentaho

Od té doby, kdy byla firma Pentaho koupena korporací Hitachi, vývoj platformy Pentaho stagnuje a web platformy je zmatený. Původní autor PDI (Matt Casters) vytvořil Apache Hop, fork PDI, který má konečně elegantní architekturu a je intenzivně vyvíjen. Transformace PDI je možno do něj importovat.

Platforma Pentaho je sada nástrojů pro datové sklady a business intelligence.

Komponenty a typické využití Platformy Pentaho

Obsahuje následující komponenty (download):

Tahák PDI

Pentaho Data Integration

Pentaho Data Integration (PDI, dříve znám jako Kettle)2)download. Je to tzv. datová pumpa (ETL). Umožňuje načítat data z nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, MS Access, CSV, TXT, ESRI SHP, XML, JSON, YAML, RSS, dBase, ZIP atd.). Umožňuje data transformovat (normalizace, denormalizace, výpočty, úpravy textových řetězců atd.) a uložit do databáze či souborů (příklad formátů viz výše).

V PDI existují dva typy úloh:

  1. transformation (v následujícím textu „transformace“), představuje základní instrukce pro načtení, transformaci a uložení dat či jiný převod dat.
  2. job je nadřazená úloha, která může obsahovat více „transformací“ a další operace – např. kopírování či kontrola souborů a odeslání e-mailu při chybě v transformaci.

PDI obsahuje dílčí programy:

  • Spoon (snímek obrazovky) je integrované prostředí pro vývoj, testování a monitorování „transformací“ a jobů – využívá tzv. vizuální programování (Visual programming).
  • Kitchen resp. Pan jsou určeny pro spouštění jobů resp. „transformací“ z příkazové řádky (spouštění na úrovni operačního systému) a
  • Carte je server pro spouštění jobů (vzdálené spouštění a paralelizace). Od verze 7.0 však je již možno spouštět vše na serveru Pentaho (PBA).3)

Z hlediska praktické práce s vývojovým prostředím PDI (Spoon) hrají hlavní roli tzv. kroky, pomocí kterých se sestavují „transformace“. Jedná se o prvky, jež mají specifické funkce. Při tvorbě „transformací“ uživatel využívá kroků, které spojuje šipkami (boxes and arrows). Ty určují směr, jakým transformace probíhá. K dispozici jsou i kroky, které umožňují použít v „transformaci“ vlastní kód Java, Python, R nebo příkaz SQL. Pokud chcete sami začít používat PDI, pomůže vám náš tahák.

Funkce GIS umožňuje doplněk PDI GIS Plugins – geometrii z bodů zadat podle screenshotů. Existuje varianta pro HOP.

PDI funguje také jako rozhraní mezi jednotlivými komponentami platformy Pentaho.

Pentaho Report Designer

Pentaho Report Designer (PRD) (download) umožňuje návrh reportů4) (snímek obrazovky), jež poté mohou být zobrazovány na aplikačním serveru PBA. Reporty v Pentahu jsou tzv. „banded reports“ (pevně vymezené oblasti). Tip: využívejte vnořené reporty (subreports). Zastaralý zdroj v angličtině: Reporting Tales: Pentaho Reporting Tips and Tricks.

Vývoj Pentaho Reporting stagnuje, takže je má smysl využít alternativy jako je Metabase, s kterou může každý uživatel snadno zobrazovat a analyzovat data. FOSS alternativy v Pythonu, které nejsou tolik nízkoprahové (uživatel píše SQL) jsou Superset, případně i Redash.

Pentaho Server

Pentaho Server (PBA, dříve BI Server, snímek obrazovky, download) je klíčová komponenta platformy. Umožňuje v uživatel­sky přívětivém prostředí spouštět transformace, datové analýzy, generovat reporty, vytvářet a spouštět přehledová zobrazení (dashboard) a je možné je integrovat do dalších aplikací (pomocí REST API). Jeho součástí je aplikační server Apache Tomcat. Není přímo vhodný pro správu souborů a pro předávání souborů se vstupními daty do systému, což by měl umožňovat Community File Repository. Přehledová zobrazení (dashboard) je možno vytvářet za pomoci CDE – více: Community Tools (CTools) a (neoficiální Getting Started). Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.
Obrázek: PBA – Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.

Pentaho Metadata Editor

Pentaho Metadata Editor vytvoří abstraktní vrstvu nad datovým modelem. Zjednodušuje se tak tvorba tiskových sestav a přehledových zobrazení (dashboards) včetně lokalizace. Viz obrázek (vrstvy též: physical, logical and delivery layer):

Alternativou k Pentaho Metadata je Community Data Access (CDA), který může využívat Pentaho Metadata.

Nejuniverzálnější alternativou je Pentaho Data Services – funguje to jako virtuální tabulka (vyžaduje Pentaho Data Services JDBC driver).

Všechny tři alternativy je možné využívat jako datový zdroj mj. pro reporty.

Prostředky využívané platformou Pentaho

Univerzitní knihovna Technické univerzity v Liberci má sadu nejužitečnějších knih o platformě Pentaho. Je to jediná knihovna v ČR, která má knihy v tištěné formě.

Kvalitu platformy demonstruje, že je využívána v jedné z největších výzkumných organizací na světě: CERN – viz video.

PostgreSQL (homepage)

PostgreSQL / PostGIS

PostgreSQL je databázový server (systém řízení báze dat). Pro administraci databáze používáme DBeaver, který navíc dokáže zobrazovat prostorová data.

PostGIS (homepage) PostGIS je prostorové rozšíření databáze PostgreSQL, který tedy umožňuje ukládat prostorová data (geodata, geografická data) jako jsou body, linie, polygony a rastry v různých souřadnicových systémech (prostorová databáze čili geoprostorová databáze). K PostGIS můžou snadno přistupovat GIS (např. ArcGIS, QGIS), které mohou uložená data nejen zobrazovat. PostGIS implementuje standard pro uchovávání geodat – mezinárodní standard organizace Open Geospatial Consortium5). Využívání standardů umožňuje snadněji provádět (např. pomocí dotazu SQL) prostorové úlohy6) V HgIS je využíván PostGIS v samostatném databázovém schématu bez jinak striktně definovaného datového modelu.

QGIS

QGIS

QGIS je geografický informační systém umožňující pracovat s prostorovými daty včetně dat, která jsou uložena v PostGIS. Pro publikaci prostorových dat kromě samotných bodů je možné využít mapový server. Zobrazení dat z bodových objektů (např. vrty, studny) je možné přímo v GIS či ve online mapové aplikaci (snímek obrazovky). V rámci HgIS využí­váme mapový server QGIS Server. Zdrojem dat pro něj může být například prostorová databáze (např. PostGIS), georeferencované rastry (např. JPG – tzv. world file), soubory s geodaty (ESRI SHP, KML, GML atd.). Výstupy z mapového serveru mohou být publiko­vány pomocí standardizovaných služeb, jako jsou např. WMS (obrázky), WFS (vektory), WCS (rastry). Ty mohou být zobrazeny v desktopovém GISu (QGIS) či začleněny do online mapové aplikace. Publikace dat pomocí webových služeb je jednou z forem naplnění směrnice INSPIRE.

EnviroInsite – homepage

EnviroInsite

Pro pokročilou vizualizaci hydro­geologických dat využíváme7) software EnviroInsite. Jedná se o cenově dostupný komerční program implementovaný v .NET. Export do EnviroInsite podporují EDMS EQuIS, Enviro Data a EPIPHINY. Vyvíjí jej firma EI LLC. Reálně se jedná o jednu osobu (Bruce Jacobs), která zajišťuje vývoj, podporu a částečně prodej. Software je velmi flexibilní a dokáže zobrazovat veškerá hydro­geologická data. Práce s ním je intuitivní. Jeho cílem je, aby potřebnou vizualizaci dat mohl běžně provádět sám hydro­geolog a nepotřeboval k tomu specialistu GIS. Program zobrazuje data z databáze s danou strukturou. Databáze může být implementována v programu MS Access či MS Excel. Vlastní projekt je uložen v souboru XML. Software zobrazuje dokumentaci jednotlivých vrtů, stratigrafická schémata (snímek obrazovky), geologické řezy (snímek obrazovky), 3D vizualizaci geologie, mapy, chemické interpretační grafy (Piper, Stiff, Schoeller) umístěné na mapě nebo na samostatném listu. Obdobně zobrazuje souhrnné i detailní tabulky; grafy a tabulky časových řad. Umožňuje export pro zobrazení na webu 8). Software interpoluje data ve 2D i 3D a je možno do něj načíst běžné formáty podkladových map (ESRI SHP, DXF, DWG, DGN, rastrové obrázky – world file). EnviroInsite exportuje georeferencované vektory (DXF, DWG, ESRI SHP) i rastry (world file). Výsledky je možno vyexportovat např. jako EMF a zobrazit např. v ArcGIS (video). Na domovských stránkách EI jsou screenshoty a názorné videotutoriály.

FIXME Firma vyvíjející EI byla koupena firmou vyvíjející EQuIS (EarthSoft), která dále neplánuje vyvíjet samostatný EI.9) Proto EI nahradíme pravdě­podobně programem Groundhog Desktop od Britské geologické služby (dokumentace), jehož vývoj byl ukončen v roce 2022; případně QGISem s doplňkem Midvatten Midvatten.10)

Zotero

Bibliografický manažer Zotero

Pro systematické uložení zejména publikací (a doku­mentů) je možné používat bibliografickou databázi obsahující plné texty i metadata. Je tak možno publikace uchovávat, sdílet online, spravovat a vytvářet citace. Vše je zadáváno včetně metadat, a knihovna je tak přehledná, i když s ní pracuje větší počet uživatelů. Využíváme bibliografický manažer Zotero. Zotero je využíváno na Technické univerzitě v Liberci pro vědu i výuku. Ve firemním prostředí může být vhodnější využití systémů pro správu dokumentů. Výukový materiál o Zoteru.

R a Python

Pro pokročilou analýzu dat a vizualizaci je využíván jazyk R a to včetně tvorby online aplikací (Shiny) – viz naše příklady. Další pokročilé nástroje (zejm. GIS) jsou integrovány za pomoci jazyka Python.

Zdroje

Aktuality () a literatura o výše uvedených technologiích a nástrojích.

1)
Business intelligence (BI) je soubor dovedností, znalostí, technologií, aplikací a postupů používaných v podnikání pro získání lepšího pochopení fungování obchodní společnosti pro potřeby manažerského rozhodování. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci firemních dat. Dalšími definicemi je: „Znalosti o podniku získané za pomoci rozličných hardwarových a softwarových technologií, které umožňují organizaci přeměnit data na informace.“ (NOVOTNÝ, Ota, Jan POUR a David SLÁNSKÝ, 2005. Business intelligence: jak využít bohatství ve vašich datech. Praha: Grada. Management v informační společnosti. ISBN 80-247-1094-3, s. 18). Běžné funkce aplikací BI zahrnují ETL, uložení všech dat v datovém skladu (data warehouse), OLAP (OnLine Analytical Processing), reporting, přehledové zobrazení (dashboard), analýzy a dolování dat (data mining) či automatizovaná hlášení (alerty). Významnou roli hraje zpracování semistrukturovaných dat. S geodaty pracuje geospatial BI čili GeoBI (obdobné pojmy jsou location intelligence a spatial intelligence).
2)
Akronym znamená: Kettle Extraction, Transformation, Transportation and Loading Environment. Název Kettle (anglicky konvice, kotel) byl zdrojem inspirace pro názvy komponent PDI: Spoon (lžíce), Pan (pánev), Kitchen (kuchyně) a Carte (jídelní lístek).
3)
In Pentaho 7.0 we merged the servers (no more that nonsense of having a distinct "BA Server" and a "DI Server") and introduced the unified Pentaho Server with a new and great looking experience to connect to it.
4)
Reportingem rozumíme tiskové sestavy, analytické tabulky, grafy a přehledy realizované na základě dotazů do databází (Pour et al. 2012). Tyto sestavy je možno zobrazovat ve webovém prohlížeči i stahovat v různých formátech (PDF, RTF, MS Excel). Reportingové vykreslovací jádro je součástí PDI i PBA. Proto je možno zobrazovat reporty online na základě uživatel­ských voleb (výběr objektu, veličiny atd.) na serveru PBA a reporty v definovaných formátech je možno generovat a distribuovat pomocí PDI.
5)
ISO 19125-2:2004 Geographic information – Simple feature access. Z něj vychází norma definující jazyk SQL (ISO/IEC 9075), která je doplněna normou ISO/IEC 13249 SQL Multimedia and Application Packages, jejíž třetí část obsahuje specifikace práce s prostorovými daty ISO/IEC 13249-3 (2011)
6)
Například nalezení vrtů v obci ve vzdálenosti 50 m od vodního toku, kde vstupem jsou souřadnice vrtů a prostorový rozsah vodního toku a obcí.
7)
Alternativou je například HydroGeoAnalyst či RockWorks, který je dražší a má výhody (více funkcí, podpora puklin, zlomů) i nevýhody (méně intuitivní uživatelské prostředí). EnviroInsite může být snáze použit na uživatel­ských stanicích, kde může sloužit pro zcela flexibilní zobrazování hydro­geologických dat koncovým uživatelem. RockWorks má na druhou stranu funkce, jež by mohly být využity specialistou např. komplexnější geologické modelování.
8)
S využitím JavaScriptu – jQuery. Starý web: program-features/web-control
9)
"EarthSoft will release new versions of the desktop EnviroInsite in EQuIS Professional, but does not currently plan to release new versions of non-EQuIS versions of EnviroInsite."
10)
Alternativa FREEWAT (informace v češtině) je opuštěný projekt, který vyžaduje staré verze programů (QGIS 2 a Python 2).
Last modified: 2024-03-21