Obsah
Srovnání s konkurencí
Kým se inspirujeme, v čem jsme lepší
HgIS je software pro správu dat o životním prostředí
(EDMS – Environmental Data Management Software).
EDMS vyvíjejí různé společnosti:
Jejich EDMS jsou například:
- V ČR je využívána zejména gdBase od firmy GD Software.
- SED (Progeo Consulting)
- Automatic Sensing – pouze senzorová data
- EQuIS od firmy EarthSoft. Vhodné i pro opravdu velké organizace s náročnými požadavky.
- GW-Base od firmy ribeka – Německý produkt zaměřený na podzemní vodu.
- ESdat – Austrálie.
- EnDAR od firmy Tetra Tech integruje Power BI či Tableau.
- SiteFX od firmy EarthFX – USA. Má zdarma dostupný (public domain) datový model, který však není úplně podrobně dokumentován. Využívá MS Access jako běhové prostředí.
- EnviroData od firmy Geotech Computer Systems z USA. Využívá MS Access jako běhové prostředí.
- Oasis-montaj, Seequent Central a další od firmy Seequent (dříve GeoSoft).
- Hydro GeoAnalyst od kanadské firmy Waterloo Hydrogeologic.
- GIM Suite (acQuire)
- EDMS (GAEA)
HgIS je oproti konkurenci snadněji rozšiřitelný (zejm. automatické načítání dat z nových zdrojů) a zaměřuje se na analýzu dat a na modelování. Pokud ve vás nevzbuzuje HgIS dostatek důvěry, rádi vám poradíme s výběrem alternativy. Vždyť konkurenční produkty mohou být pro některé organizace lepší volbou. Nicméně k vývoji HgIS jsme přistoupili, až když nám existující systémy nevyhovovaly – možná tedy u HgIS skončíte i vy :-)
Podrobněji
Pro správu dat, jejich vizualizaci, vyhodnocení a tvorbu modelů je možno používat existující software. Na specifika mj. hydrogeologických dat se specializuje tzv. EDMS (Environmental data management software – software pro správu dat o životním prostředí). EDMS spravuje bázi dat o životním prostředí a provádí nad ní operace specifické pro environmentální data (import, export, validace dat, QA/QC, vizualizace: reporty, grafy, vrtné profily). Nebyl nalezen zdarma dostupný EDMS. Existují následující EDMS (v závorce je uveden původce) – mimo uvedené výše: Hydstra (Kisters), Project Portal (ddms), EPIPHINY (Summit Envirosolutions), Virtual Observatory and Ecological Informatics System (VOEIS), eRAMS (Colorado State University), ETRA GIS (VŠB – TU Ostrava), H+ (Réseau National de Sites Hydrogéologiques), GWSDAT (v Shiny) (Wayne Jones), MIKE INFO – dříve IMS – Information Management System (DHI), DataSight (Seveno), MonitorPro (EHS Data), DATALAB (Waterlabs), Geological Data Management Software (Datamine), GEMS (GEOVIA), Enterprise Integration (MineRP), Water Resources Database, EQWin (EQWin® Software Inc.), ChemPoint (Starpoint Software) a AQUARIUS (Aquatic Informatics). Některé tyto programy však vůbec nepracují s daty o geologii.
Bylo provedeno důkladné srovnání uvedených EDMS. Z nich byly vybrány systémy EQuIS od firmy EarthSoft Inc. („světová jednička“) a Enviro Data od firmy Geotech Computer Systems, Inc., které mají zdrojový kód dostupný za podmínek dohody o mlčenlivosti a jsou zaměřeny na interoperabilitu se softwarem třetích stran. Tyto systémy byly otestovány. S majiteli firem, které tyto dva produkty vyvíjejí, bylo vedeno jednání (Geotech Computer Systems, Inc. – videokonference; EarthSoft Inc. – osobní setkání v Praze). Bylo plánováno zakoupení systému EQuIS. Nákup se nepodařilo realizovat, což se ze zpětného pohledu jeví jako šťastná okolnost. Nabyté zkušenosti s uvedenými systémy byly využity pro návrh HgIS, který není nepřiměřeně zatížen autorskými právy třetích stran a zcela splňuje požadavky.
Alternativy k Pentaho
Alternativou k platformě Pentaho je například Knowage (dříve SpagoBI). Umožňuje mapové zobrazení. Co se týče ETL, není SpagoBI integrováno s PDI, ale s Talend Open Studio for Data Integration. SpagoBI používá pro tvorbu reportů mezi jinými i silný nástroj BIRT. Srovnání těchto FOSS BI reportingových nástrojů je uvedeno v diplomových pracích z VŠE (Filipčík 20131); Bednář 20132)). GeoBI se zabývá diplomová práce (Sommer 2013)3). Nástroje pro tvorbu reportů běžně neumožňují standardně zobrazování map, ale u Knowage/SpagoBI je možné zobrazování dat v mapě přímo v online prostředí v rámci vizualizace ad hoc, mj. včetně integrace služeb WMS či WFS. Další alternativou je platforma KNIME. Je open source a je zaměřená na analýzu dat a data mining. Má funkcionalitu ETL i reporting (BIRT), ale server však už není open source a je velmi drahý. Existuje samozřejmě mnoho dalších alternativ k FOSS Pentaho a Knowage/SpagoBI. Jednou z komerčních jsou například hojně užívané nástroje od firmy Microsoft.
V HgIS jsou využívány některé nástroje Pentaho. Důvodem volby je:
- dobrá integrace jednotlivých komponent,
- dostatečná funkcionalita již v komunitní (FOSS) verzi,
- ETL umožňující práci s prostorovými daty (PDI GIS Plugins, nově HOP GIS Plugins),
- uživatelská přívětivost GUI.
- Obsahuje Adaptive Execution Layer (AEL), která umožňuje spouštět transformace nejen lokálně, ale také na Spark. Dále Pentaho umožňuje využívat různé cloudové platformy jako Amazon Web Services, Google Cloud Platform či Microsoft Azure (Cloud agnostic analytic pipeline). Alternativou k AEL je Apache Beam.
Zajímavé a unikátní vlastnosti HgIS
HgIS je unikátní mimo jiné tím, že je jako jediný postaven na nástrojích, které se využívají v obchodní informatice (BI), geoinformatice (GIS) a hydrogeologii.
Vlastnost | Způsob splnění |
---|---|
Rozvoj může provádět pokročilý zaškolený uživatel (power user). | Využití nástrojů business ingelligence s grafickým uživatelským rozhraním. Viz End-user development. |
Zahrnutí všech dat při zachování jednoduchosti. Struktura i pro doposud neznámé veličiny (data agnostic). | Datový model, ve kterém jsou v podstatě všechny časové řady v jedné tabulce (observations ). Veličiny jsou definovány pomocí záznamů v tabulce constituent s, nikoliv samostatnými sloupci (normalizace). Data z karotáže jsou v tabulce point_values . |
Škálovatelnost (lokální i serverové nasazení, paralelizace transformací, big data). | Využití nástrojů business intelligence, paralelizace transformací na serveru. |
Otevřenost, snadná rozšiřitelnost, udržitelnost. | Využité nástroje. Zákazník má přístup ke zdrojovým kódům. |
Přenositelnost – využitelnost v rámci jiných IS. Nezávislost na konkrétním DBMS (database agnostic). | Pentaho je možno integrovat do jiných systémů. |
Automatizované zpracování dat včetně netriviálních operací s prostorovými daty (nejen body). | Využíváme Pentaho Data Integration (PDI GIS Plugins), PostGIS a QGIS. |
Snadná implementace systému včasného varování a automatických hlášení. | PBA a PDI umožňují např. odeslání reportu e-mailem v pravidelných intervalech či při definované události. |
Snadné propojení s nástroji pro analýzy dat a data mining | Využití Pentaho Data Integration (steps: Weka scoring, ARFF output, Tableau data extract, Execute R script). |
Snadná tvorba exportu do specializovaného modelovacího software či implementace speciální analýzy. | Využití PDI, Report Designer, PBA. |
HgIS využívá nástroje BI (Pentaho) a GIS. Souhrnně je tak možno HgIS charakterizovat jako „(geo)spatial business intelligence (GeoBI) tool for hydrogeology“. Takový systém doposud neexistoval. EnDAR integruje Power BI či Tableau pro analýzu dat. V ESdat jsou integrovány Power BI and Excel Power Query. Telerik je využit v EQuIS. Na nástrojích BI od firmy Microsoft je postaven MineRP, který však zpracovává data týkající se agend v souvislosti s těžbou nerostných surovin. Boulil et al. (2014)4) prováděli OLAP analýzu kvality povrchové vody s využitím mj. Talend a PostgreSQL. Kingdon et al. (2016)5) vytvořili datový sklad PropBase z 10 OLTP databází Britské geologické služby. Laraichi et al. (2016)6) vytvořili datový sklad (PostgreSQL) – data integrovali pomocí QGIS a ručních transformací.
Výše se vyskytuje populární pojem big data. Pro hydrogeologii je doposud větší výzvou než objem dat spíše jejich rozmanitost a špatná dostupnost. Zatímco seismologie či astrofyzika (big science) generují big data, tak např. hydrogeologie (long tail science) spíše long-tail data: jednotlivci a malé týmy během dlouhé doby sbírají pro různý účel rozmanitá data, která systematicky neukládají a nesdílí. Tato data jsou často jedinečná a je nákladné je pořídit (např. hluboké vrty, dokumentace odkryvů při zemních pracích). Jsou však opětovně využitelná, zejména pokud budou sdílena. Long tail science se týká většiny vědců, kteří nevyužívají big data (uspořádaná dostupná data). Odstavec je hydrogeologickou interpretací článku Wallis et al. (2013)7).