Kamil Nešetřil

Správa a analýza dat o životním prostředí

Uživatelské nástroje

Nástroje pro tento web


Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
cs:tools [01.06.2023] Kamil Nešetřilcs:tools [21.03.2024] – [Pentaho Server] Kamil Nešetřil
Řádek 1: Řádek 1:
 ====== Využité nástroje ======= ====== Využité nástroje =======
-|[[https://help.hitachivantara.com/Documentation/Pentaho|{{:pentaho-logo.svg?nolink&150|Platforma Pentaho (BI)}}]]   [[cs:cheatsheet|{{:spoon.png?nolink|Pentaho Data Integration (Kettle)}}]]   [[https://www.postgresql.org|{{:logo_postgres.svg?nolink&36|Databáze PostgreSQL}}]] [[https://dbeaver.io|{{:logo_dbeaver.svg?nolink&40|Správce databáze DBeaver}}]] + příp. [[https://www.r-project.org|{{:r_logo.svg?nolink&45|Programovací jazyk R}}]]  [[https://www.qgis.org|{{:qgis-icon32.svg?nolink&36|Geografický informační systém QGIS}}]] [[https://nextcloud.com/|{{:nextcloud.svg?nolink&60|Nextcloud (alternativa k Dropbox, Google Drive či OneDrive)}}]]|+|[[https://docs.hitachivantara.com/p/pentaho-dia|{{:pentaho-logo.svg?nolink&150|Platforma Pentaho (BI)}}]]   [[cs:cheatsheet|{{:spoon.png?nolink|Pentaho Data Integration (Kettle)}}]]   [[https://www.postgresql.org|{{:logo_postgres.svg?nolink&36|Databáze PostgreSQL}}]] [[https://dbeaver.io|{{:logo_dbeaver.svg?nolink&40|Správce databáze DBeaver}}]] + příp. [[https://www.r-project.org|{{:r_logo.svg?nolink&45|Programovací jazyk R}}]]  [[https://www.qgis.org|{{:qgis-icon32.svg?nolink&36|Geografický informační systém QGIS}}]] [[https://nextcloud.com/|{{:nextcloud.svg?nolink&60|Nextcloud (alternativa k Dropbox, Google Drive či OneDrive)}}]]|
  
 HgIS je postaven na přístupech a nástrojích, které se využívají v obchodní informatice (datové sklady, //business intelligence// – **<nowiki>BI</nowiki>**)((//Business intelligence// (<nowiki>BI</nowiki>) je soubor dovedností, znalostí, technologií, aplikací a postupů používaných v podnikání pro získání lepšího pochopení fungování obchodní společnosti pro potřeby manažerského rozhodování. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci firemních dat. Dalšími definicemi je: „Znalosti o podniku získané za pomoci rozličných hardwarových a softwarových technologií, které umožňují organizaci přeměnit data na informace.“ (NOVOTNÝ, Ota, Jan POUR a David SLÁNSKÝ, 2005. //Business intelligence: jak využít bohatství ve vašich datech.// Praha: Grada. Management v informační společnosti. ISBN 80-247-1094-3, s. 18). Běžné funkce aplikací <nowiki>BI</nowiki> zahrnují ETL, uložení všech dat v datovém skladu (//data warehouse//), <nowiki>OLAP</nowiki> (//OnLine Analytical Processing//), reporting, přehledové zobrazení (//dashboard//), analýzy a dolování dat (//data mining//) či automatizovaná hlášení (alerty). Významnou roli hraje zpracování semistrukturovaných dat. S geodaty pracuje //geospatial BI// čili //<nowiki>GeoBI</nowiki>// (obdobné pojmy jsou //location intelligence// a //spatial intelligence//).)), geoinformatice (geografické informační systémy – **<nowiki>GIS</nowiki>**) a hydro­geologii. Stručně řečeno se jedná o //(geo)spatial business intelligence (<nowiki>GeoBI</nowiki>)// pro hydro­geologii.  HgIS je postaven na přístupech a nástrojích, které se využívají v obchodní informatice (datové sklady, //business intelligence// – **<nowiki>BI</nowiki>**)((//Business intelligence// (<nowiki>BI</nowiki>) je soubor dovedností, znalostí, technologií, aplikací a postupů používaných v podnikání pro získání lepšího pochopení fungování obchodní společnosti pro potřeby manažerského rozhodování. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci firemních dat. Dalšími definicemi je: „Znalosti o podniku získané za pomoci rozličných hardwarových a softwarových technologií, které umožňují organizaci přeměnit data na informace.“ (NOVOTNÝ, Ota, Jan POUR a David SLÁNSKÝ, 2005. //Business intelligence: jak využít bohatství ve vašich datech.// Praha: Grada. Management v informační společnosti. ISBN 80-247-1094-3, s. 18). Běžné funkce aplikací <nowiki>BI</nowiki> zahrnují ETL, uložení všech dat v datovém skladu (//data warehouse//), <nowiki>OLAP</nowiki> (//OnLine Analytical Processing//), reporting, přehledové zobrazení (//dashboard//), analýzy a dolování dat (//data mining//) či automatizovaná hlášení (alerty). Významnou roli hraje zpracování semistrukturovaných dat. S geodaty pracuje //geospatial BI// čili //<nowiki>GeoBI</nowiki>// (obdobné pojmy jsou //location intelligence// a //spatial intelligence//).)), geoinformatice (geografické informační systémy – **<nowiki>GIS</nowiki>**) a hydro­geologii. Stručně řečeno se jedná o //(geo)spatial business intelligence (<nowiki>GeoBI</nowiki>)// pro hydro­geologii. 
 **Kromě programu EnviroInsite je veškerý níže uvedený software //open source//, což znamená, že je možno jej využívat zdarma pro jakýkoliv účel a je možno jej upravovat.** **Kromě programu EnviroInsite je veškerý níže uvedený software //open source//, což znamená, že je možno jej využívat zdarma pro jakýkoliv účel a je možno jej upravovat.**
  
-[[https://help.hitachivantara.com/Documentation/Pentaho|{{  :pentaho-logo.svg?nolink&150|Platforma Pentaho}}]]+[[https://docs.hitachivantara.com/p/pentaho-dia|{{  :pentaho-logo.svg?nolink&150|Platforma Pentaho}}]]
 ===== Platforma Pentaho ===== ===== Platforma Pentaho =====
-> Od té doby, kdy byla firma Pentaho koupena korporací Hitachi, vývoj platformy Pentaho stagnuje a web platformy je zmatený. Původní autor PDI (Matt Casters) vytvořil [[https://hop.apache.org/|Apache Hop]], fork PDI, který má konečně elegantní architekturu a je intenzivně vyvíjen. Transformace PDI je možno do něj importovat.+> Od té doby, kdy byla firma Pentaho koupena korporací Hitachi, vývoj platformy Pentaho stagnuje a web platformy je zmatený. Původní autor PDI (Matt Casters) vytvořil [[hop>https://hop.apache.org/|Apache Hop]], fork PDI, který má konečně elegantní architekturu a je intenzivně vyvíjen. Transformace PDI je možno do něj importovat.
  
-[[pentaho>https://help.hitachivantara.com/Documentation/Pentaho|Platforma Pentaho]] je sada nástrojů pro datové sklady a //business intelligence//.\\ +[[pentaho>https://docs.hitachivantara.com/p/pentaho-dia|Platforma Pentaho]] je sada nástrojů pro datové sklady a //business intelligence//.\\ 
  
 {{:pba-architecture.jpg?nolink|Komponenty a typické využití Platformy Pentaho}} {{:pba-architecture.jpg?nolink|Komponenty a typické využití Platformy Pentaho}}
  
-Obsahuje následující komponenty ([[download>https://www.hitachivantara.com/en-us/products/dataops-software/data-integration-analytics/pentaho-community-edition.html|download]]):+Obsahuje následující komponenty ([[download>https://www.hitachivantara.com/pentaho/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html|download]]):
  
 [[cheatsheet|{{ :spoon.png?nolink|Tahák PDI}}]] [[cheatsheet|{{ :spoon.png?nolink|Tahák PDI}}]]
  
 ==== Pentaho Data Integration ==== ==== Pentaho Data Integration ====
-Pentaho Data Integration (<nowiki>PDI</nowiki>, dříve znám jako Kettle)((Akronym znamená: //Kettle Extraction, Transformation, Transportation and Loading Environment//. Název //Kettle// (anglicky konvice, kotel) byl zdrojem inspirace pro názvy komponent PDI: //Spoon// (lžíce), //Pan// (pánev), //Kitchen// (kuchyně) a //Carte// (jídelní lístek).)) – [[download>https://www.hitachivantara.com/en-us/products/dataops-software/data-integration-analytics/pentaho-community-edition.html|download]]. Je to tzv. datová pumpa (ETL). Umožňuje načítat data z nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, MS Access, [[wpcs>CSV]], TXT, [[wpcs>Shapefile|ESRI SHP]], [[wpcs>XML]], [[wpcs>JSON]], [[wpcs>YAML]], [[wpcs>RSS]], [[wpcs>DBase|dBase]], ZIP atd.). Umožňuje data transformovat (normalizace, denormalizace, výpočty, úpravy textových řetězců atd.) a uložit do databáze či souborů (příklad formátů viz výše).+Pentaho Data Integration (<nowiki>PDI</nowiki>, dříve znám jako Kettle)((Akronym znamená: //Kettle Extraction, Transformation, Transportation and Loading Environment//. Název //Kettle// (anglicky konvice, kotel) byl zdrojem inspirace pro názvy komponent PDI: //Spoon// (lžíce), //Pan// (pánev), //Kitchen// (kuchyně) a //Carte// (jídelní lístek).)) – [[download>https://www.hitachivantara.com/pentaho/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html|download]]. Je to tzv. datová pumpa (ETL). Umožňuje načítat data z nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, MS Access, [[wpcs>CSV]], TXT, [[wpcs>Shapefile|ESRI SHP]], [[wpcs>XML]], [[wpcs>JSON]], [[wpcs>YAML]], [[wpcs>RSS]], [[wpcs>DBase|dBase]], ZIP atd.). Umožňuje data transformovat (normalizace, denormalizace, výpočty, úpravy textových řetězců atd.) a uložit do databáze či souborů (příklad formátů viz výše).
  
 V PDI existují dva typy úloh: V PDI existují dva typy úloh:
Řádek 35: Řádek 35:
 PDI funguje také jako rozhraní mezi jednotlivými komponentami platformy Pentaho. PDI funguje také jako rozhraní mezi jednotlivými komponentami platformy Pentaho.
 ==== Pentaho Report Designer ==== ==== Pentaho Report Designer ====
-Pentaho Report Designer (<nowiki>PRD</nowiki>) umožňuje návrh reportů((Reportingem rozumíme tiskové sestavy, analytické tabulky, grafy a přehledy realizované na základě dotazů do databází (Pour et al. 2012). Tyto sestavy je možno zobrazovat ve webovém prohlížeči i stahovat v různých formátech (PDF, RTF, MS Excel). Reportingové vykreslovací jádro je součástí PDI i PBA. Proto je možno zobrazovat reporty online na základě uživatel­ských voleb (výběr objektu, veličiny atd.) na serveru PBA a reporty v definovaných formátech je možno generovat a distribuovat pomocí PDI.)) ({{:profil_prd.png?linkonly|snímek obrazovky}}), jež poté mohou být zobrazovány na aplikačním serveru PBA. Reporty v Pentahu jsou tzv. „banded reports“ (pevně vymezené oblasti). Tip: využívejte vnořené reporty (//subreports//). Zastaralý zdroj v angličtině: [[pentaho>https://www.on-reporting.com|Reporting Tales: Pentaho Reporting Tips and Tricks]].\\+Pentaho Report Designer (<nowiki>PRD</nowiki>) ([[download>https://www.hitachivantara.com/pentaho/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html|download]]) umožňuje návrh reportů((Reportingem rozumíme tiskové sestavy, analytické tabulky, grafy a přehledy realizované na základě dotazů do databází (Pour et al. 2012). Tyto sestavy je možno zobrazovat ve webovém prohlížeči i stahovat v různých formátech (PDF, RTF, MS Excel). Reportingové vykreslovací jádro je součástí PDI i PBA. Proto je možno zobrazovat reporty online na základě uživatel­ských voleb (výběr objektu, veličiny atd.) na serveru PBA a reporty v definovaných formátech je možno generovat a distribuovat pomocí PDI.)) ({{:profil_prd.png?linkonly|snímek obrazovky}}), jež poté mohou být zobrazovány na aplikačním serveru PBA. Reporty v Pentahu jsou tzv. „banded reports“ (pevně vymezené oblasti). Tip: využívejte vnořené reporty (//subreports//). Zastaralý zdroj v angličtině: [[pentaho>https://www.on-reporting.com|Reporting Tales: Pentaho Reporting Tips and Tricks]].\\
  
 > [[https://www.metabase.com/|{{ :metabase.png?nolink&50|}}]] Vývoj Pentaho Reporting stagnuje, takže je má smysl využít alternativy jako je [[javalang>https://www.metabase.com/|Metabase]], s kterou může každý uživatel snadno zobrazovat a analyzovat data. FOSS alternativy v Pythonu, které nejsou tolik nízkoprahové (uživatel píše SQL) jsou [[git>apache/superset/blob/master/README.md|Superset]], případně i [[https://redash.io/|Redash]]. > [[https://www.metabase.com/|{{ :metabase.png?nolink&50|}}]] Vývoj Pentaho Reporting stagnuje, takže je má smysl využít alternativy jako je [[javalang>https://www.metabase.com/|Metabase]], s kterou může každý uživatel snadno zobrazovat a analyzovat data. FOSS alternativy v Pythonu, které nejsou tolik nízkoprahové (uživatel píše SQL) jsou [[git>apache/superset/blob/master/README.md|Superset]], případně i [[https://redash.io/|Redash]].
  
 ==== Pentaho Server ==== ==== Pentaho Server ====
-[[https://www.hitachivantara.com/en-us/products/dataops-software/data-integration-analytics/pentaho-community-edition.html|Pentaho Server]] (PBA, dříve <nowiki>BI</nowiki> Server, {{:prubeh_server.png?linkonly| snímek obrazovky}}) je klíčová komponenta platformy. Umožňuje v uživatel­sky přívětivém prostředí spouštět transformace, datové analýzy, generovat reporty, vytvářet a spouštět přehledová zobrazení (//dashboard//) a je možné je integrovat do dalších aplikací (pomocí REST API). Jeho součástí je aplikační server Apache Tomcat. Není přímo vhodný pro správu souborů a pro předávání souborů se vstupními daty do systému, což by měl umožňovat [[https://dankeeley.wordpress.com/2018/04/13/uploading-files-with-cfr-and-pentaho/|Community File Repository]]. Přehledová zobrazení //(dashboard)// je možno vytvářet za pomoci CDE – více: [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.1/Products/CTools|Community Tools (CTools)]] ([[http://holowczak.com/getting-started-with-pentaho-community-edition-dashboard-editor-cde/|neoficiální Getting Started]] a [[vid>https://www.youtube.com/watch?v=Nq86J5t5c18|video]]). +Pentaho Server (PBA, dříve <nowiki>BI</nowiki> Server, {{:prubeh_server.png?linkonly| snímek obrazovky}}, [[download>https://www.hitachivantara.com/pentaho/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html|download]]) je klíčová komponenta platformy. Umožňuje v uživatel­sky přívětivém prostředí spouštět transformace, datové analýzy, generovat reporty, vytvářet a spouštět přehledová zobrazení (//dashboard//) a je možné je integrovat do dalších aplikací (pomocí REST API). Jeho součástí je aplikační server Apache Tomcat. Není přímo vhodný pro správu souborů a pro předávání souborů se vstupními daty do systému, což by měl umožňovat [[https://dankeeley.wordpress.com/2018/04/13/uploading-files-with-cfr-and-pentaho/|Community File Repository]]. Přehledová zobrazení //(dashboard)// je možno vytvářet za pomoci CDE – více: [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.4/Products/CTools|Community Tools (CTools)]] ([[http://holowczak.com/getting-started-with-pentaho-community-edition-dashboard-editor-cde/|neoficiální Getting Started]]). 
 {{:schedule.png?nolink|Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.}}\\  {{:schedule.png?nolink|Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.}}\\ 
 //Obrázek: PBA – Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.// //Obrázek: PBA – Nastavení pravidelného rozesílání vyexportovaných souborů e-mailem.//
 ==== Pentaho Metadata Editor ==== ==== Pentaho Metadata Editor ====
-[[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.1/Products/Pentaho_Metadata_Editor|Pentaho Metadata Editor]] vytvoří abstraktní vrstvu nad datovým modelem. Zjednodušuje se tak tvorba tiskových sestav a přehledových zobrazení (//dashboards//) včetně lokalizace. Viz obrázek (vrstvy též: physical, logical and delivery layer): \\+[[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.4/Products/Pentaho_Metadata_Editor|Pentaho Metadata Editor]] vytvoří abstraktní vrstvu nad datovým modelem. Zjednodušuje se tak tvorba tiskových sestav a přehledových zobrazení (//dashboards//) včetně lokalizace. Viz obrázek (vrstvy též: physical, logical and delivery layer): \\
 {{:01_metadata_domain.png?nolink|}} {{:01_metadata_domain.png?nolink|}}
  
-Alternativou k Pentaho Metadata je [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.1/Products/CTools#CDA:_Community_Data_Access|Community Data Access]] (<nowiki>CDA</nowiki>), který může využívat Pentaho Metadata.+Alternativou k Pentaho Metadata je [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.4/Products/CTools#CDA:_Community_Data_Access|Community Data Access]] (<nowiki>CDA</nowiki>), který může využívat Pentaho Metadata.
  
-Nejuniverzálnější alternativou je [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.1/Products/Pentaho_Data_Services|Pentaho Data Services]] – funguje to jako virtuální tabulka (vyžaduje Pentaho Data Services JDBC driver).+Nejuniverzálnější alternativou je [[pentaho>https://help.hitachivantara.com/Documentation/Pentaho/9.4/Products/Pentaho_Data_Services|Pentaho Data Services]] – funguje to jako virtuální tabulka (vyžaduje Pentaho Data Services JDBC driver).
  
 Všechny tři alternativy je možné využívat jako datový zdroj mj. pro reporty. Všechny tři alternativy je možné využívat jako datový zdroj mj. pro reporty.
Řádek 66: Řádek 66:
 [[https://www.postgresql.org|{{  :logo_postgres.svg?nolink&55|PostgreSQL (homepage)}}]] [[https://www.postgresql.org|{{  :logo_postgres.svg?nolink&55|PostgreSQL (homepage)}}]]
 ===== PostgreSQL / PostGIS ===== ===== PostgreSQL / PostGIS =====
-[[wpcs>PostgreSQL]] je databázový server (systém řízení báze dat). Pro administraci databáze používáme  [[foss>https://dbeaver.io|DBeaver]], který navíc dokáže zobrazovat [[map>https://dbeaver.com/docs/wiki/Working-with-Spatial-GIS-data/|prostorová data]].+[[wpcs>PostgreSQL]] je databázový server (systém řízení báze dat). Pro administraci databáze používáme  [[foss>https://dbeaver.io|DBeaver]], který navíc dokáže zobrazovat [[map>https://dbeaver.com/docs/dbeaver/Working-with-Spatial-GIS-data/|prostorová data]].
  
 [[http://postgis.net|{{  :postgis_stock_elephant_060.gif?nolink&45|PostGIS (homepage)}}]] [[http://postgis.net|{{  :postgis_stock_elephant_060.gif?nolink&45|PostGIS (homepage)}}]]
Řádek 87: Řádek 87:
 [[https://www.r-project.org|{{ :r_logo.svg?nolink&40R}}]] [[https://www.r-project.org|{{ :r_logo.svg?nolink&40R}}]]
 ===== R a Python ===== ===== R a Python =====
-Pro pokročilou analýzu dat a vizualizaci je využíván jazyk [[foss>https://www.r-project.org|R]] a to včetně tvorby online aplikací ([[r>https://shiny.rstudio.com|Shiny]]) – viz [[tul>http://msp-r.mti.tul.cz|naše příklady]].+Pro pokročilou analýzu dat a vizualizaci je využíván jazyk [[foss>https://www.r-project.org|R]] a to včetně tvorby online aplikací ([[r>https://shiny.posit.co/|Shiny]]) – viz [[tul>http://msp-r.mti.tul.cz|naše příklady]].
 Další pokročilé nástroje (zejm. GIS) jsou integrovány za pomoci jazyka Python. \\ \\ Další pokročilé nástroje (zejm. GIS) jsou integrovány za pomoci jazyka Python. \\ \\
  
Poslední úprava: 31.05.2024