HgIS

Správa a analýza dat o životním prostředí
Environmental data management and analysis

Uživatelské nástroje

Nástroje pro tento web


cs:cheatsheet

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cs:cheatsheet [2019-12-02]
Kamil Nešetřil [Regulární výrazy]
cs:cheatsheet [2020-06-06] (aktuální)
Kamil Nešetřil
Řádek 1: Řádek 1:
 ======Tahák pro Pentaho Data Integration ====== ======Tahák pro Pentaho Data Integration ======
-//Toto je návod pro práci s Pentaho Data Integration (<​nowiki>​PDI</​nowiki>​) – zejména s\_vývojovým prostředím <​nowiki>​Spoon</​nowiki>//​. Nejprve si přečtěne [[cs:​tools#​platforma_pentaho|Obecné informace o PDI a dalších komponentách platformy Pentaho]].+//Toto je návod pro práci s Pentaho Data Integration (<​nowiki>​PDI</​nowiki>​) ​– Kettle ​– zejména s\_vývojovým prostředím <​nowiki>​Spoon</​nowiki>//​. Nejprve si přečtěne [[cs:​tools#​platforma_pentaho|Obecné informace o PDI a dalších komponentách platformy Pentaho]].
  
 {{ :​spoon.png?​nolink|}} {{ :​spoon.png?​nolink|}}
 ===== Jak začít ===== ===== Jak začít =====
-  - Nainstalujte si [[https://​www.java.com/​en/​download/​manual.jsp|Javu (64-bit)]]((Je třeba 64bit! Měl jsem 32bitový Firefox, který mi tedy stahoval 32bitvou Javu – ta mi nefungovala,​ protože spouštěcí skript PDI vyhradil více paměti než 32bitová Java může alokovat. Pokud máte 32bitový operační systém, upravte alokovanou paměť ve spouštěcím skriptu.\\ ​Pokud potřebujete open-source verzi, použijte https://jdk.java.net/12/.\\ +  - Nainstalujte si [[https://​www.java.com/​en/​download/​manual.jsp|Javu (64-bit)]]((Je třeba 64bit! Měl jsem 32bitový Firefox, který mi tedy stahoval 32bitvou Javu – ta mi nefungovala,​ protože spouštěcí skript PDI vyhradil více paměti než 32bitová Java může alokovat. Pokud máte 32bitový operační systém, upravte alokovanou paměť ve spouštěcím skriptu.\\ ​Je možno využít i [[https://adoptopenjdk.net/?​variant=openjdk11&​jvmVariant=hotspot|open-source verzi]].\\ 
 Pokud nemůžete instalovat, použijte [[https://​portableapps.com/​apps/​utilities/​OpenJDK64|portable]] verzi.\\ ​ Pokud nemůžete instalovat, použijte [[https://​portableapps.com/​apps/​utilities/​OpenJDK64|portable]] verzi.\\ ​
 Při //​aktualizaci//​ Javy je třeba ve Windows ručně aktualizovat cestu k Javě: „Upravit proměnné prostředí systému“ -> „Proměnné prostředí“ -> ''​JAVA_HOME''​)). Při //​aktualizaci//​ Javy je třeba ve Windows ručně aktualizovat cestu k Javě: „Upravit proměnné prostředí systému“ -> „Proměnné prostředí“ -> ''​JAVA_HOME''​)).
Řádek 20: Řádek 20:
 ===== Některé často používané kroky v transformacích ===== ===== Některé často používané kroky v transformacích =====
 ^ Symbol ​                        ^ Název ​                                                                                                                                                ^ Popis                                                                                                                                                                                                                                                                                                                                                                                                                              ^ ^ Symbol ​                        ^ Název ​                                                                                                                                                ^ Popis                                                                                                                                                                                                                                                                                                                                                                                                                              ^
-| {{ :​pdi07_textfileinput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Text_File_Input|Text file input]] ​         | Čtení textových souborů. Používat i pro soubory CSV (nikoliv ''<​nowiki>​CSV</​nowiki>​ file input'',​ který neumí zpracovat jednoduše celou složku). Pěkně umí fixed text. Pokud vyberu ''​Number of header lines'',​ tak budu asi potřebovat definovat sloupce ručně, protože uvažuje jen první řádek a ostatní vynechává. Nebo raději pro vývoj upravit záhlaví na jednořádkové a pro produkci použít původní soubory. |+| {{ :​pdi07_textfileinput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Text_File_Input|Text file input]] ​         | Čtení textových souborů. Používat i pro soubory CSV (nikoliv ''<​nowiki>​CSV</​nowiki>​ file input'',​ který neumí zpracovat jednoduše celou složku). Pěkně umí fixed text. Pokud vyberu ''​Number of header lines'',​ tak budu asi potřebovat definovat sloupce ručně, protože uvažuje jen první řádek a ostatní vynechává. Nebo raději pro vývoj upravit záhlaví na jednořádkové a pro produkci použít původní soubory. |
 |Další kroky umožňují načítat data z (a ukládat do) nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, [[wpcs>​Shapefile|ESRI SHP]], [[wpcs>​JSON]],​ [[wpcs>​YAML]],​ [[wpcs>​RSS]],​ ZIP atd.) ||| |Další kroky umožňují načítat data z (a ukládat do) nejrůznějších databází, zdrojů (e-mail, lokální počítač, FTP, HTTP) a souborů (MS Excel, [[wpcs>​Shapefile|ESRI SHP]], [[wpcs>​JSON]],​ [[wpcs>​YAML]],​ [[wpcs>​RSS]],​ ZIP atd.) |||
-| {{ :​pdi08_textfileoutput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Text_File_Output|Text file output]] ​      | Vytvoření textových souborů. Může definovat obrovskou ''​length'',​ díky které nahlásí chybu s pamětí – stačí smazat. ​                                                                                                                                                                                                                                                                                                           | +| {{ :​pdi08_textfileoutput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Text_File_Output|Text file output]] ​      | Vytvoření textových souborů. Může definovat obrovskou ''​length'',​ díky které nahlásí chybu s pamětí – stačí smazat. ​                                                                                                                                                                                                                                                                                                           | 
-| {{ :​cheatsh17.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Table_Output|Table output]] ​                        | Vkládání dat do SQL databáze. Obsahuje průvodce pro vytvoření připojení k databázi. Dále je třeba vybrat cílové schéma a tabulku v\_databázi. Dokáže také vrátit automaticky generované id záznamu. ​                                                                                                                                                       | +| {{ :​cheatsh17.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Table_Output|Table output]] ​                        | Vkládání dat do SQL databáze. Obsahuje průvodce pro vytvoření připojení k databázi. Dále je třeba vybrat cílové schéma a tabulku v\_databázi. Dokáže také vrátit automaticky generované id záznamu. ​                                                                                                                                                       | 
-| {{ :​pdi03_msexcelwriter.png?​40&​nolink }} | [[https://wiki.pentaho.com/​display/EAI/Microsoft+Excel+Writer|Microsoft Excel Writer]] ​                                                         | Ukládá data do dokumentu ve formátu Microsoft Excel. ​                                                                                                                                                                                                                                                                                                                                                                          | +| {{ :​pdi03_msexcelwriter.png?​40&​nolink }} | [[https://help.pentaho.com/​Documentation/9.0/Products/​Microsoft_Excel_Writer|Microsoft Excel Writer]] ​     | Ukládá data do dokumentu ve formátu Microsoft Excel. ​                                                                                                                                                                                                                                                                                                                                                                          | 
-| {{ :​cheatsh05.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Filter rows|Filter rows]] ​                                                                                        | Filtrování dat řádků pomocí vybraných podmínek. Datový tok je dále rozdělen na dvě větve podle splnění/​nesplnění podmínky. Pokud se mají řádky rozdělit do více než dvou větví, použij [[https://wiki.pentaho.com/​display/EAI/​Switch-Case|Switch-Case]]. ​                                                                                                                                                                      |+| {{ :​cheatsh05.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Filter rows|Filter rows]] ​                                                                                        | Filtrování dat řádků pomocí vybraných podmínek. Datový tok je dále rozdělen na dvě větve podle splnění/​nesplnění podmínky. Pokud se mají řádky rozdělit do více než dvou větví, použij [[https://help.pentaho.com/​Documentation/9.0/​Products/​Switch-Case|Switch-Case]]. ​                                                                                                                                                                      |
 | {{ :​cheatsh06.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Formula|Formula]] ​                                                                                                | Možno použít pro jednoduché výpočty (např.: ''​sloupec_1 * sloupec_2''​),​ pro jednoduché logické podmínky či spojování řetězců. [[cs:​cheatsheet#​formula|Mé příklady vzorců dole na této stránce]]. ​                                                                                                                                                                                                              | | {{ :​cheatsh06.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Formula|Formula]] ​                                                                                                | Možno použít pro jednoduché výpočty (např.: ''​sloupec_1 * sloupec_2''​),​ pro jednoduché logické podmínky či spojování řetězců. [[cs:​cheatsheet#​formula|Mé příklady vzorců dole na této stránce]]. ​                                                                                                                                                                                                              |
-| {{ :​pdi06_calculator.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Calculator|Calculator]] ​                      | Vytvoření nového pole pomocí předdefinovaných vzorců. Je rychlejší než Formula (o řádek výše), ale méně obecný. ​                                                                                                                                                                                                                                                                                                               | +| {{ :​pdi06_calculator.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Calculator|Calculator]] ​                      | Vytvoření nového pole pomocí předdefinovaných vzorců. Je rychlejší než Formula (o řádek výše), ale méně obecný. ​                                                                                                                                                                                                                                                                                                               | 
-| {{ :​cheatsh09.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Group_By|Group by]]                                 | Umožňuje počítat hodnoty pro skupiny dat. V\_nastavení se vyberou sloupce, které definují skupinu. Počítat se může například průměr, suma, minimum, maximum, atd.                                                                                                                                                                                                                                              | +| {{ :​cheatsh09.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Group_By|Group by]]                                 | Umožňuje počítat hodnoty pro skupiny dat. V\_nastavení se vyberou sloupce, které definují skupinu. Počítat se může například průměr, suma, minimum, maximum, atd.                                                                                                                                                                                                                                              | 
-| {{ :​cheatsh14.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Select_Values|Select values]] ​                      | Vybírání,​ odstraňování a přejmenovávání sloupců. Umožňuje **měnit datový typ**, nastavovat délku textových řetězců, počty desetinných míst u\_reálných čísel a další formáty dat.                                                                                                                                                                                            |+| {{ :​cheatsh14.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Select_Values|Select values]] ​                      | Vybírání,​ odstraňování a přejmenovávání sloupců. Umožňuje **měnit datový typ**, nastavovat délku textových řetězců, počty desetinných míst u\_reálných čísel a další formáty dat.                                                                                                                                                                                            |
 | {{ :​cheatsh15.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Sort+rows|Sort rows]] ​                                                                                            | Seřadí data podle vybraného sloupce nebo několika sloupců. Podle nastavení řadí vzestupně nebo sestupně. Zaškrtnutím ''​Only pass unique rows?''​ nevyřadí duplicity na základě řadících kritérií. Klíč je něco jiného. **Proč? Teď mi to fungovalo!!!** ​                                                                                                                                                                        | | {{ :​cheatsh15.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Sort+rows|Sort rows]] ​                                                                                            | Seřadí data podle vybraného sloupce nebo několika sloupců. Podle nastavení řadí vzestupně nebo sestupně. Zaškrtnutím ''​Only pass unique rows?''​ nevyřadí duplicity na základě řadících kritérií. Klíč je něco jiného. **Proč? Teď mi to fungovalo!!!** ​                                                                                                                                                                        |
 | {{ :​cheatsh13.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Replace+in+string|Replace in string]] ​                                                                            | Nahradí vybrané znaky/slova v textových řetězcích. Lze použít regulárních výrazů nebo přímo vyhledávací funkce, kterou tato komponenta obsahuje. Nahrazení hledané části je možné za jiný textový řetězec, nebo za hodnotu některého ze sloupců. ​                                                                                                                                                 | | {{ :​cheatsh13.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Replace+in+string|Replace in string]] ​                                                                            | Nahradí vybrané znaky/slova v textových řetězcích. Lze použít regulárních výrazů nebo přímo vyhledávací funkce, kterou tato komponenta obsahuje. Nahrazení hledané části je možné za jiný textový řetězec, nebo za hodnotu některého ze sloupců. ​                                                                                                                                                 |
 | {{ :​cheatsh16.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Split+Fields|Split Fields]] ​                                                                                      | Rozdělí textový řetězec v jednom sloupci do více sloupců podle zvoleného oddělovacího znaku či textového řetězce. ​                                                                                                                                                                                                                                                                                                             | | {{ :​cheatsh16.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Split+Fields|Split Fields]] ​                                                                                      | Rozdělí textový řetězec v jednom sloupci do více sloupců podle zvoleného oddělovacího znaku či textového řetězce. ​                                                                                                                                                                                                                                                                                                             |
 | {{ :​pdi16_stremlookup.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Stream+lookup|Stream lookup]] ​                                                                             | //Join//: propojení dvou streamů (tabulek – např. číselníku) aniž by bylo třeba mít záznamy seřazené. ​                                                                                                                                                                                                                                                                                                                                                                              | | {{ :​pdi16_stremlookup.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Stream+lookup|Stream lookup]] ​                                                                             | //Join//: propojení dvou streamů (tabulek – např. číselníku) aniž by bylo třeba mít záznamy seřazené. ​                                                                                                                                                                                                                                                                                                                                                                              |
-| {{ :​pdi20_rownorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Row_Normaliser|Row Normaliser]] ​                 | ''​Type field''​ (název nového sloupce kategorií)\\ ''​Fieldname''​ (vstupní záhlaví)\\ ''​Type''​ (hodnoty výstupních kategorií)\\ ''​New field''​ (výstupní záhlaví hodnot) – //​nefungovalo mi nastavit řádky různě //                                                                                                                                                                                                    | +| {{ :​pdi20_rownorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Row_Normaliser|Row Normaliser]] ​                 | ''​Type field''​ (název nového sloupce kategorií)\\ ''​Fieldname''​ (vstupní záhlaví)\\ ''​Type''​ (hodnoty výstupních kategorií)\\ ''​New field''​ (výstupní záhlaví hodnot) – //​nefungovalo mi nastavit řádky různě //                                                                                                                                                                                                    | 
-| {{ :​pdi21_rowdenorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Row_Denormaliser|Row denormaliser]] ​           | //Key// označuje vstupní kategorie.\\ ''​The key field''​ (název vstupního sloupce s kategoriemi),​\\ ''​Group field''​ (co identifikuje celý budoucí řádek – např. //​filename//​),​\\ ''​Target fieldname''​ = ''​Key value''​ (jednotlivé kategorie),​\\ ''​Value fieldname''​ (název vstupního sloupce s\_hodnotami)\\ [[cs:​resources#​microsoft_power_query|Více]]|+| {{ :​pdi21_rowdenorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Row_Denormaliser|Row denormaliser]] ​           | //Key// označuje vstupní kategorie.\\ ''​The key field''​ (název vstupního sloupce s kategoriemi),​\\ ''​Group field''​ (co identifikuje celý budoucí řádek – např. //​filename//​),​\\ ''​Target fieldname''​ = ''​Key value''​ (jednotlivé kategorie),​\\ ''​Value fieldname''​ (název vstupního sloupce s\_hodnotami)\\ [[cs:​resources#​microsoft_power_query|Více]]|
 | {{ :​pdi17_setvar.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Set+Variables|Set Variables]] ​                                                                                  | Nastav proměnnou. V ostatních transformacích je možno je volat jako proměnné i jako parametry. U parametrů je možno definovat implicitní hodnotu. Parametr může být definován např. pomocí proměnné, ale má i defaultní hodnotu, která se uplatní, pokud proměnná není naplněna. Dříve byla v PDI proměnná, později parametr. ​                                                                                                 | | {{ :​pdi17_setvar.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Set+Variables|Set Variables]] ​                                                                                  | Nastav proměnnou. V ostatních transformacích je možno je volat jako proměnné i jako parametry. U parametrů je možno definovat implicitní hodnotu. Parametr může být definován např. pomocí proměnné, ale má i defaultní hodnotu, která se uplatní, pokud proměnná není naplněna. Dříve byla v PDI proměnná, později parametr. ​                                                                                                 |
-| {{ :​pdi18_etlmetadatainjec.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​ETL_metadata_injection|ETL Metadata Injection]] ​   | Řízení transformací ze streamu. Pokud chci spustit s různými parametry, je třeba kombinovat s\_''​Transformation Executor''​ (níže).\\ [[https://​support.pentaho.com/​hc/​article_attachments/​360003638211/Guidelines%20-%20Metadata%20Injection.pdf|Best practices]].\\ [[http://​sandbox.kettle.be/​wordpress/​index.php/​2011/​02/​25/​parse-nasty-xls-with-dynamic-etl/​|Matt Casters: Parse nasty XLS with dynamic ETL]] \\ Na konci [[http://​kettle.bleuel.com/​2016/​04/​14/​pentaho-6-1-part-2/​|článku]] je příklad včetně zdrojových souborů.\\ Alternativou je spustit transformaci v jobu a zaškrtnout //Execute every input row// – [[https://​www.youtube.com/​watch?​v=A8-oQHFi4VA|video]].| +| {{ :​pdi18_etlmetadatainjec.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​ETL_metadata_injection|ETL Metadata Injection]] ​   | Řízení transformací ze streamu. Pokud chci spustit s různými parametry, je třeba kombinovat s\_''​Transformation Executor''​ (níže).\\ [[https://​support.pentaho.com/​hc/​article_attachments/​360003635351/PDI_Techniques_-_Design_Guidelines.pdf|Best practices]].\\ [[http://​sandbox.kettle.be/​wordpress/​index.php/​2011/​02/​25/​parse-nasty-xls-with-dynamic-etl/​|Matt Casters: Parse nasty XLS with dynamic ETL]] \\ Na konci [[http://​kettle.bleuel.com/​2016/​04/​14/​pentaho-6-1-part-2/​|článku]] je příklad včetně zdrojových souborů.\\ Alternativou je spustit transformaci v jobu a zaškrtnout //Execute every input row// – [[https://​www.youtube.com/​watch?​v=A8-oQHFi4VA|video]].| 
-| {{ :​pdi19_transformexe.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Transformation_Executor|Transformation Executor]] ​ | Spustí pro každý řádek novou transformaci. Předává proměnné, které se v\_odkazované transformaci volají ''​${takto}''​. ​                                                                                                                                                                                                                                                                                                                                                        |+| {{ :​pdi19_transformexe.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Transformation_Executor|Transformation Executor]] ​ | Spustí pro každý řádek novou transformaci. Předává proměnné, které se v\_odkazované transformaci volají ''​${takto}''​. ​                                                                                                                                                                                                                                                                                                                                                        |
 | {{ :​cheatsh01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Add+Constants|Add Constants]] ​                                                                                    | Přidání jedné nebo více hodnot (konstant) do polí. ​                                                                                                                                                                                                                                                                                                                                                                            | | {{ :​cheatsh01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Add+Constants|Add Constants]] ​                                                                                    | Přidání jedné nebo více hodnot (konstant) do polí. ​                                                                                                                                                                                                                                                                                                                                                                            |
 | {{ :​cheatsh02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Analytic+Query|Analytic Query]] ​                                                                                  | Možnost zohlednit předchozí/​nadcházející hodnoty. Data musí být seřazena. Slouží k\_přístupu k datům v jiných řádcích. Můžeme tak data z\_několika řádků převést do jednoho řádku s\_několika novými sloupci. Data je možné seskupit podle vybraných sloupců, aby se slučovala pouze data, která mají něco společného. ​                                                                                                        | | {{ :​cheatsh02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Analytic+Query|Analytic Query]] ​                                                                                  | Možnost zohlednit předchozí/​nadcházející hodnoty. Data musí být seřazena. Slouží k\_přístupu k datům v jiných řádcích. Můžeme tak data z\_několika řádků převést do jednoho řádku s\_několika novými sloupci. Data je možné seskupit podle vybraných sloupců, aby se slučovala pouze data, která mají něco společného. ​                                                                                                        |
Řádek 44: Řádek 44:
 | {{ :​cheatsh04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Copy+rows+to+result|Copy rows to result]] ​                                                                        | Zajišťuje převod dat do další transformace v rámci „jobu“. Pro vývoj netřeba spojovat jobem. ​                                                                                                                                                                                                                                                                                                                                  | | {{ :​cheatsh04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Copy+rows+to+result|Copy rows to result]] ​                                                                        | Zajišťuje převod dat do další transformace v rámci „jobu“. Pro vývoj netřeba spojovat jobem. ​                                                                                                                                                                                                                                                                                                                                  |
 | {{ :​cheatsh07.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+data+from+XML|Get data from XML]]                                                                             | Načítá data z XML souborů. Je možné přímo zvolit datové typy vstupních dat a jejich formát (např. u desetinných čísel). Obsahuje funkci pro automatické načtení sloupců podle tagů v XML souboru. Pokud požadovaná vstupní data nejsou textem mezi počátečním a ukončovacím tagem, ale například atributem tagu, je nutné přidat je ručně. ​                                                                                    | | {{ :​cheatsh07.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+data+from+XML|Get data from XML]]                                                                             | Načítá data z XML souborů. Je možné přímo zvolit datové typy vstupních dat a jejich formát (např. u desetinných čísel). Obsahuje funkci pro automatické načtení sloupců podle tagů v XML souboru. Pokud požadovaná vstupní data nejsou textem mezi počátečním a ukončovacím tagem, ale například atributem tagu, je nutné přidat je ručně. ​                                                                                    |
-| {{ :​cheatsh08.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Get_Rows_from_Result|Get rows From result]] ​        | Zajišťuje načtení dat z transformace,​ na kterou je tato napojena v rámci „jobu“. Aby bylo možné data načíst, musí být předchozí transformace obsahovat komponentu „Copy rows to result“. V této komponentě se pak nastavují názvy sloupců a jejich datové typy. Pro vývoj netřeba spojovat jobem. ​                                                                                                                             |+| {{ :​cheatsh08.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Get_Rows_from_Result|Get rows From result]] ​        | Zajišťuje načtení dat z transformace,​ na kterou je tato napojena v rámci „jobu“. Aby bylo možné data načíst, musí být předchozí transformace obsahovat komponentu „Copy rows to result“. V této komponentě se pak nastavují názvy sloupců a jejich datové typy. Pro vývoj netřeba spojovat jobem. ​                                                                                                                             |
 | {{ :​cheatsh10.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Mail|Mail]] ​                                                                                                      | Umožňuje posílat email na předem definované adresy. Je nutné nastavit SMTP server, kterým může být například Gmail a ověření. Text emailu musí být také předem definovaný. K emailu je možné přidat přílohu, jejíž adresa (v\_souborovém systému) se nastavuje přímo v této komponentě. ​                                                                                                                                       | | {{ :​cheatsh10.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Mail|Mail]] ​                                                                                                      | Umožňuje posílat email na předem definované adresy. Je nutné nastavit SMTP server, kterým může být například Gmail a ověření. Text emailu musí být také předem definovaný. K emailu je možné přidat přílohu, jejíž adresa (v\_souborovém systému) se nastavuje přímo v této komponentě. ​                                                                                                                                       |
 | {{ :​cheatsh11.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Modified+Java+Script+Value|Modified Java Script Value]] ​                                                          | Umožňuje vytvářet javascriptové výrazy. Ty mohou být použity například pro upravování textových řetězců (cesty k\_souborům ...). Ale má i spoustu dalších použití. ​                                                                                                                                                                                                                                                            | | {{ :​cheatsh11.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Modified+Java+Script+Value|Modified Java Script Value]] ​                                                          | Umožňuje vytvářet javascriptové výrazy. Ty mohou být použity například pro upravování textových řetězců (cesty k\_souborům ...). Ale má i spoustu dalších použití. ​                                                                                                                                                                                                                                                            |
 | {{ :​pdi05_udefjavaexp.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​User+Defined+Java+Expression|User Defined Java Expression]] ​                                               | Vlastní výraz napsaný v jazyce Java. [[cs:​java|Mé příklady]]. ​                                                                                                                                                                                                                                                                                                                  | | {{ :​pdi05_udefjavaexp.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​User+Defined+Java+Expression|User Defined Java Expression]] ​                                               | Vlastní výraz napsaný v jazyce Java. [[cs:​java|Mé příklady]]. ​                                                                                                                                                                                                                                                                                                                  |
-| {{ :​cheatsh12.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Pentaho_Reporting_Output|Pentaho Reporting Output]] | Umožňuje vytvářet reporty, podle předem definované šablony vytvořené v PRD. Cesta k šabloně a k\_souboru, který má být z\_této šablony vytvořen, musí být dopředu definována. V\_nastavení komponenty se vybírá formát výstupního reportu (např.: PDF, HTML, atd.). ​                                                                               | +| {{ :​cheatsh12.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Pentaho_Reporting_Output|Pentaho Reporting Output]] | Umožňuje vytvářet reporty, podle předem definované šablony vytvořené v PRD. Cesta k šabloně a k\_souboru, který má být z\_této šablony vytvořen, musí být dopředu definována. V\_nastavení komponenty se vybírá formát výstupního reportu (např.: PDF, HTML, atd.). ​                                                                               | 
-| {{ :​cheatsh18.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Unique_Rows|Unique rows]] ​                          | Odstraní duplicitní řádky. Nastavuje se sloupec, nebo sloupce, při jejichž shodné hodnotě u více řádků se zachová pouze první záznam. Před tímto krokem musí být data seřazena pomocí kroku ''​Sort rows''​. ​                                                                                                                                                                                                                    |+| {{ :​cheatsh18.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Unique_Rows|Unique rows]] ​                          | Odstraní duplicitní řádky. Nastavuje se sloupec, nebo sloupce, při jejichž shodné hodnotě u více řádků se zachová pouze první záznam. Před tímto krokem musí být data seřazena pomocí kroku ''​Sort rows''​. ​                                                                                                                                                                                                                    |
 | {{ :​pdi01_msaccessinput.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Access+Input|Microsoft Access Input]] ​                                                                  | Čte data ze souborů ve formátu Microsoft Access. ​                                                                                                                                                                                                                                                                                                                                                                              | | {{ :​pdi01_msaccessinput.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Access+Input|Microsoft Access Input]] ​                                                                  | Čte data ze souborů ve formátu Microsoft Access. ​                                                                                                                                                                                                                                                                                                                                                                              |
 | {{ :​pdi02_msaccessoutput.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Access+Output|Microsoft Access Output]] ​                                                                | Ukládá data do tabulky databáze Microsoft Access. ​                                                                                                                                                                                                                                                                                                                                                                             | | {{ :​pdi02_msaccessoutput.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Access+Output|Microsoft Access Output]] ​                                                                | Ukládá data do tabulky databáze Microsoft Access. ​                                                                                                                                                                                                                                                                                                                                                                             |
 | {{ :​pdi04_mergejoin.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Merge+Join|Merge Join]] ​                                                                                     | Spojí řádky dvou načítaných vstupů pomocí vybraného klíče do jednoho výstupu. Vstupy musí být před spojením seřazeny podle vybraného klíče. ​                                                                                                                                                                                                                                                                                   | | {{ :​pdi04_mergejoin.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Merge+Join|Merge Join]] ​                                                                                     | Spojí řádky dvou načítaných vstupů pomocí vybraného klíče do jednoho výstupu. Vstupy musí být před spojením seřazeny podle vybraného klíče. ​                                                                                                                                                                                                                                                                                   |
-| {{ :​pdi09_rowflattener.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Row_Flattener|Row flattener]] ​              | Převod sloupce na řádek ​                                                                                                                                                                                                                                                                                                                                                  |+| {{ :​pdi09_rowflattener.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Row_Flattener|Row flattener]] ​              | Převod sloupce na řádek ​                                                                                                                                                                                                                                                                                                                                                  |
 | {{ :​pdi10_addsequence.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Add+sequence|Add sequence]] ​                                                                               | Inkrementace hodnot (indexace řádků apod.) ​                                                                                                                                                                                                                                                                                                                                                                                    | | {{ :​pdi10_addsequence.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Add+sequence|Add sequence]] ​                                                                               | Inkrementace hodnot (indexace řádků apod.) ​                                                                                                                                                                                                                                                                                                                                                                                    |
 | {{ :​pdi11_xbaseinput.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​XBase+input|XBase input]] ​                                                                                  | Čte soubory databázového typu dbf                                                                                                                                                                                                                                                                                                                                                                                              | | {{ :​pdi11_xbaseinput.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​XBase+input|XBase input]] ​                                                                                  | Čte soubory databázového typu dbf                                                                                                                                                                                                                                                                                                                                                                                              |
 | {{ :​pdi12_getfilenames.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Get+file+names|Get file names]] ​                                                                          | Získá cestu/​jméno ke všem souborům ve vybrané složce ​                                                                                                                                                                                                                                                                                                                                                                          | | {{ :​pdi12_getfilenames.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Get+file+names|Get file names]] ​                                                                          | Získá cestu/​jméno ke všem souborům ve vybrané složce ​                                                                                                                                                                                                                                                                                                                                                                          |
-| {{ :​pdi15_regexeval.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Regex_Evaluation|Regex evaluation]] ​          | Vlastní regulární výraz. Mé příklady dole na této stránce: [[cs:​cheatsheet#​regularni_vyrazy|Regulární výrazy]]. ​                                                                                                                                                                                                                                                                                       |+| {{ :​pdi15_regexeval.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Regex_Evaluation|Regex evaluation]] ​          | Vlastní regulární výraz. Mé příklady dole na této stránce: [[cs:​cheatsheet#​regularni_vyrazy|Regulární výrazy]]. ​                                                                                                                                                                                                                                                                                       |
 | {{ :​pdi22_blockuntil.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Block+this+step+until+steps+finish|Block this step until steps finish]] ​                                         |                                                                                                                                                                 | | {{ :​pdi22_blockuntil.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Block+this+step+until+steps+finish|Block this step until steps finish]] ​                                         |                                                                                                                                                                 |
 | | [[https://​wiki.pentaho.com/​display/​EAI/​Dummy+(do+nothing)|Dummy (do nothing)]] | Spojování větví; zobrazení výsledků (např. ''​Filter rows''​) ​                                                                | | | [[https://​wiki.pentaho.com/​display/​EAI/​Dummy+(do+nothing)|Dummy (do nothing)]] | Spojování větví; zobrazení výsledků (např. ''​Filter rows''​) ​                                                                |
Řádek 67: Řádek 67:
     * Využívá [[wp>​Apache Tika]], který podporuje [[https://​tika.apache.org/​1.22/​formats.html|různé formáty]] –  pouze metadata k: DWG, GDAL, HDF, NetCDF, Matlab a nějakým geografickým formátům.     * Využívá [[wp>​Apache Tika]], který podporuje [[https://​tika.apache.org/​1.22/​formats.html|různé formáty]] –  pouze metadata k: DWG, GDAL, HDF, NetCDF, Matlab a nějakým geografickým formátům.
     * Pro PDF používá [[https://​pdfbox.apache.org|Apache PDFBox]], který umí vyplňovat formuláře,​ dělit a slučovat soubory PDF atd.     * Pro PDF používá [[https://​pdfbox.apache.org|Apache PDFBox]], který umí vyplňovat formuláře,​ dělit a slučovat soubory PDF atd.
-  * Machine Intelligence ([[https://​community.hitachivantara.com/​community/products-and-solutions/pentaho/​blog/​2018/​03/​06/​operationalizing-machine-learning|blog post]]využívá volitelně různé enginy: R, Python, Weka či elegantně v\_Javě s využitím GPU Nvidia [[https://​deeplearning4j.org/​|Deeplearning4j]].+  * [[https://​community.hitachivantara.com/​s/article/machine-intelligence-made-easy|Machine Intelligence]] využívá volitelně různé enginy: R, Python, Weka či elegantně v\_Javě s využitím GPU Nvidia [[https://​deeplearning4j.org/​|Deeplearning4j]]. 
 +  * [[https://​community.hitachivantara.com/​s/​article/​New-PMI-Plugin-PMI-Visualization|PMI Visualization]] Plugin – visualisace v PDI {{:​pmi_visu_plugin.jfif?​nolink|PMI Visualization – 3D Exploration and Scatter Plot Matrix}}
  
 ===== Některé často užívané entries v jobs ===== ===== Některé často užívané entries v jobs =====
 ^ Symbol ^ Název ^ Popis ^ ^ Symbol ^ Název ^ Popis ^
 | {{ :​cheatsheet_job_02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Start|START]] | Možnosti spouštění jobu. | | {{ :​cheatsheet_job_02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Start|START]] | Možnosti spouštění jobu. |
-| {{ :​cheatsheet_job_03.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Transformation_(job_entry)|Transformation]] | Spuštění transformace |+| {{ :​cheatsheet_job_03.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Transformation_(job_entry)|Transformation]] | Spuštění transformace |
 | {{ :​cheatsheet_job_04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Success|Success]] | Možné ukončení jobu. Ignoruje chyby a vynutí úspěšné ukončení jobu. | | {{ :​cheatsheet_job_04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Success|Success]] | Možné ukončení jobu. Ignoruje chyby a vynutí úspěšné ukončení jobu. |
 | {{ :​cheatsheet_job_01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+a+file+with+FTP|Get a file with FTP]] |  | | {{ :​cheatsheet_job_01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+a+file+with+FTP|Get a file with FTP]] |  |
Řádek 100: Řádek 101:
 **Tabulka** Validace textového řetězce **Tabulka** Validace textového řetězce
 ^Popis ​ ^Regulární výraz ​ ^Detail ^  ^Popis ​ ^Regulární výraz ​ ^Detail ^ 
-|Validace čísla\\ napsaného jako text\\ s ne více než dvěma\\ desetinnými místy |<code reg>​[+\-]?​\d+(\,​\d{1,​2})?</​code>​ |s desetinnou čárkou\\ ​[[http://​type-exit.org/​adventures-with-open-source-bi/​2011/​05/​an-introduction-to-regular-expressions/​|Zdroj]] ​+|Validace čísla\\ napsaného jako text\\ s ne více než dvěma\\ desetinnými místy |<code reg>​[+\-]?​\d+(\,​\d{1,​2})?</​code>​ |s desetinnou čárkou\\ | 
-|::: |<code reg>​[+\-]?​\d+(\.\d{1,​2})?</​code>​ |s desetinnou tečkou\\ [[http://​type-exit.org/​adventures-with-open-source-bi/​2011/​05/​an-introduction-to-regular-expressions/​|Zdroj]]\\ {{:​regex_cislo.png?​nolink |}} |+|::: |<code reg>​[+\-]?​\d+(\.\d{1,​2})?</​code>​ |s desetinnou tečkou\\ {{:​regex_cislo.png?​nolink |}} |
 |6 až 8 číslic |<code reg>​^[0-9]{6,​8}$</​code>​ |[[https://​stackoverflow.com/​questions/​4758414/​6-digits-regular-expression|Zdroj]]| |6 až 8 číslic |<code reg>​^[0-9]{6,​8}$</​code>​ |[[https://​stackoverflow.com/​questions/​4758414/​6-digits-regular-expression|Zdroj]]|
-|Dvě verze téhož jména |<code reg>​(Bill|William) Turner</​code> ​| [[http://​type-exit.org/​adventures-with-open-source-bi/​2011/​05/​an-introduction-to-regular-expressions/​|Zdroj]]+|Dvě verze téhož jména |<code reg>​(Bill|William) Turner</​code>​ | Zdroj již neexistuje
-|Jména políček v šachu\\ např. ''​A6''​ |<code reg>​[A-H][1-8]</​code> ​| [[http://​type-exit.org/​adventures-with-open-source-bi/​2011/​05/​an-introduction-to-regular-expressions/​|Zdroj]]+|Jména políček v šachu\\ např. ''​A6''​ |<code reg>​[A-H][1-8]</​code>​ | Zdroj již neexistuje
-|Cokoliv začínající ​nulou. ​|<code reg>​[0-9].*</​code>​ |Skutečně?​ Ve „Filter Rows“ je to možno udělat přímo bez regulárních výrazů.|+|Cokoliv začínající ​číslicí ​|<code reg>​[0-9].*</​code>​ |Skutečně?​ Ve „Filter Rows“ je to možno udělat přímo bez regulárních výrazů.|
 |Číslo s desetinnou tečkou (může být i záporné)|''​^-?​(\d+\.\d*)$'' ​ | | |Číslo s desetinnou tečkou (může být i záporné)|''​^-?​(\d+\.\d*)$'' ​ | |
 |Číslo s tečkou na konci|''​^(\d+.)$''​ | | |Číslo s tečkou na konci|''​^(\d+.)$''​ | |
Řádek 122: Řádek 123:
   * Nenechat prázdné řádky ve vstupním dialogu (smaž)   * Nenechat prázdné řádky ve vstupním dialogu (smaž)
   * Chyby odvádět do samostatných větví. První krok v transformaci však nemůže někam poslat chybové řádky, protože řádky ještě nejsou v PDI.   * Chyby odvádět do samostatných větví. První krok v transformaci však nemůže někam poslat chybové řádky, protože řádky ještě nejsou v PDI.
-  * Využívat krok [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​ETL_metadata_injection|ETL metadata injection]] (viz výše)+  * Využívat krok [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​ETL_metadata_injection|ETL metadata injection]] (viz výše)
   * Využívat proměnné a parametry (viz výše)   * Využívat proměnné a parametry (viz výše)
   * Relativní cesty (''​${Internal.Entry.Current.Directory}''​)   * Relativní cesty (''​${Internal.Entry.Current.Directory}''​)
Řádek 146: Řádek 147:
  
  
-  * **FAQ na https://​community.pentaho.com/projects/​data-integration/**+  * **FAQ na https://​community.hitachivantara.com/s/article/​data-integration-kettle**
     * //When I start ''<​nowiki>​Spoon</​nowiki>​.bat''​ in a Windows environment nothing happens. How can I solve it?//     * //When I start ''<​nowiki>​Spoon</​nowiki>​.bat''​ in a Windows environment nothing happens. How can I solve it?//
       * Edit the ''<​nowiki>​Spoon</​nowiki>​.bat''​ file and:       * Edit the ''<​nowiki>​Spoon</​nowiki>​.bat''​ file and:
cs/cheatsheet.1575315520.txt.gz · Poslední úprava: 2019-12-02

Nástroje pro stránku