HgIS

Správa a analýza dat o životním prostředí
Environmental data management and analysis

User Tools

Site Tools


en:cheatsheet

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
en:cheatsheet [2019-09-15]
Kamil Nešetřil [References]
en:cheatsheet [2020-04-03] (current)
Kamil Nešetřil [Some steps used in transformations]
Line 1: Line 1:
 ======Pentaho Data Integration Cheat Sheet====== ======Pentaho Data Integration Cheat Sheet======
-//This is a short guideline for Pentaho Data Integration (<​nowiki>​PDI</​nowiki>​) – mainly with <​nowiki>​Spoon</​nowiki>​ – the development environment//​. First read general information about [[en:​tools#​pentaho_platform|Pentaho platform and PDI]].+//This is a short guideline for Kettle: ​Pentaho Data Integration (<​nowiki>​PDI</​nowiki>​) – mainly with <​nowiki>​Spoon</​nowiki>​ – the development environment//​. First read general information about [[en:​tools#​pentaho_platform|Pentaho platform and PDI]].
  
 {{ :​spoon.png?​nolink|}} {{ :​spoon.png?​nolink|}}
 ===== How to start ===== ===== How to start =====
   - Install [[https://​www.java.com/​en/​download/​manual.jsp|Java (64-bit)]]((64-bit is necessary! \\ If you need open-source Java, use https://​jdk.java.net/​12/​.\\ ​   - Install [[https://​www.java.com/​en/​download/​manual.jsp|Java (64-bit)]]((64-bit is necessary! \\ If you need open-source Java, use https://​jdk.java.net/​12/​.\\ ​
-If you cannot install it use [[https://​portableapps.com/​apps/​utilities/​OpenJDK64|portable]] version.)).+If you cannot install it use [[https://​portableapps.com/​apps/​utilities/​OpenJDK64|portable]] version.\\  
 +When Java gets **updated** then ''​JAVA_HOME''​ path in Windows needs to be updated accordingly.)).
   - Download [[https://​sourceforge.net/​projects/​pentaho/​files/​latest/​download?​aliId=137249511|Pentaho Data Integration (Community Edition)]].   - Download [[https://​sourceforge.net/​projects/​pentaho/​files/​latest/​download?​aliId=137249511|Pentaho Data Integration (Community Edition)]].
   - Unzip the file to the folder of your choice.   - Unzip the file to the folder of your choice.
Line 12: Line 13:
   - Drag and drop items from the left bar to the canvas.   - Drag and drop items from the left bar to the canvas.
  
-===== Some steps used in trnsformations ​=====+===== Some steps used in transformations ​=====
 ^ Symbol ​                   ^ Name             ^ Description ​  ^ ^ Symbol ​                   ^ Name             ^ Description ​  ^
-| {{ :​pdi07_textfileinput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Text_File_Input|Text file input]] ​         | Use for CSV also (not ''<​nowiki>​CSV</​nowiki>​ file input''​ that cannot process the whole folder). |+| {{ :​pdi07_textfileinput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Text_File_Input|Text file input]] ​         | Use for CSV also (not ''<​nowiki>​CSV</​nowiki>​ file input''​ that cannot process the whole folder). |
 |Other steps for data input and output from/to databases, other sources (e-mail, local computer, FTP, HTTP) and files (MS Excel, MS\_Access, [[wpcs>​Shapefile|ESRI SHP]], [[wpcs>​XML]],​ [[wpcs>​JSON]],​ [[wpcs>​YAML]],​ [[wpcs>​RSS]],​ [[wpcs>​DBase|dBase]],​ ZIP etc.) ||| |Other steps for data input and output from/to databases, other sources (e-mail, local computer, FTP, HTTP) and files (MS Excel, MS\_Access, [[wpcs>​Shapefile|ESRI SHP]], [[wpcs>​XML]],​ [[wpcs>​JSON]],​ [[wpcs>​YAML]],​ [[wpcs>​RSS]],​ [[wpcs>​DBase|dBase]],​ ZIP etc.) |||
-| {{ :​pdi08_textfileoutput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Text_File_Output|Text file output]] ​      | Can set huge ''​length''​ and return an error. Solution: do not define ''​length''​. ​                                                                                                                                                                                                                                                                                                          | +| {{ :​pdi08_textfileoutput.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Text_File_Output|Text file output]] ​      | Can set huge ''​length''​ and return an error. Solution: do not define ''​length''​. ​                                                                                                                                                                                                                                                                                                          | 
-| {{ :​cheatsh17.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Table_Output|Table output]] ​                        ​| ​                                                                                                                                                        | +| {{ :​cheatsh17.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Table_Output|Table output]] ​                        ​| ​                                                                                                                                                        | 
-| {{ :​pdi03_msexcelwriter.png?​40&​nolink }} | [[https://wiki.pentaho.com/​display/EAI/Microsoft+Excel+Writer|Microsoft Excel Writer]] ​                                                         |                                                                                                                                                                                                                                                                                                                                                                          | +| {{ :​pdi03_msexcelwriter.png?​40&​nolink }} | [[https://help.pentaho.com/​Documentation/9.0/Products/​Microsoft_Excel_Writer|Microsoft Excel Writer]] ​                                                         |                                                                                                                                                                                                                                                                                                                                                                          | 
-| {{ :​cheatsh05.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Filter rows|Filter rows]] ​                                                                                        | For multiple options use [[https://wiki.pentaho.com/​display/EAI/​Switch-Case|Switch-Case]]. ​                                                                                                                                                                      |+| {{ :​cheatsh05.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Filter rows|Filter rows]] ​                                                                                        | For multiple options use [[https://help.pentaho.com/​Documentation/9.0/​Products/​Switch-Case|Switch-Case]]. ​                                                                                                                                                                      |
 | {{ :​cheatsh06.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Formula|Formula]] ​                                                                                                | More functions than ''​Calculator''​. ​                                                                                                                                                                                                              | | {{ :​cheatsh06.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Formula|Formula]] ​                                                                                                | More functions than ''​Calculator''​. ​                                                                                                                                                                                                              |
-| {{ :​pdi06_calculator.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Calculator|Calculator]] ​                      | Faster than ''​Formula''​. ​                                                                                                                                                                                                                                                                                                               | +| {{ :​pdi06_calculator.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Calculator|Calculator]] ​                      | Faster than ''​Formula''​. ​                                                                                                                                                                                                                                                                                                               | 
-| {{ :​cheatsh09.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Group_By|Group by]]                                 ​| ​                                                                                                                                                                                                                                            | +| {{ :​cheatsh09.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Group_By|Group by]]                                 ​| ​                                                                                                                                                                                                                                            | 
-| {{ :​cheatsh14.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Select_Values|Select values]] ​                      ​| ​                                                                                                                                                                                           |+| {{ :​cheatsh14.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Select_Values|Select values]] ​                      ​| ​                                                                                                                                                                                           |
 | {{ :​cheatsh15.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Sort+rows|Sort rows]] ​                                                                                            | Also an option: ''​Only pass unique rows?'' ​                                                                                                                                                                        | | {{ :​cheatsh15.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Sort+rows|Sort rows]] ​                                                                                            | Also an option: ''​Only pass unique rows?'' ​                                                                                                                                                                        |
 | {{ :​cheatsh13.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Replace+in+string|Replace in string]] ​                                                                            ​| ​                                                                                                                                                  | | {{ :​cheatsh13.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Replace+in+string|Replace in string]] ​                                                                            ​| ​                                                                                                                                                  |
 | {{ :​cheatsh16.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Split+Fields|Split Fields]] ​                                                                                      ​| ​                                                                                                                                                                                                                                                                                                              | | {{ :​cheatsh16.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Split+Fields|Split Fields]] ​                                                                                      ​| ​                                                                                                                                                                                                                                                                                                              |
 | {{ :​pdi16_stremlookup.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Stream+lookup|Stream lookup]] ​                                                                             | To join two strems (tables) without need to sort them.                                                                                                                                                                                                                                                                                                                                                              | | {{ :​pdi16_stremlookup.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Stream+lookup|Stream lookup]] ​                                                                             | To join two strems (tables) without need to sort them.                                                                                                                                                                                                                                                                                                                                                              |
-| {{ :​pdi20_rownorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Row_Normaliser|Row Normaliser]] ​                 | ''​Type field''​ (name of the new column of categories)\\ ''​Fieldname''​ (input header)\\ ''​Type''​ (values of input categories)\\ ''​New field''​ (output header of values) – //needs to be one value for all//                                                                                                                                                                                                   | +| {{ :​pdi20_rownorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Row_Normaliser|Row Normaliser]] ​                 | ''​Type field''​ (name of the new column of categories)\\ ''​Fieldname''​ (input header)\\ ''​Type''​ (values of input categories)\\ ''​New field''​ (output header of values) – //needs to be one value for all//                                                                                                                                                                                                   | 
-| {{ :​pdi21_rowdenorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Row_Denormaliser|Row denormaliser]] ​           | //Key// – input categories.\\ ''​The key field''​ (name of the input colums with categories),​\\ ''​Group field''​ (what identifies the whole future row – e.g. //​filename//​),​\\ ''​Target fieldname''​ = ''​Key value''​ (single categories),​\\ ''​Value fieldname''​ (name of the input column with values)\\ [[en:​resources#​excel_add-ins_for_data_processing|More:​ Microsoft Power Query for Excel]]|+| {{ :​pdi21_rowdenorm.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Row_Denormaliser|Row denormaliser]] ​           | //Key// – input categories.\\ ''​The key field''​ (name of the input colums with categories),​\\ ''​Group field''​ (what identifies the whole future row – e.g. //​filename//​),​\\ ''​Target fieldname''​ = ''​Key value''​ (single categories),​\\ ''​Value fieldname''​ (name of the input column with values)\\ [[en:​resources#​excel_add-ins_for_data_processing|More:​ Microsoft Power Query for Excel]]|
 | {{ :​pdi17_setvar.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Set+Variables|Set Variables]] ​                                                                                  | In other tranformations this variable can be used as a variable of as a parameter. Parameter can have a default value (taken into effect if the variable is not defined). ​     | | {{ :​pdi17_setvar.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Set+Variables|Set Variables]] ​                                                                                  | In other tranformations this variable can be used as a variable of as a parameter. Parameter can have a default value (taken into effect if the variable is not defined). ​     |
-| {{ :​pdi18_etlmetadatainjec.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​ETL_metadata_injection|ETL Metadata Injection]] ​   | To control the transformations. Combine with ''​Transformation Executor''​.\\ [[https://​support.pentaho.com/​hc/​article_attachments/​360003638211/Guidelines%20-%20Metadata%20Injection.pdf|Best practices]].\\ [[http://​sandbox.kettle.be/​wordpress/​index.php/​2011/​02/​25/​parse-nasty-xls-with-dynamic-etl/​|Matt Casters: Parse nasty XLS with dynamic ETL]] \\ At the end of the [[http://​kettle.bleuel.com/​2016/​04/​14/​pentaho-6-1-part-2/​|article]] is an example including source codes. | +| {{ :​pdi18_etlmetadatainjec.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​ETL_metadata_injection|ETL Metadata Injection]] ​   | To control the transformations. Combine with ''​Transformation Executor''​.\\ [[https://​support.pentaho.com/​hc/​article_attachments/​360003635351/PDI_Techniques_-_Design_Guidelines.pdf|Best practices]].\\ [[http://​sandbox.kettle.be/​wordpress/​index.php/​2011/​02/​25/​parse-nasty-xls-with-dynamic-etl/​|Matt Casters: Parse nasty XLS with dynamic ETL]] \\ At the end of the [[http://​kettle.bleuel.com/​2016/​04/​14/​pentaho-6-1-part-2/​|article]] is an example including source codes. \\ Alternative:​ run the transformation in job and check //Execute every input row// – [[https://​www.youtube.com/​watch?​v=A8-oQHFi4VA|video]].| 
-| {{ :​pdi19_transformexe.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Transformation_Executor|Transformation Executor]] ​ | Every row runs a new transformation. ​                                                                                                                                                                                                                                                                                                                                                        |+| {{ :​pdi19_transformexe.png?​40&​nolink }} | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Transformation_Executor|Transformation Executor]] ​ | Every row runs a new transformation. ​                                                                                                                                                                                                                                                                                                                                                        |
 | {{ :​cheatsh01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Add+Constants|Add Constants]] ​                                                                                    ​| ​                                                                                                                                                                                                                                                                                                                                                                             | | {{ :​cheatsh01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Add+Constants|Add Constants]] ​                                                                                    ​| ​                                                                                                                                                                                                                                                                                                                                                                             |
 | {{ :​cheatsh02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Analytic+Query|Analytic Query]] ​                                                                                  | To involve data from multiple rows. Aggregation. ​                                                                                                        | | {{ :​cheatsh02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Analytic+Query|Analytic Query]] ​                                                                                  | To involve data from multiple rows. Aggregation. ​                                                                                                        |
Line 38: Line 39:
 | {{ :​cheatsh11.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Modified+Java+Script+Value|Modified Java Script Value]] ​                                                          ​| ​                                                                                                                                                                                                                                                             | | {{ :​cheatsh11.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Modified+Java+Script+Value|Modified Java Script Value]] ​                                                          ​| ​                                                                                                                                                                                                                                                             |
 | {{ :​pdi05_udefjavaexp.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​User+Defined+Java+Expression|User Defined Java Expression]] ​                                               |                                                                                                                                                                                                                                                                                                                    | | {{ :​pdi05_udefjavaexp.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​User+Defined+Java+Expression|User Defined Java Expression]] ​                                               |                                                                                                                                                                                                                                                                                                                    |
-| {{ :​cheatsh12.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Pentaho_Reporting_Output|Pentaho Reporting Output]] | Feed and create reports designed in PRD.                                                                               |+| {{ :​cheatsh12.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Pentaho_Reporting_Output|Pentaho Reporting Output]] | Feed and create reports designed in PRD.                                                                               |
 | {{ :​pdi10_addsequence.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Add+sequence|Add sequence]] ​                                                                               |                                                                                                                                                                                                                                                                                                                                                                                     | | {{ :​pdi10_addsequence.png?​40&​nolink }} | [[https://​wiki.pentaho.com/​display/​EAI/​Add+sequence|Add sequence]] ​                                                                               |                                                                                                                                                                                                                                                                                                                                                                                     |
-| {{ :​pdi15_regexeval.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Regex_Evaluation|Regex evaluation]] ​          | Regular expressions. ​ [[en:​cheatsheet#​regular_expressions|My examples bellow]]. ​                                                                                                                                                                                                                                                                                       |+| {{ :​pdi15_regexeval.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Regex_Evaluation|Regex evaluation]] ​          | Regular expressions. ​ [[en:​cheatsheet#​regular_expressions|My examples bellow]]. ​                                                                                                                                                                                                                                                                                       |
 | | [[https://​wiki.pentaho.com/​display/​EAI/​Dummy+(do+nothing)|Dummy (do nothing)]] | Useful for merging streams or to see result of some step (e.g. ''​Filter rows''​). ​                                                                | | | [[https://​wiki.pentaho.com/​display/​EAI/​Dummy+(do+nothing)|Dummy (do nothing)]] | Useful for merging streams or to see result of some step (e.g. ''​Filter rows''​). ​                                                                |
  
Line 46: Line 47:
   * Google Spreadsheet Input/​Output   * Google Spreadsheet Input/​Output
   * [[https://​github.com/​mattyb149/​load-text-from-file-plugin|Load Text From File]]   * [[https://​github.com/​mattyb149/​load-text-from-file-plugin|Load Text From File]]
-  * Machine Intelligence ([[https://​community.hitachivantara.com/​community/​products-and-solutions/pentaho/blog/​2018/​03/​06/​operationalizing-machine-learning|blog post]]uses engines: R, Python, Weka or [[https://​deeplearning4j.org/​|Deeplearning4j]].+  * [[https://​community.hitachivantara.com/​s/article/machine-intelligence-made-easy|Machine Intelligence]] uses engines: R, Python, Weka or [[https://​deeplearning4j.org/​|Deeplearning4j]]. 
 +  * [[https://​community.hitachivantara.com/​s/​article/​New-PMI-Plugin-PMI-Visualization|PMI Visualization]] Plugin {{:​pmi_visu_plugin.jfif?​nolink|PMI Visualization – 3D Exploration and Scatter Plot Matrix}}
  
 ===== Often used job entries ===== ===== Often used job entries =====
 ^ Symbol ^ Name ^ Description ^ ^ Symbol ^ Name ^ Description ^
 | {{ :​cheatsheet_job_02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Start|START]] |  | | {{ :​cheatsheet_job_02.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Start|START]] |  |
-| {{ :​cheatsheet_job_03.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​Transformation_(job_entry)|Transformation]] |  |+| {{ :​cheatsheet_job_03.png?​40&​nolink }}  | [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​Transformation_(job_entry)|Transformation]] |  |
 | {{ :​cheatsheet_job_04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Success|Success]] |  | | {{ :​cheatsheet_job_04.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Success|Success]] |  |
 | {{ :​cheatsheet_job_01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+a+file+with+FTP|Get a file with FTP]] |  | | {{ :​cheatsheet_job_01.png?​40&​nolink }}  | [[https://​wiki.pentaho.com/​display/​EAI/​Get+a+file+with+FTP|Get a file with FTP]] |  |
Line 78: Line 80:
   * Empty rows in GUI dialogs cause errors.   * Empty rows in GUI dialogs cause errors.
   * Manage errors in separate streams. First step in a transformation cannot deal with error rows because they do not exist in PDI yet.   * Manage errors in separate streams. First step in a transformation cannot deal with error rows because they do not exist in PDI yet.
-  * Use [[https://​help.pentaho.com/​Documentation/​8.3/​Products/​ETL_metadata_injection|ETL metadata injection]] step to for more complex transformations (see above).+  * Use [[https://​help.pentaho.com/​Documentation/​9.0/​Products/​ETL_metadata_injection|ETL metadata injection]] step to for more complex transformations (see above).
   * Use variables and parameters (see above)   * Use variables and parameters (see above)
   * Use relative paths (''​${Internal.Entry.Current.Directory}''​)   * Use relative paths (''​${Internal.Entry.Current.Directory}''​)
Line 90: Line 92:
  
  
-  * **FAQ na http://​community.pentaho.com/projects/​data-integration/**+  * **FAQ on https://​community.hitachivantara.com/s/article/​data-integration-kettle**
     * //When I start ''<​nowiki>​Spoon</​nowiki>​.bat''​ in a Windows environment nothing happens. How can I solve it?//     * //When I start ''<​nowiki>​Spoon</​nowiki>​.bat''​ in a Windows environment nothing happens. How can I solve it?//
       * Edit the ''<​nowiki>​Spoon</​nowiki>​.bat''​ file and:       * Edit the ''<​nowiki>​Spoon</​nowiki>​.bat''​ file and:
en/cheatsheet.1568540133.txt.gz · Last modified: 2019-09-15