Talend Open Studioの導入 ~ Talend

2017年10月22日

EAIとETL

EAI(Enterprise Application Integration)として知られているものに「DataSpider」、「ASTERIA WARP」があります。これはアプリケーションの連携をするためのです。ETL(Extract/Transform/Load)はデータを抽出、加工、ロードするものですが、知られているものとして「Talend」、「Pentaho」などがあります。EAI、ETLは目的が違うものですが、機能が重複している部分があります。

この中でアプリケーション連携は要らないがデータ加工が目的であれば無償で使用できるツールがあります。オープンソース版の「Talend」は無償で使用でき、十分に業務で使用できるレベルのものです。データベース・テキスト・excelなどからのインプットやアウトプット、レイアウト変換・データベース参照などの加工も簡単にできるものです。また、プログラミングしなくても使用できるものですが、JAVAの文法を知っていれば自分でプログラムして簡単な関数を作ることも可能です。

そして帳票作成ツールのJaspterReportと連携することで、綺麗なリストをPDFに出力することも可能です。

今までは費用を支払い市販のツールを使うか、自分でプログラムを組んで対応していましたが、今後はTalendなどのツールを用いることで短期間で正確に費用をかけずにデータ加工、データ連携ができるようになります。

Talend Open Studioのダウンロード

Talend Open Studioは無料のオープンソース版統合ソフトウェアです。
下記サイトからダウンロードします。

https://jp.talend.com/products/talend-open-studio

ETLで使用するのはData Integrationです。
Talend Open Studio for Data Integration

2017/10/21現在Version 6.4.1となっています。

「無料のツールをダウンロード」ボタンを押します。

TOS_DI-20170623_1246-V6.4.1.zip がダウンロードされます。

 

せっかくなので、ユーザガイドを入手しておきましょう

JDKのインストール

Talend Open Studio(TOS)はEclipseベースで動いています。そのためJAVAが必要となりますが、TOS ver6.0~6.1まではjavaのバージョンは7です。TOS ver6.2~はjavaのバージョンは8となります。

java8が入っていれば良いのですが、入っていなければOracleのサイトからダウンロードしてインストールします。

http://www.oracle.com/technetwork/java/javase/downloads/index.html

JAVAのバージョン9が出ていますが、バージョン8のJDKを選びます。JDKは開発環境、JREはランタイムです。

Windows 64ビットで使用するので、Windows x64を選びます。

JAVAについては古いバージョンが必要になることがあります。新しいバージョンがでると古いバージョンはダウンロードできなくなるので、落とせるときにパソコンに保存しておくべきです。すでにバージョン7はダウンロードできなくなっています。

インストールは管理者権限で動かせば良いです。

JAVA環境変数の設定

必要であれば、Talendをインストールする前に、JAVA_HOME環境変数を設定する必要があります。

JDKディレクトリを指定するようにJAVA_HOME環境変数を定義します。

コマンドプロンプトの画面で次のコマンドで確認ができます。

set
JAVA_HOME=C:\Program Files\Java\jdk1.7.0_07

【例】

set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_05

 

Talend Open Studioのインストール

インストールプログラムは使用せず、TOS_DI-20170623_1246-V6.4.1.zipをインストールしたいフォルダに解凍します。

D:\oss\talend に解凍すると

D:\oss\talend\TOS_DI-20170623_1246-V6.4.1

となりますが、長いので

D:\oss\talend\TOS_DI-V6.4.1

としました。複数のバージョンのTalendを管理できる所が良いところです。

フォルダを確認すると1Gバイトほどだと分かります。

Talend Open Studioの起動とライブラリの導入

解凍したフォルダの「TOS_DI-win-x86_64.exe」を実行します。念のため、管理者権限で動かしてみました。

起動するとユーザライセンスの同意を求められるので、同意を押します。

とりあえず「新規プロジェクトを作成」を「Local Project」のまま「終了」ボタンを押します。

終了を押しても、起動します。終わりませんので気にしないでください。

Talendのホームページが開きますので、一応アドレスを控えておきます。

 

そのまま次へ進みます。画面の説明が出てくるので、読んでおきましょう。

【リポジトリ】

【デザインワークスペース】

【コンフィグレーションタグ】

【パレット】

パッケージの追加

ライセンスの制限で同梱できないものがあります。それをここでインストールします。

Talendに必要なサードパーティーのパッケージを追加します。様々な機能を使用したいため必要なライブラリだけでなく、オプションのライブラリも追加します。

Apacthe、BSDなどのライセンスがあるので、「選択されたライセンスに同意します」を選び、「全て同意」を押します。

インストールが始まるのでしばらく待ちます。

「curator-client-2.6.0.jar」でエラーが出ていました。

http://curator.apache.org/curator-client/

本来は下記フォルダにインストールされます。

D:\oss\talend\TOS_DI-V6.4.1\configuration\.m2\repository\org\talend\libraries\curator-client-2.6.0

他のライセンスについても「全て同意」を選びます。

完了しましたが、問題発生です。

「Details」を押し詳細を確認後、「OK」を押します。

「Start now!」を押して始めます。

次回にこの画面を表示しない場合、右下の「以降表示しない」にチェックを入れます。

不足したライブラリのインストール

さきほどインストールに失敗したものを再インストールします。

「ヘルプ」→「Install Additional Packages」

不足しているものがあるので表示されました。

オプションにチェックを入れて「Finish」を押して、インストールを続けます。

再度エラーが出たら繰り返します。

エラーが無くなりました。

ライブラリがインストールされた結果6.5Gバイトに増えました。

これで、別途必要な外部ライブラリが必要で無ければ使用可能です。

 

Talend

Posted by eightban