Amazon S3

Amazon S3(S3)と双方向のデータ連携が可能です。

データ連携のパターン

  • 以下の連携が可能です
    • Datahubから直接インポートする
    • Datahubから直接エクスポートする

Datahub連携の推奨ストレージサービスはGCSです

Datahubでは、Google Bigqueryをバックエンドとして使用しています。Google Cloud Storageとの間のインポート/エクスポートの方が、Amazon S3よりも一般に速度が早いです。
(KARTE開発チームの性能検証では、1〜5GBのCSVファイルをインポートしたところ、Amazon S3に比べてGoogle Cloud Storageの方が3倍以上速度が早いという結果が出ました)

そのため、KARTE Datahubとしては、Google Cloud Storageを推奨ストレージサービスとしています。

Datahubジョブ設定

「接続先」

  • アクセスキーID
  • シークレットアクセスキー
  • リージョン
    • 詳細
    • KARTEのAmazon S3プラグインの場合は ap-northeast-1 です

インポート

  • バケット
    • 例: karte-data-bucket (KARTE Amazon S3プラグインの場合)
    • 登録されたアクセスキーID、シークレットアクセスキーが紐ついたIAMユーザーが実際に権限を持っている
  • ファイルパス
    • 完全一致で指定します
      • 例: foo/bar/baz.csv
    • gzip圧縮されたファイルもインポート可能です
    • ファイルパスに日付を付与したい場合、下記の記法を用いることで当日日付に変換されたファイルパスを指定可能です
      • {{YYYY}}: 4桁の西暦
      • {{MM}}: 2桁の月
      • {{DD}}: 2桁の日
      • 日付指定の例: foo/bar/baz_{{YYYY}}-{{MM}}-{{DD}}.csv
      • {{YYYYMMDD}}{{YYYY-MM-DD}}も利用可能です
      • デフォルトではJSTで変換されますが、{{YYYYMMDD, UTC}} のようにタイムゾーンを指定できます

エクスポート

  • バケット
    • 例: karte-bucket
  • ファイルパス
    • 完全一致で指定します
      • 例: foo/bar/baz.csv
    • 出力ファイル名に日付を付与したい場合、下記の記法を用いることで出力時の当日日付に変換されたファイルパスを指定可能です
      • {{YYYY}}: 4桁の西暦
      • {{MM}}: 2桁の月
      • {{DD}}: 2桁の日
      • 日付指定の例: foo/bar/baz_{{YYYY}}-{{MM}}-{{DD}}.csv
      • {{YYYYMMDD}}{{YYYY-MM-DD}}も利用可能です
      • デフォルトではJSTで変換されますが、{{YYYYMMDD, UTC}} のようにタイムゾーンを指定で- 出力形式
    • 以下から選択します
      • CSV
        • デフォルト
      • JSON(改行区切り)
  • オプション
    • 後述

オプション

ヘッダー行を出力する

出力されるいずれかのファイルの先頭にヘッダー行を出力します

出力データをダブルクォート(")で囲む

ダブルクォート(")で囲まれたデータを出力します

    • 有効な場合: "column1","column2"
    • 無効な場合: column1,column2

単一ファイルで出力する

オフの場合は後述するようにS3への出力ファイルは分割して出力されます

`単一ファイルで出力する` オプションが有効でない場合の挙動について

例) EXPORT/karte-datahub.csvを出力した場合

EXPORT/karte-datahub-00-of-03.csv
EXPORT/karte-datahub-01-of-03.csv
EXPORT/karte-datahub-02-of-03.csv

各ファイルのサイズとファイルの分割数はシステムによって決定され、実行ごとに異なります。

ヘッダー行を出力する オプションが有効になっている場合は出力される いずれか のファイルの先頭行にヘッダー行が出力されます。

データ型と出力フォーマット

出力時に、各データはクォート/ダブルクォート等が付与されない形式で出力されます。
一部の型は下記の形式にフォーマットされ出力されます。

BOOL型: true/false
DATE型: YYYY-MM-DD
TIMESTAMP型: YYYY-MM-DD hh:mm:ss.ffffff UTC

Amazon S3


Suggested Edits are limited on API Reference Pages

You can only suggest edits to Markdown body content, but not to the API spec.