Google Cloud Storage
Google Cloud Storage(GCS)と双方向のデータ連携が可能です。
データ連携のパターン
- 以下の連携が可能です
- Datahubクエリから直接参照する
- Datahubから直接インポートする
- Datahubから直接エクスポートする
事前準備
Google Cloud Storageのコンソールから、KARTE側のGCPサービスアカウントに対して権限を付与してください。
KARTE Datahub側Googleサービスアカウントの確認方法
[データハブ設定] 画面 > [サービスアカウント管理] タブ > [ビルトインGoogleサービスアカウント]
必要な権限
- Datahubにインポートする場合
storage.objects.get
storage.objects.list
- Datahubからエクスポートする場合
storage.objects.create
- 上書きをする場合は overwrite 権限をもつroleが必要です。
GCP側の権限に関する詳細は、こちらをご参照ください。
Datahubクエリから直接参照する場合
- こちらをご覧ください
Datahubジョブ設定
インポート
「ファイルパス」と「プレフィックス」はどちらか一方を指定してください。
- [バケット]
- 例:
karte-bucket
- 例:
- [ファイルパス]
- 完全一致で指定します
- 例:
foo/bar/baz.csv
- 例:
- gzip圧縮されたファイルもインポート可能です
- ジョブ実行日時を使ったファイルパスの動的指定に対応しています
- 「ファイルパス」指定時は「プレフィックス」を指定しないでください
- 完全一致で指定します
- [プレフィクス]
- 前方一致で指定します
- こちらを入力すると、合致する全てのファイルがインポート対象になります
- 例:
karte-bucket
の配下にkarte1.csv
karte2.csv
karte3.csv
のファイルがあった場合- プレフィクスを
karte
とすると全てのファイルがインポートされます karte1
やkarte1.csv
ではkarte-bucket/karte1.csv
のみが対象となります
- プレフィクスを
- ジョブ実行日時を使ったプレフィックスの動的指定に対応しています
- 前方一致で指定します
- [区切り文字]
- 入力ファイルの区切り文字を以下から選択します
- カンマ
- タブ
- パイプ
- 入力ファイルの区切り文字を以下から選択します
- [フォーマット]
- 入力ファイルのフォーマットを以下から選択します
- CSV
- デフォルト
- JSON(改行区切り)
- CSV
- 入力ファイルのフォーマットを以下から選択します
- [スキーマ]
- 以下のような形式で、各フィールドの型を指定してください
column_name1:type_name1,column_name2:type_name2,...
- 例:
user_id:STRING,age:INT64
- 型名は、BigQueryの型名を指定してください
- BigQueryのスキーマの自動検出機能を利用して取り込む場合は、「自動型判定を有効にする」にチェックを入れてください
- 以下のような形式で、各フィールドの型を指定してください
- [引用符で囲まれた改行を許可する]
- 改行を許可する場合はチェックを入れてください
- その際、ファイル中の改行は必ず囲み文字で囲んでください
- 改行を許可する場合はチェックを入れてください
エクスポート
- [バケット]
- 例:
karte-bucket
- 例:
- [ファイルパス]
- 完全一致で指定します
- 例:
foo/bar/baz.csv
- 例:
- ジョブ実行日時を使ったプレフィックスの動的指定に対応しています
- 1GBを超えるファイルは分割されてエクスポートされます
- ファイル名を
foo/bar/baz.csv
のように指定した場合、foo/bar/baz-00000001.csv
のように変更されて出力されます - Google Cloud BigQueryの単一のワイルドカード URIによるCSV分割の仕組みを利用しておりますので、詳細はこちらを参照ください
- ファイル名を
- 完全一致で指定します
- [出力形式]
- 出力ファイルの出力形式を以下から選択します
- CSV
- デフォルト
- JSON (改行区切り)
- CSV
- 出力ファイルの出力形式を以下から選択します
- [ヘッダー行を出力する]
- ファイルにヘッダー行を出力する場合はチェックを入れてください
KARTEからGCSバケットを払い出す機能について
GCSの簡易的な利用のために、GCSバケットをKARTEのプロジェクトに対して払い出すことも可能です。詳しくはこちらをご覧ください。
FAQ
Q. 東京リージョンのGCSバケットとDatahubデータセットの間でデータをインポート/エクスポートすることは可能ですか?
- ジョブフローを利用することで可能です
Q. エクスポート時の文字コードと改行コードは?
エクスポート時の改行コードは以下の通りです
- 文字コード
- UTF-8
- 改行コード
- LF
Q.連携データサイズに制限はありますか?
- KARTE側では特に制限を設けておりませんが、GCSやBigQuery側にて制限がある場合がございます。最新の制限状況については各社の情報をご参照いただければと存じますが、2024/08時点では以下の内容を確認しています
- .csv形式:5TB
- .gzip形式:4GB
- https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv?hl=ja
Updated about 2 months ago