クラウド流ビッグデータと Google Cloud Dataflow のベータ版リリース
2015年4月21日火曜日
* この投稿は、米国時間 4 月 16 日、 Product Manager の William Vambenepe によって投稿されたものの抄訳です。
ビッグデータで、ビジネス インサイトをより早くより的確に得られるようになるはずです。しかし多くの場合、インフラ プロジェクトになってしまいます。なぜでしょう。例えば、莫大な情報を収集した後、それらを相互に関連づけ、肉付けし、リアルタイムのインサイトを抽出しているとします。そうした作業には大量のリソース管理やシステム管理が必然的に伴うと考えるべきでしょうか。いいえ、クラウドではそうではありません。クラウド流にビッグデータを使うなら、その必要はないのです。
クラウド流ビッグデータとは、アプリケーション構築の際、インフラ基盤に気をとられることなく、より速く、より良いインサイトで、より生産的であることを意味します。具体的には:
Google はビッグデータにおいて業界の先導的役割を果たしてきました。Google Cloud Platform を使うと、次のような特長も加わります:
Google Cloud Platform は、データ分析を迅速に、安価で、容易に実行することによって上記の特性を提供します。ブリュッセルにおける Hadoop サミットでも、我々のビッグデータ サービス が大きく前進したことを発表しました。つまり、誰もがクラウド流ビッグデータを使用することができるようになったのです。
クラウド流ビッグデータで、もともとオンプレミス向けに作られた Hadoop、Spark、Flink やその他のオープンソース ツールが使えなくなる、といったことはありません。Google Cloud Storage や BigQuery へのネイティブ コネクタを介して、 Hadoop/Spark クラスタ自動デプロイメントを併用することにより、オープンソースが与える豊かなビッグデータ エコシステムを活用できることを保証しています。
Google BigQuery を使っている zulily は Big Data Webinar に最近参加し、彼らのクラウド流ビッグデータの経験と、運用コストを削減しながら、収益とビジネス全般の可視性を高めるのにどのように役立たせたかを発表しました。あなた自身の会社にもこうした利点をもたらすことに興味をお持ちであれば、公開データセットに対して最初のクエリを実行するか、あるいはご自身のデータをアップロードすることで今日から始めることができます。
下の図は、Google Cloud Platform のデータ処理サービスが相互関連している様子と、データのライフサイクルのすべての段階をサポートする様子を簡単に示したものです。
スキューバ機材は人間が海面下で活動するのに役立ちますが、海洋生物の効率性と俊敏性には遠く及びません。クラウドのビッグデータならば、スキューバダイバーではなく、イルカになれるのです。Google Cloud Platform は、クラウド用に構築されたパワフルでスケーラブルな、使いやすく、効率的な一連のビッグデータサービスを提供しています。これらソリューションをいち早く利用して、クラウド流ビッグデータを取り入れてみてください。
-Posted by William Vambenepe, Product Manager
ビッグデータで、ビジネス インサイトをより早くより的確に得られるようになるはずです。しかし多くの場合、インフラ プロジェクトになってしまいます。なぜでしょう。例えば、莫大な情報を収集した後、それらを相互に関連づけ、肉付けし、リアルタイムのインサイトを抽出しているとします。そうした作業には大量のリソース管理やシステム管理が必然的に伴うと考えるべきでしょうか。いいえ、クラウドではそうではありません。クラウド流にビッグデータを使うなら、その必要はないのです。
クラウド流ビッグデータとは、アプリケーション構築の際、インフラ基盤に気をとられることなく、より速く、より良いインサイトで、より生産的であることを意味します。具体的には:
- NoOps:クラウド プロバイダーは、拡張性と信頼性を高めるために、インフラのデプロイ、管理、アップグレードをして拡張性と信頼性を高める努力をすべきなのは、あなたではなくクラウド プロバイダーであるべきです。 “NoOps” とは、そうしたタスクや最適化をあなたに代わって行い、あなたはデータの値を理解したり利用したりすることに専念することができます。
- コスト パフォーマンス:”NoOps” ソリューションは、使いやすさや迅速さに加え、運用作業を省けるので明確なコストメリットが得られます。しかし、クラウド流ビッグデータではコスト効率はさらに先を行きます。自動スケールし、インフラ消費を最適化し、アイドル クラスタなどの未使用リソースを除去します。コスト / 性能分析に基づいてクエリ数や処理の待ち時間を上下させてコストを管理します。コストを調整するためにシステムを構築し直す必要はありません。
- 安全かつ容易なコラボレーション:Google Cloud Storage の中のファイルや Google BigQuery 中のテーブルのデータセットを、コピーしたりデータベースのアクセス権を付与したりすることなく、組織内外の協力者と共有することができます。データは、あなたがコントロールするものしか存在せず、仕事のパフォーマンスに影響を与えることなく、許可されたユーザーが(あなたに負担をかけずに)アクセスすることができます。
Google はビッグデータにおいて業界の先導的役割を果たしてきました。Google Cloud Platform を使うと、次のような特長も加わります:
- 最先端の機能:Google Cloud Dataflow はデフォルトで信頼性の高いストリーム処理を提供しましかし、ストリーム処理が高い信頼性で容易に実行できたとしても、バッチ実行のオプションを排除することにはなりません。同じパイプラインをバッチモードで実行することができて、その場合、コストを削減し、履歴データを分析することができます。大規模のストリーミングデータを一貫処理することが必ずしも複雑で脆弱ではないとしたら、最も重要な事例にとっては最適でしょう。
Google Cloud Platform は、データ分析を迅速に、安価で、容易に実行することによって上記の特性を提供します。ブリュッセルにおける Hadoop サミットでも、我々のビッグデータ サービス が大きく前進したことを発表しました。つまり、誰もがクラウド流ビッグデータを使用することができるようになったのです。
Google Cloud Dataflow のベータ版をリリース
今日では処理ロジックを見て欲求不満に陥るということはありません。ストリーミングかバッチモードかの選択が適用され、完全管理の処理サービスを介して実行されます。ただプログラムを書いてサブミットすれば、Cloud Dataflow が残りの作業をやってくれます。クラスタの管理は不要です。Cloud Dataflow が必要なリソースを開始し、(選択範囲内で)オートスケールし、作業が完了次第すぐに終了します。今すぐ始めてみてください。Google BigQuery の新機能
BigQuery は、典型的なクラウドネイティブ型の、SQL 分析のための API 駆動型サービスであり、新しいセキュリティ機能とパフォーマンス機能を備えています。例えば、行レベルのアクセス許可が導入されているため、データ共有がより容易かつ柔軟になっています。インジェスチョンの容易さ(デフォルトのインジェスチョン リミットを1 テーブルあたり毎秒 100,000 行に向上しました)、事実上無制限のストレージ、さらには巨大なデータセットのための優れたクエリ パフォーマンスのおかげで、BigQuery は、構造化データの保存、分析、共有のための理想的なプラットフォームとなっています。また、繰り返しレコードや、疎構造データに対する JSONオブジェクト内でのクエリもサポートしています。さらに、BigQuery は Google Cloud Platform の EU リージョンでのデータ格納オプション提供を開始しています。本オプションを使用するには、Google の技術サポートに連絡してください。総合 ビッグデータ サービス
Google Cloud Pub/Sub は完全なマネージド サービスとして、スケーラブルで信頼性が高く、高速なイベント配信を提供するように設計されています。 BigQuery ストリーミング インジェスチョンと Cloud Dataflow のストリーム処理とを併用することにより、低遅延データ処理に対するエンドツーエンドのサポートが完全になります。顧客行動、アプリケーション ログ、あるいは IoT イベントのいずれを処理するにしても、Google Cloud Platform はリアルタイムで処理することができます。すべてのスケーリングや管理などのタスクは Google Cloud Platform に任せてください。そうすれば、どのようにではなく、何を実行しなければならないかに集中することができます。クラウド流ビッグデータで、もともとオンプレミス向けに作られた Hadoop、Spark、Flink やその他のオープンソース ツールが使えなくなる、といったことはありません。Google Cloud Storage や BigQuery へのネイティブ コネクタを介して、 Hadoop/Spark クラスタ自動デプロイメントを併用することにより、オープンソースが与える豊かなビッグデータ エコシステムを活用できることを保証しています。
Google BigQuery を使っている zulily は Big Data Webinar に最近参加し、彼らのクラウド流ビッグデータの経験と、運用コストを削減しながら、収益とビジネス全般の可視性を高めるのにどのように役立たせたかを発表しました。あなた自身の会社にもこうした利点をもたらすことに興味をお持ちであれば、公開データセットに対して最初のクエリを実行するか、あるいはご自身のデータをアップロードすることで今日から始めることができます。
下の図は、Google Cloud Platform のデータ処理サービスが相互関連している様子と、データのライフサイクルのすべての段階をサポートする様子を簡単に示したものです。
-Posted by William Vambenepe, Product Manager
0 件のコメント :
コメントを投稿