Azure HDInsight クリックバイクリック ガイド: クラウドベースの Hadoop を今すぐ稼働させましょう

  • Oct 18, 2023

このギャラリーでは、プロビジョニング、ログイン、コマンド ラインでの作業、いくつかの基本ツールの使用、そして Excel と Power BI から HDInsight クラスター内のデータに接続する方法を示します。

HDInisght のセットアップの最初の数回のクリックは簡単です。まず、[新規] ボタン ([+] 記号として表示されます) をクリックします。 左上の [インテリジェンスと分析] カテゴリを選択し、最後に HDInsight を選択します。 自体。 これらの選択内容は、このスライドでは赤い四角形で強調表示されています。 後続のスライドにも同様に視覚的に注釈が付けられます。

HDInsight プロビジョニング "ブレード" が、Azure portal に次に表示されるものです。 ブレード内のいくつかのアイテムにより、右側に追加のブレードが開き、詳細が表示されます。 このギャラリーでは重要なものについて説明します。

まず、クラスターの名前を入力します。 接続に使用するインターネット ホスト名を表示するために ".azurehdinsight.net" が名前に追加されるため、この名前はすべての HDInsight クラスター間で一意である必要があります。

名前を入力すると、名前が一意性テストに合格すると、右側に緑色のチェック マークが表示されます。 入力が完了する前にチェックが表示されても問題ありません。 完了するまで文字を入力し続け、再度チェックマークが表示されることを確認してください。 代わりに赤い感嘆符が表示された場合は、クラスター名を変更する必要があることを意味します。

完了したら、フォームの「クラスター名」セクションの下にある「クラスター構成」セクションをクリックします。

ここで、希望する HDInsight クラスターの種類を指定し、選択した種類に応じて、使用する HDInsight (および Hadoop) のバージョンを選択する必要があります。 オペレーティング システムの選択が必要な場合もあります。 次の 2 つのスライドでは、クラスターの種類とオペレーティング システムのオプションについて説明します。

クラスター タイプの完全なリストは次のとおりです。 の ハドゥープ type はまさに、一般的な Hadoop タスク用に一般的な方法で構成されたクラスターです。 このクラスター タイプには、次のような他のコンポーネントが含まれます。

HBase (テーブルが Hadoop 分散ファイル システム ファイルである NoSQL データベース)、HBase の作業用に最適化されたクラスター タイプがあります。 3 番目のタイプは、ストリーミング データ アプリケーション用に最適化されています。 . 別のクラスター タイプは、として知られる分散インメモリ テクノロジの操作に特化しています。 スパーク、これには開発者の「ノートブック」も含まれていますが、これについては後ほど説明します。

Interactive Hive クラスター タイプはプレビュー段階にあり、新しいモードで作業できるようになります。 ハイブ 呼ばれた LLAP (長生きしてプロセス) これは、キャッシュとその他の最適化を使用して、開発チームが言うところの 1 秒未満のクエリ応答時間を実現します。 最後から 2 番目のクラスター タイプを使用すると、次を使用して Spark に対してコードを作成できます。 MicrosoftのRサーバー(MRS) 最後のタイプでは、次を使用してストリーミング データ アプリケーションを構築できます。 カフカ.

Hadoop、HBase、Storm、Spark、Hive、Kafka はすべて Apache ソフトウェア財団 オープンソースプロジェクト。

ビッグデータのより広い世界では、Hadoop は常に Linux 上で実行されます。 しかし、HDInsight の当初の名声は、Microsoft と Hortonworks が作成した Windows への移植であるということでした。 Microsoft は現在、どちらのオペレーティング システムでも動作する Hadoop を提供していますが、Linux が事実上のデフォルトとなっており、Windows では最後のスライドにリストされている最初の 3 種類のクラスターのみが使用可能です。

ここに示されているのは、OS として Linux が選択された、汎用 Hadoop クラスター タイプの選択です。 中央左で強調表示されている 5 つの機能は、この選択により使用可能になり、中央右で強調表示されている 1 つの機能は使用できないことに注意してください。

おそらく、OS として Linux を選択することで利用できる最も注目すべき機能は、「HDInsight アプリケーション」の機能です。 以来、 Hadoop エコシステムは完全に Linux に重点を置いており、多くのサードパーティ アプリケーションは、オープン ソースで実行される場合にのみ HDInsight と互換性があります。 OS。

HDInsight クラスターはインターネットに接続されたリソースになります。 そのため、許可された関係者のみが接続できるようにログイン認証情報を設定する必要があります。 実際には、2 セットの資格情報が必要になります。1 つはブラウザーベースの管理ツールと Hive データベースに接続するため、もう 1 つは SSH (Secure SHell) ターミナル セッションを確立するためです。

ポータルのこのブレードを使用すると、両方の資格情報ペアを指定できます。 ユーザー名を同じにすることはできず、両方のパスワードが複雑である必要があることに注意してください。 パスワードの文字と長さの要件を管理するルールは、2 つの資格情報ごとに異なります。 セット。

HDInsight クラスターのデータ ソース設定は最初は複雑に思えるかもしれませんが、非常に簡単な説明があります。 何が起こっているのかを明確にする: HDInsight の HDFS (Hadoop 分散ファイル システム) の実装は Azure BLOB に基づいています ストレージ。 そのため、クラスターの HDFS ボリュームを構成する Azure ストレージ アカウントと BLOB コンテナーを指定する必要があります。

既存のアカウントを使用することも、その場で新しいアカウントを作成することもできます。 ここで示すシナリオは、ユーザーが既に作成されている Azure ストレージ アカウントを使用するために [既存のものを選択] ボタンをクリックしようとしているシナリオです。

ストレージ アカウントを選択したら、クラスターのファイル ストレージに使用する新規または既存の BLOB コンテナーの名前をアカウント内に入力します。 既存のコンテナーを選択すると、新しいクラスターが、以前にプロビジョニング解除された HDInsight クラスターによって使用されていたストレージに再接続できるようになります。 強調表示された緑色のチェック マークに注目してください。これは、指定したコンテナ名が検証されたことを示します。 「選択」をクリックして次のプロビジョニング手順に進みます。

メインのプロビジョニング ブレードで [クラスター サイズ] をクリックして [価格設定] ブレードを開き、クラスターのサイズを変更できます。 具体的には、クラスター内のワーカー ノードの数を選択できます。 各ノードは個別の Azure 仮想マシンであるため、ノードの数が増えるほど、クラスターの実行コストが高くなります。 ワーカー ノードのデフォルトの数は 4 です。 必要に応じて、数値を上下に調整します。 クラスターを実行するための更新された 1 時間あたりのコストがブレードの中央に表示されます。 実践的な学習を目的としてクラスターを作成しているだけの場合は、クラスターのサイズを 1 ノードまたは 2 ノードに設定することをお勧めします。

オプションで、ヘッド ノードやワーカー ノードに使用する仮想マシン タイプを指定することもできます。 完了したら、「選択」ボタンをクリックして次に進みます。

あなたは今ゴールラインにいます! 新規または既存の Azure リソース グループの名前を指定し、プロビジョニングされたリソースをすべて含めるには、[ダッシュボードにピン留めする] チェックボックスをオンにし、準備ができたら [作成] ボタンをクリックします。 デフォルトの Hadoop クラスターの推定プロビジョニング時間は 20 分ですが、他のタイプの場合はさらに時間がかかる場合があることに注意してください。 したがって、[作成] をクリックした後は、少し休憩することができます。

ただし、開始する前に、ポータルがダッシュボードにリダイレクトするのを待ち、ここに示されているタイルが表示されるのを確認してください。 実際に作業が進行し、クラスターが構築されているという肯定的なフィードバックが得られます。 (前の手順で [ダッシュボードにピン留めする] チェックボックスをクリックしなかった場合、このタイルは表示されないことに注意してください。)

デプロイが完了すると、Azure 管理ポータルからこの画面にリダイレクトされます。 クラスター ダッシュボードを開いてクラスターをスケーリング (サイズ変更) するためのオプションや、ドキュメントや「クイックスタート」マテリアルへのリンクなど、利用可能な多くのオプションに注目してください。

画面中央の [クラスター ダッシュボード] ボタンをクリックすると、右上に [HDInsight クラスター ダッシュボード] ボタンが表示されます。 そのボタンをクリックして接続します アパッチ・アンバリ、HDInsight で使用されるオープン ソースの Hadoop 管理コンソール ソフトウェア。

Ambari に入る前に、資格情報を提供する必要があります。 クラスターをプロビジョニングするときに指定した最初のユーザー ID とパスワードのペアを使用します。 Azure 管理コンソールを使用せずに Ambari に戻りたい場合は、ブラウザーで https:// を指定するだけでよいことにも注意してください。.azurehdinsight.net、ここで プロビジョニング中にクラスターに割り当てた名前です (この場合は「bluebadgehdi」)。

チャレンジ ログイン ダイアログに資格情報を正しく入力したと仮定すると、Ambari のメイン画面が表示されるはずです。 このツールはクラスター管理用に設計されています (クラスター上で実行されているすべてのサービスのリストとパフォーマンス指標に注意してください) クラスター)、ここでの目的は、Hive 用に特別に設計された Ambari の「ビュー」を使用することです (これについては次で説明します)。 滑り台)。 このビューにアクセスするには、上部ナビゲーション バーの右側にある「三目並べ」アイコンをクリックし、「Hive ビュー」を選択します。

これまでは、HDInsight 環境全体が少し異質に感じられたかもしれませんが、今ではほぼすべての開発者やデータ担当者がくつろげるはずです。 これは、Hive が HDFS 上に実装された SQL ベースのデータベース システムにすぎず、この Hive ビューが、Hive の SQL 言語である HiveQL でクエリを入力および実行するためのワークスペースを提供するためです。

すべての HDInsight クラスターで、Hive は、論理的には次のように呼ばれるサンプル データの単一テーブルで事前構成されています。 「ハイブサンプル可能」 中央左の「データベース」タブで、「デフォルト」データベースのノードをドリルダウンすると、次のノードが表示されます。 hivesampletable が表示されます。 ワークシート ペインでは、テーブルに対して単純な SELECT * クエリを入力し、[実行] をクリックしてその構造と内容を確認できます。

少し待った後、結果セットが表示されます。 hivesampletable には、携帯電話と携帯電話と基地局との通信に関するデータ (オペレーティング システムなど) が含まれていることに注意してください。 電話機のメーカーとモデル (「deviceplatform」、「devicemake」、および「devicemodel」列)、タワーが設置されている州と国 位置 (「州」列と「国」列)、およびデバイスとタワー間の対話時間 (「クエリ滞留時間」) カラム)。

他の列が存在しますが、これらは私たちが最も興味を持っているものです。

画面の中央右にあるグラフ ボタンをクリックすると、クエリ結果をグリッド内のテキストとして表示するのではなくグラフ化できる画面が表示されます。 この場合、X 軸に deviceplatform、Y 軸に querydwelltime の SUM、視覚化タイプとして棒グラフを選択しました。

クラスターの管理コンソールに埋葬されている単純なクエリ機能には悪くありません!

チャートを手動で作成したくない場合は、左上にある [データ エクスプローラー] タブをクリックすると、代わりに自動生成された多数のチャートが表示されます。 生成されたチャートの一部は、他のチャートよりも便利です。

もちろん、クエリを実行する他の場所があります。 たとえば、Spark クラスター タイプのユーザーは、以下にアクセスできます。 ツェッペリン および/または ジュピター ノート。 ノートブックは、Wikiページ、コードエディター、コード出力のマッシュアップのようなものです。 Sparkクラスタータイプのユーザーは、ノートブックを使用して、ScalaまたはPythonでSparkに対するコードを書くことができます。

Zeppelin ノートブックは、プロビジョニング中に [クラスター構成] ブレードの [バージョン] ドロップダウンで [Spark 1.6.2 (HDI 3.5)] を選択すると使用できます。 このスライドでは、Zeppelin ノートブックの下部に小さな Python コードがあり、上部に Spark SQL コード (本質的には HiveQL) が示されています。 SQL クエリの出力は面グラフとして視覚化されています。

HDInsight に接続して操作するもう 1 つの方法は、コマンド ライン、SSH ターミナル セッション経由です。

Azure portal に戻り、左下の [Secure Shell (SSH)] ボタンをクリックし、 中央にある「クリックしてコピー」ボタンを使用して、SSH コマンド文字列をクリップボードにコピーします。 画面。

クリップボードにコピーしたコマンド文字列は、Mac のターミナル ウィンドウまたは Linux コマンド プロンプトでそのまま機能します。 Windows 10 を実行していて、その新しい Windows Subsystem for Linux (プレビュー機能) をインストールしている場合は、ここに示すように、Bash on Ubuntu on Windows プロンプトでコマンドを直接使用することもできます。

Windows 10 より前のバージョンの Windows を実行している場合、または Windows 10 用の Windows サブシステムがない場合 Linux がインストールされている場合は、コマンド ライン文字列全体ではなく、ポータルから SSH ホスト名のみをコピーします。 その後、 パテ Windows 用のアプリケーションを作成し、そこで SSH 接続を起動します。

このスクリーン キャプチャからわかるように、コマンド文字列を貼り付けて SSH パスワードを入力します ( 2番 入力した資格情報のセット) を使用すると、HDInsight クラスターのヘッド ノード上の Linux コマンド プロンプトが表示されます。 そこから、さまざまなサービスのコマンド ライン インターフェイスを使用して、さまざまなタスクを実行できます。

クラスター上で MapReduce ジョブを実行したいですか? SSH 経由で実行するのがおそらく最も簡単な方法です。 ここに示すコマンドは、/example/data/gutenberg/davinci.txt を入力ファイルとして、/example/data/WordCountOutput を出力フォルダーとして使用して、WordCount MapReduce サンプルを実行します。

同じ SSH 接続経由で表示された、MapReduce ジョブのジョブ実行出力を次に示します。 ジョブのマップ ステップとリデュース ステップの両方の連続する進行状況メッセージに注目してください。

PowerShell コマンドレットは Microsoft サービスであるため、クラスターのプロビジョニングやジョブの実行など、HDInsight の操作のあらゆる側面で使用できます。 ここに示すコードは、PowerShell ISE で、SSH セッションで確認したのと同じ MapReduce ジョブを実行します。

Hive は、Hadoop 内のデータに対する SQL インターフェイスを提供するだけでなく、ODBC (および JDBC) 上でも機能します。 つまり、外部 BI ツールを使用して、または Excel のみを使用して Hive データに接続できるということです。

ここでは、Excel 2016 for Windows から ODBC 経由で Hive への接続を設定する最初の手順を示します ([データ]、[新しいクエリ]、[他のソースから]、[ODBC から] をクリックした後)。 次のことを行う必要があります Microsoft Hive ODBC ドライバーをダウンロードする これを行う前に。 また、インストーラーが設定するデータ ソース名 (DSN) を構成して、それを指すようにする必要があります。 クラスターにアクセスし、作成中に作成した 2 つの資格情報セットのうちの最初の資格情報セットで認証します。 プロビジョニング。

Hive サーバーに接続したら、Excel の [ナビゲーター] ダイアログの左側にあるさまざまなツリー ノードをドリルダウンして、関心のあるテーブル (この例では hivesampletable) のノードを表示します。 右側にデータのプレビューが表示され、[読み込み] ボタンをクリックしてデータを Excel ワークブックに取り込むことができます。

しばらく時間がかかりますが、最終的には Hive データがスプレッドシートに直接読み込まれます。 右側の [ワークブック クエリ] 作業ウィンドウに注目してください。これには、データの読み込み中のデータ取得の進行状況と、読み込みが完了したときの最終的な行数が表示されます。 必要に応じて、「x」をクリックして作業ウィンドウを閉じます。 通常のスプレッドシート データと同じようにデータを操作できるようになりました。 そこからグラフを作成することもできます。

グラフと言えば、Power BI Desktop ( 無料ダウンロード for Windows) は、Excel とほぼ同じ手順で ODBC 経由で Hive に接続することもできます。 ここでは、hivesampletable データに対する完全な Power BI レポート ページを示します。 Tableau や Qlik などの他の BI ツールは、ここで Excel や Power BI について示したのと同様の方法で、Hive に接続し、そのデータを視覚化できます。

これで私たちのツアーは終わりです。 以前に Hadoop を使用したことがある場合は、プロビジョニング後に見られるものの多くに見覚えがあるかもしれません。 他の部分は新品だったかもしれません。 いずれにせよ、これで、HDInsight を使用してクラウドでビッグ データ分析を行う準備が整ったはずです。