Azure HDInsight 클릭별 가이드: 지금 클라우드 기반 Hadoop을 시작하고 실행하세요.

  • Oct 21, 2023

이 갤러리에서는 명령줄에서 프로비전, 로그인, 작업하고 몇 가지 기본 도구를 사용한 다음 Excel 및 Power BI에서 HDInsight 클러스터의 데이터에 연결하는 방법을 보여줍니다.

HDInisght 설정 시 처음 몇 번의 클릭은 쉽습니다. 먼저 "새로 만들기" 버튼("+" 기호로 렌더링됨)을 클릭합니다. 왼쪽 상단에서 "Intelligence and Analytics" 범주를 선택하고 마지막으로 HDInsight를 선택합니다. 그 자체. 이러한 선택 사항은 이 슬라이드에서 빨간색 직사각형으로 강조 표시됩니다. 후속 슬라이드에도 시각적으로 주석이 추가됩니다.

HDInsight 프로비저닝 "블레이드"는 Azure Portal에 표시되는 다음 항목입니다. 블레이드에 있는 여러 항목을 사용하면 오른쪽에 세부 정보를 볼 수 있는 추가 블레이드가 열립니다. 우리는 이 갤러리에서 중요한 것들을 살펴보겠습니다.

클러스터 이름을 입력하여 시작하세요. 이름은 모든 HDInsight 클러스터에서 고유해야 합니다. 연결하는 데 사용할 인터넷 호스트 이름을 렌더링하기 위해 ".azurehdinsight.net"이 이름에 추가되기 때문입니다.

이름을 입력한 후 이름이 고유성 테스트를 통과하면 오른쪽에 녹색 확인 표시가 나타납니다. 입력이 끝나기 전에 확인 표시가 나타나면 괜찮습니다. 완료될 때까지 문자를 계속 입력한 다음 확인 표시가 다시 나타나는지 확인하세요. 대신 빨간색 느낌표가 표시되면 클러스터 이름을 수정해야 한다는 의미입니다.

완료되면 양식의 "클러스터 이름" 섹션 아래에 있는 "클러스터 구성" 섹션을 클릭하세요.

이제 원하는 HDInsight 클러스터 유형을 지정한 다음 선택한 유형에 따라 사용하려는 HDInsight(및 Hadoop) 버전을 선택해야 합니다. 운영 체제를 선택해야 할 수도 있습니다. 다음 두 슬라이드에서는 클러스터 유형과 운영 체제 옵션을 살펴보겠습니다.

클러스터 유형의 전체 목록은 다음과 같습니다. 그만큼 하둡 유형은 일반적인 Hadoop 작업을 위해 일반적인 방식으로 구성된 클러스터입니다. 해당 클러스터 유형에는 다음을 포함한 다른 구성 요소가 포함되어 있습니다.

H베이스 (테이블이 Hadoop 분산 파일 시스템 파일인 NoSQL 데이터베이스) 그럼에도 불구하고 HBase 작업에 최적화된 클러스터 유형이 있습니다. 세 번째 유형은 다음을 사용하는 스트리밍 데이터 애플리케이션에 최적화되어 있습니다. 폭풍. 또 다른 클러스터 유형은 다음과 같은 분산 인메모리 기술을 사용하도록 설계되었습니다. 불꽃, 여기에는 나중에 살펴보게 될 개발자 "노트북"도 포함됩니다.

Interactive Hive 클러스터 유형은 미리 보기 상태이며 새로운 모드로 작업할 수 있습니다. 하이브 ~라고 불리는 LLAP(라이브 롱 앤 프로세스) 캐싱 및 기타 최적화를 사용하여 개발 팀이 말하는 1초 미만의 쿼리 응답 시간을 제공합니다. 두 번째 클러스터 유형을 사용하면 다음을 사용하여 Spark에 대해 코딩할 수 있습니다. 마이크로소프트의 R 서버(MRS) 제품이며 마지막 유형을 사용하면 다음을 사용하여 스트리밍 데이터 애플리케이션을 구축할 수 있습니다. 카프카.

Hadoop, HBase, Storm, Spark, Hive 및 Kafka는 모두 아파치 소프트웨어 재단 오픈 소스 프로젝트.

더 넓은 빅 데이터 세계에서 Hadoop은 항상 Linux에서 실행됩니다. 그러나 HDInsight의 명성에 대한 원래 주장은 Microsoft와 Hortonworks가 제작한 Windows용 포트라는 것이었습니다. Microsoft는 이제 두 운영 체제 중 하나에서 실행되는 Hadoop을 제공하지만 이제 Linux가 사실상 기본값이며 마지막 슬라이드에 나열된 처음 세 가지 클러스터 유형만 Windows에서 사용할 수 있습니다.

다음 그림은 Linux를 OS로 선택한 일반 Hadoop 클러스터 유형을 선택하는 모습입니다. 이 선택으로 인해 사용할 수 있는 왼쪽 중앙에 강조 표시된 5가지 기능과 오른쪽 중앙에 강조 표시된 한 가지 기능은 그렇지 않습니다.

Linux를 OS로 선택하여 사용할 수 있는 가장 주목할만한 기능은 아마도 "HDInsight 응용 프로그램"일 것입니다. 이후 Hadoop 에코시스템은 완전히 Linux에 중점을 두고 있으며 많은 타사 애플리케이션은 오픈 소스에서 실행되는 경우에만 HDInsight와 호환됩니다. OS.

HDInsight 클러스터는 인터넷 연결 리소스가 됩니다. 따라서 승인된 당사자만 연결할 수 있도록 로그인 자격 증명을 설정해야 합니다. 실제로 두 가지 자격 증명 세트가 필요합니다. 하나는 브라우저 기반 관리 도구 및 Hive 데이터베이스에 연결하기 위한 것이고, 다른 하나는 SSH(Secure SHell) 터미널 세션을 설정하기 위한 것입니다.

포털의 이 블레이드를 사용하면 두 자격 증명 쌍을 모두 지정할 수 있습니다. 사용자 이름은 동일할 수 없으며 둘 다 복잡한 비밀번호를 가져야 하지만 특정 사용자 이름은 비밀번호 문자 및 길이 요구 사항을 관리하는 규칙은 두 자격 증명 각각에 대해 다릅니다. 세트.

HDInsight 클러스터에 대한 데이터 원본 설정은 처음에는 복잡해 보일 수 있지만 매우 간단한 설명이 있습니다. 무슨 일이 일어나고 있는지 명확히 하세요. HDInsight의 HDFS(Hadoop 분산 파일 시스템) 구현은 Azure Blob을 기반으로 합니다. 저장. 따라서 클러스터의 HDFS 볼륨을 구성할 Azure Storage 계정과 Blob 컨테이너를 지정해야 합니다.

기존 계정을 사용하거나 즉시 새 계정을 만들 수 있습니다. 여기에 표시된 시나리오는 사용자가 이미 생성된 Azure Storage 계정을 사용하기 위해 "기존 선택" 단추를 클릭하려고 하는 시나리오입니다.

스토리지 계정을 선택한 후 클러스터의 파일 스토리지에 사용할 계정 내 새 Blob 컨테이너 또는 기존 Blob 컨테이너의 이름을 입력합니다. 기존 컨테이너를 선택하면 새 클러스터가 이전에 프로비전 해제된 HDInsight 클러스터에서 사용하는 스토리지에 다시 연결할 수 있습니다. 강조 표시된 녹색 확인 표시를 확인하세요. 이는 지정한 컨테이너 이름이 검증되었음을 나타냅니다. 이제 "선택"을 클릭하여 다음 프로비저닝 단계로 이동하세요.

기본 프로비저닝 블레이드에서 "클러스터 크기"를 클릭하여 클러스터 크기를 조정할 수 있는 "가격 책정" 블레이드를 엽니다. 특히 클러스터의 작업자 노드 수를 선택할 수 있습니다. 각 노드는 별도의 Azure 가상 머신이므로 노드가 많을수록 클러스터를 실행하는 데 더 많은 비용이 듭니다. 작업자 노드의 기본 수는 4입니다. 필요에 따라 숫자를 위아래로 조정하세요. 클러스터를 실행하기 위해 업데이트된 시간당 비용이 블레이드 중앙에 표시됩니다. 실습 목적으로 클러스터를 생성하는 경우 노드 1~2개로 크기를 조정할 수 있습니다.

선택적으로 헤드 노드 및/또는 작업자 노드에 사용할 가상 머신 유형을 지정할 수도 있습니다. 완료되면 "선택" 버튼을 클릭하여 계속 진행하세요.

이제 결승선에 와있습니다! 프로비전된 모든 리소스를 포함하려면 새 Azure 리소스 그룹 또는 기존 Azure 리소스 그룹의 이름을 지정하고 "대시보드에 고정" 확인란을 선택한 다음, 준비가 되면 "만들기" 버튼을 클릭하세요. 기본 Hadoop 클러스터의 예상 프로비저닝 시간은 20분이며 다른 유형은 더 오래 걸릴 수 있습니다. 따라서 "만들기"를 클릭한 후 잠시 휴식을 취할 수 있습니다.

하지만 이동하기 전에 포털이 대시보드로 리디렉션될 때까지 기다렸다가 여기에 표시된 타일이 표시되는지 확인하세요. 작업이 실제로 진행 중이고 클러스터가 구축되고 있다는 긍정적인 피드백을 제공합니다. (이전 단계에서 '대시보드에 고정' 확인란을 클릭하지 않은 경우 이 타일은 나타나지 않습니다.)

배포가 완료되면 Azure 관리 포털이 이 화면으로 리디렉션됩니다. 클러스터 대시보드 열기 및 클러스터 확장(크기 조정)을 위한 옵션과 문서 및 "빠른 시작" 자료에 대한 링크를 포함하여 사용 가능한 다양한 옵션을 확인하세요.

화면 중앙에 있는 "클러스터 대시보드" 버튼을 클릭하면 오른쪽 상단에 "HDInsight 클러스터 대시보드" 버튼이 나타납니다. 해당 버튼을 클릭하시면 연결됩니다 아파치 암바리, HDInsight에서 사용하는 오픈 소스 Hadoop 관리 콘솔 소프트웨어입니다.

Ambari에 들어가려면 먼저 자격 증명을 제공해야 합니다. 클러스터를 프로비저닝할 때 지정한 첫 번째 사용자 ID 및 비밀번호 쌍을 사용하십시오. 또한 Azure 관리 콘솔을 사용하지 않고 Ambari로 돌아가려면 브라우저에서 https://를 가리키기만 하면 됩니다..azurehdinsight.net, 여기서 프로비저닝 중에 클러스터에 할당한 이름입니다(이 경우 "bluebadgehdi").

인증 확인 로그인 대화 상자에 자격 증명을 올바르게 입력했다고 가정하면 이제 기본 Ambari 화면이 표시됩니다. 이 도구는 클러스터 관리용으로 설계되었지만(클러스터에서 실행되는 모든 서비스에 대한 목록 및 성능 표시기에 유의하십시오) 클러스터), 여기서 우리의 목적은 특별히 Hive용으로 설계된 Ambari "뷰"를 사용하는 것입니다(다음에서 설명하겠습니다). 미끄러지 다). 상단 탐색 모음 오른쪽에 있는 "tic tac toe" 아이콘을 클릭한 다음 "Hive 보기"를 선택하면 해당 보기에 액세스할 수 있습니다.

지금까지는 전체 HDInsight 환경이 약간 낯설게 느껴졌을 수도 있지만 이제는 거의 모든 개발자나 데이터 담당자가 집처럼 느낄 수 있습니다. Hive는 HDFS에 구현된 SQL 기반 데이터베이스 시스템에 지나지 않으며, 이 Hive 보기는 Hive의 SQL 방언인 HiveQL에서 쿼리를 입력하고 실행하기 위한 작업 공간을 제공하기 때문입니다.

모든 HDInsight 클러스터에서 Hive는 논리적으로 다음과 같은 단일 샘플 데이터 테이블로 미리 구성되어 있습니다. "하이브 샘플링 가능." 왼쪽 중앙에 있는 데이터베이스 탭에서 "기본" 데이터베이스 노드를 드릴다운하면 다음에 대한 노드가 표시됩니다. hivesampletable이 나타납니다. 워크시트 창에서 테이블에 대해 간단한 SELECT * 쿼리를 입력하고 "실행"을 클릭하여 해당 구조와 내용을 볼 수 있습니다.

잠시 후에 결과 세트가 나타납니다. hivesampletable에는 운영 체제를 포함하여 휴대폰 및 휴대폰 기지국과의 통신과 관련된 데이터가 포함되어 있습니다. 휴대전화 제조업체 및 모델('deviceplatform', 'devicemake' 및 'devicemodel' 열), 타워가 위치한 주 및 국가 위치("주" 및 "국가" 열) 및 장치와 타워 간의 상호 작용 기간("querydwelltime") 열).

다른 열도 있지만 이것이 우리가 가장 관심을 가질 열입니다.

화면 중앙 오른쪽에 있는 차트 버튼을 클릭하면 쿼리 결과를 그리드의 텍스트로 보는 대신 그래프로 볼 수 있는 화면으로 이동합니다. 이 경우 x축에는 deviceplatform을, y축에는 SUM of querydwelltime을, 시각화 유형으로는 막대 차트를 선택했습니다.

클러스터의 관리 콘솔에 묻혀 있는 간단한 쿼리 기능도 나쁘지 않습니다!

수동으로 차트를 작성하고 싶지 않은 경우 왼쪽 상단의 "데이터 탐색기" 탭을 클릭하면 자동으로 생성된 여러 차트를 볼 수 있습니다. 생성된 차트 중 일부는 다른 차트보다 더 유용합니다.

물론 쿼리를 실행할 수 있는 다른 장소도 있습니다. 예를 들어 Spark 클러스터 유형의 사용자는 다음에 액세스할 수 있습니다. 제플린 및/또는 주피터 노트북. 노트북은 일종의 위키 페이지, 코드 편집기 및 코드 출력의 매시업입니다. Spark 클러스터 유형의 사용자는 노트북을 사용하여 Scala 또는 Python에서 Spark에 대한 코드를 작성할 수 있습니다.

프로비저닝 중에 "클러스터 구성" 블레이드의 "버전" 드롭다운에서 "Spark 1.6.2(HDI 3.5)"를 선택하면 Zeppelin 노트북을 사용할 수 있습니다. 이 슬라이드는 아래쪽에 약간의 Python 코드가 있고 위쪽에 일부 Spark SQL 코드(기본적으로 HiveQL)가 있는 Zeppelin 노트북을 보여줍니다. SQL 쿼리의 출력은 영역 차트로 시각화되었습니다.

HDInsight에 연결하고 작업하는 또 다른 방법은 SSH 터미널 세션을 통해 명령줄을 사용하는 것입니다.

Azure Portal로 돌아가 왼쪽 하단에 있는 "보안 셸(SSH)" 버튼을 클릭한 다음 "복사하려면 클릭" 버튼을 사용하여 클립보드에 SSH 명령 문자열을 삽입하세요. 화면.

클립보드에 복사한 명령 문자열은 Mac의 터미널 창이나 Linux 명령 프롬프트에서 있는 그대로 작동합니다. Windows 10을 실행 중이고 새로운 Linux용 Windows 하위 시스템(미리 보기 기능)을 설치한 경우 여기에 표시된 대로 Windows의 Ubuntu의 Bash 프롬프트에서 직접 명령을 사용할 수도 있습니다.

Windows 10 이전 버전의 Windows를 실행 중이거나 Windows 하위 시스템이 없는 경우 Linux가 설치된 경우 전체 명령줄 문자열이 아닌 포털에서 SSH 호스트 이름만 복사하세요. 그런 다음 다운로드할 수 있습니다. 퍼티 Windows용 애플리케이션을 실행하고 거기에서 SSH 연결을 시작합니다.

이 화면 캡처에서 볼 수 있듯이 명령 문자열을 붙여넣고 SSH 비밀번호를 입력합니다( 두번째 입력한 자격 증명 집합)을 사용하면 HDInsight 클러스터의 헤드 노드에 있는 Linux 명령 프롬프트로 이동됩니다. 여기에서 다양한 서비스의 명령줄 인터페이스를 사용하여 다양한 작업을 수행할 수 있습니다.

클러스터에서 MapReduce 작업을 실행하고 싶으십니까? SSH를 통해 수행하는 것이 아마도 가장 쉬운 방법일 것입니다. 여기에 표시된 명령은 /example/data/gutenberg/davinci.txt를 입력 파일로 사용하고 /example/data/WordCountOutput을 출력 폴더로 사용하여 WordCount MapReduce 샘플을 실행합니다.

다음은 동일한 SSH 연결을 통해 본 MapReduce 작업의 작업 실행 출력입니다. 작업의 맵 단계와 축소 단계 모두에 대한 연속 진행 상태 메시지를 확인하세요.

Microsoft 서비스이므로 클러스터 프로비저닝 및 작업 실행을 포함하여 HDInsight 작업의 모든 측면에 PowerShell Commandlet을 사용할 수 있습니다. 여기에 표시된 PowerShell ISE의 ​​코드는 방금 SSH 세션에서 본 것과 동일한 MapReduce 작업을 실행합니다.

Hive는 Hadoop의 데이터에 대한 SQL 인터페이스를 제공할 뿐만 아니라 ODBC(및 JDBC)에서도 작동합니다. 즉, 외부 BI 도구나 Excel만 사용하여 Hive 데이터에 연결할 수 있습니다.

여기에 표시된 것은 Windows용 Excel 2016에서 ODBC를 통해 Hive에 대한 연결을 설정하는 첫 번째 단계입니다(데이터/새 쿼리/기타 소스에서/ODBC에서를 클릭한 후). 당신은해야합니다 Microsoft Hive ODBC 드라이버 다운로드 당신이 이것을 할 수 있기 전에. 또한 설치 프로그램이 설정하는 데이터 소스 이름(DSN)을 구성하여 이를 가리켜야 합니다. 클러스터를 생성하고 생성한 두 개의 자격 증명 세트 중 첫 번째로 인증합니다. 프로비저닝.

Hive 서버에 연결되면 Excel 탐색기 대화 상자 왼쪽에 있는 다양한 트리 노드를 드릴다운하여 관심 있는 테이블의 노드를 표시합니다(이 경우 hivesampletable). 오른쪽에 데이터 미리보기가 표시되며 "로드" 버튼을 클릭하여 데이터를 Excel 통합 문서로 가져올 수 있습니다.

시간이 좀 걸리겠지만 결국 Hive 데이터가 스프레드시트에 직접 로드됩니다. 데이터가 로드되는 동안 데이터 검색 진행 상황과 로드가 완료되면 최종 행 수를 나타내는 오른쪽의 통합 문서 쿼리 작업창을 확인하세요. 원하는 경우 "x"를 클릭하여 작업창을 닫습니다. 이제 일반 스프레드시트 데이터처럼 데이터를 조작할 수 있습니다. 당신은 또한 그것으로부터 차트를 만들 수 있습니다.

차트에 관해 말하면 Power BI Desktop( 무료 다운로드 Windows의 경우) Excel에서 사용된 것과 거의 동일한 절차를 사용하여 ODBC를 통해 Hive에 연결할 수도 있습니다. hivesampletable 데이터에 대한 전체 Power BI 보고서 페이지가 여기에 표시됩니다. Tableau 및 Qlik과 같은 다른 BI 도구는 여기 Excel 및 Power BI에 대해 설명한 것과 유사한 방식으로 Hive에 연결하고 해당 데이터를 시각화할 수 있습니다.

그것이 우리 여행의 끝입니다. 이전에 Hadoop을 사용해 본 적이 있다면 프로비저닝 이후에 본 내용의 대부분이 친숙해 보였을 것입니다. 다른 부분은 새 것일 수도 있습니다. 그럼에도 불구하고 이제 HDInsight를 사용하여 클라우드에서 빅 데이터 분석을 수행할 준비가 되었습니다.