Cloudera는 SQL을 통해 스트리밍 플랫폼의 격차를 메웁니다.

  • Sep 02, 2023

Cloudera는 SQL 기반 실시간 스트리밍 분석을 제공하는 대열에 합류한 최신 제품입니다.

다람쥐.jpg

가장 최근 이후 6개월 미만 인수, 클라우데라 SQL 기반 이벤트 스트림 처리로 Dataflow 스트리밍 통합 플랫폼을 채우고 있습니다. 클라우데라 출시 SQL 스트림 빌더, 추가 내용 Cloudera 데이터플로우 SQL 처리를 지원하는 스트리밍 통합 플랫폼입니다. SQL 개발자가 스트리밍 데이터를 쿼리할 수 있는 진입점을 제공한다는 점에서 Cloudera 스트리밍 플랫폼의 공백을 메웁니다. 이전에는 Java, Scala 또는 Python 프로그래머만 Cloudera Dataflow에 액세스할 수 있었습니다.

Cloudera의 SQL 스트리밍 엔진은 다음을 사용합니다. 아파치 플링크 덮개 아래. SQL Stream Builder는 에지 처리, 실시간 데이터 수집을 포함하고 다음과 같은 다른 스트리밍 엔진에 대한 지원을 포함하는 Cloudera Dataflow에 추가됩니다. 카프카 스트림, 스파크 스트리밍, 그리고 네, 심지어 아파치 스톰 (Hortonworks 시절로 거슬러 올라가 현재는 비활성화된 오픈 소스 프로젝트입니다.) Kafka와 양방향으로 통합하여 Kafka 주제에서 피드를 가져오거나 Kafka를 통해 게시할 수 있는 뷰를 생성할 수 있습니다.

기능에는 구문 검사, 오류 보고, 스키마 감지, 쿼리 생성, 샘플링 결과 및 REST API 또는 PostgreSQL 연결을 통해 액세스할 수 있는 구체화된 뷰를 포함할 수 있는 출력 생성 규약. JSON 데이터 소스에서 스키마를 자동으로 감지할 수 있습니다.

SQL Stream Builder를 통해 Cloudera는 Flink 기반 스트리밍 분석 서비스를 제공하는 최신 제품입니다. 우리는 질문을 던졌다 몇 년 전 세상에 또 다른 스트리밍 엔진이 필요한지 여부에 대해 논의했습니다. Apache Spark와 비슷한 시기에 등장한 후자는 가장 큰 주목을 받았습니다. 둘 다 서로의 역 미러 이미지입니다. Spark는 마이크로배칭용으로 설계되었으며 스트림 처리를 지원하도록 확장된 반면 Flink는 정반대입니다. Spark 지원은 데이터 변환을 통해 널리 확산되었지만 지난 몇 년 동안 Flink는 스트리밍용으로 제작된 최초의 오픈 소스 엔진 중 하나였기 때문에 조용히 주목을 받아 왔습니다. 그만큼

플링크 다람쥐 드디어 15분 동안 명성을 얻었습니다.

예를 들어 AWS는 Flink를 기본 스트리밍 엔진으로 사용합니다. Amazon Kinesis 데이터 분석, Cloudera가 출시하는 서비스와 가장 가까운 SQL 스트리밍 서비스입니다. 다른 Flink 기반 서비스는 다음과 같습니다. 베르베리카 (이전의 Data Artisans, 현재 Alibaba 소유)는 Flink를 만든 팀에서 나왔습니다. 이들 제품은 SQL의 하위 집합만 다루는 Flink SQL을 사용합니다. Cloudera의 SQL 사용 아파치 방해석, 이벤트 시간 기반 기능이 Kafka와 통합되어 있습니다.

Cloudera는 통합, 구문 분석, 필터링 및 분석을 위한 수십 가지 제품이 있는 상당히 성숙한 시장 환경에 합류했습니다. 오픈 소스 및 독점 엔진과 프로그래밍 방식 접근 방식이 필요한 쿼리 엔진으로 구분된 이벤트 또는 연속 스트림 SQL. SQL의 경우 걸림돌은 대부분의 경우 독점 추가 기능을 통해 추가된 슬라이딩 윈도우 기능으로 언어를 확장해야 한다는 점이었습니다.

그럼에도 불구하고 스트리밍 데이터에 대한 SQL 쿼리는 2000년대 초반의 독점 이벤트 스트림 처리 엔진만큼 오래되었습니다. 계속해서 살아남아라. 자본 시장, 운송 회사 및 제조업체가 이벤트 처리의 초기 흐름을 주도했습니다. 그 당시에는 독점 이벤트 처리 엔진과 독점 쿼리 언어를 기반으로 한 제품인 "복합 이벤트 처리"라고 불렸습니다. 그 당시 SQL은 나중에 추가된 것이었습니다. 이러한 초기 이벤트 처리 구현에는 비용이 많이 들고 전문 기술이 필요했으며 데이터와 컴퓨팅 비용도 많이 들었습니다.

그 이후로 대역폭, 장치는 폭발적으로 증가했으며 클라우드 컴퓨팅을 통해 대규모 실시간 처리에 액세스할 수 있고 훨씬 더 저렴해졌습니다. IoT 장치, 소셜 네트워크, 온라인 상거래 허브 및 공공 디지털 인프라에서 발생하는 대규모 실시간 이벤트는 상거래에서 자본 시장, 물류, 공공 안전에 이르기까지 다양한 사용 사례의 긴급성, 그리고 현재 코로나19 상황에서는 실시간으로 역학. 오늘날에는 오픈 소스와 독점을 모두 갖춘 수십 개의 스트리밍 기술 플랫폼이 있습니다.

이러한 환경에서 Cloudera는 여러 스트리밍 플랫폼을 지원하여 Dataflow를 차별화합니다. 몇 초에서 몇 분까지 지연 시간이 덜 까다로운 시나리오에는 Spark Streaming을 권장합니다. 마이크로서비스를 기반으로 구축되어 짧은 대기 시간이 필요한 애플리케이션을 위한 Kafka Streams Flink는 고급 시간 창 기능을 통해 대기 시간이 짧은 상태 저장 애플리케이션을 지원합니다. Flink는 상태 저장 사용 사례에 적합하므로 SQL 개발자가 일반적으로 작업하는 애플리케이션과 논리적으로 일치합니다. 적어도 지금은 Cloudera Dataflow가 마침내 SQL 사용자를 위한 진입로를 확보했습니다.

공개: Cloudera는 dbInsight 클라이언트입니다.

빅 데이터

귀하가 데이터 침해에 연루되었는지 확인하는 방법(그리고 다음에 해야 할 일)
AI의 편견과의 싸움은 데이터에서 시작됩니다
공정한 예측? 180명의 기상학자가 '충분히 좋은' 날씨 데이터를 제공하는 방법
암 치료법은 어지러울 정도로 많은 양의 데이터에 의존합니다. 클라우드에서 정렬되는 방법은 다음과 같습니다.
  • 귀하가 데이터 침해에 연루되었는지 확인하는 방법(그리고 다음에 해야 할 일)
  • AI의 편견과의 싸움은 데이터에서 시작됩니다
  • 공정한 예측? 180명의 기상학자가 '충분히 좋은' 날씨 데이터를 제공하는 방법
  • 암 치료법은 어지러울 정도로 많은 양의 데이터에 의존합니다. 클라우드에서 정렬되는 방법은 다음과 같습니다.