Apache Kafka가 큰 데이터를 위해 바퀴를 윤활하게 만드는 방법

2024

Bvrnout x VOVIII - Apache

애널리틱스는 대용량 데이터와 관련된 가장 큰 문제 중 하나라고 종종 말합니다.하지만이 단계가 실행되기 전에도 데이터를 수집하여 엔터프라이즈 사용자가 사용할 수 있어야합니다. Apache Kafka가 등장합니다.

원래 LinkedIn에서 개발 된 Kafka는 웹 사이트, 응용 프로그램 및 센서의 실시간 데이터 스트림을 관리하기위한 오픈 소스 시스템입니다.

기본적으로 Kafka는 일종의 엔터프라이즈 역할을합니다. 예를 들어 사용자 활동, 로그, 애플리케이션 지표, 주식 시세 및 장치 계기와 같은 사안에 대한 대량의 데이터를 수집하고이를 기업 사용자가 소비 할 수있는 실시간 스트림으로 사용할 수 있도록하는 "중추 신경계 (central nervous system) 추가 읽기 : 최고의 백색 LED 전구] 카프카는 온 - 프레미스 구현을 위해 ActiveMQ 또는 RabbitMQ와 같은 기술에, 또는 클라우드 고객을 위해 Amazon Web Services의 Kinesis와 종종 비교되는 것으로, 공동 설립자 인 Stephen O'Grady가 말했습니다 레드 몰크 (RedMonk)의 수석 애널리스트.

"높은 품질의 오픈 소스 프로젝트이기 때문에 더 눈에 띄게되지만 또한 고속 정보 흐름을 처리 할 수있는 능력이 IoT, "카프카는 LinkedIn에서 잉태 된 이후로 Netflix, Uber, Cisco 및 Goldman Sachs와 같은 회사로부터 높은 평가를 받았다. IBM의 새로운 스트리밍 애널리틱스 (Streaming Analytics) 서비스는 1 밀리 초 (sub-millisecond) 이하의 응답 시간 동안 초당 수백만 건의 이벤트를 분석하는 것을 목표로하고 있으며, IBM의 새로운 스트리밍 애널리틱스 서비스는 브리미스 플랫폼을 통해 두 가지 새로운 카프카 기반 서비스를 사용할 수 있다고 발표했다. 즉각적인 의사 결정. 현재 베타 버전 인 IBM Message Hub는 REST 또는 Apache Kafka API (응용 프로그램 프로그래밍 인터페이스)를 사용하여 다른 응용 프로그램과 통신 할 수있는 옵션을 사용하여 클라우드 응용 프로그램을위한 확장 가능한 분산, 높은 처리량의 비동기 메시징을 제공합니다.

Kafka는 작년에 카프카 (Kafka)의 제작자 중 3 명은 기업이 대규모 생산 단계에서 제품을 사용하도록 돕는 신생 기업인 '컨 플루트 (Confluent)'를 시작했습니다. "

"LinkedIn의 폭발적인 성장 단계에서 우리는 성장하는 사용자 Kafka의 창작자이자 Confluent의 공동 창립자 중 한명 인 Neha Narkhede는 말합니다. "Kafka가 할 수있는 것은 회사 전체에서 데이터를 이동 시켜서 만들 수 있습니다. "라고 Narkhede는 설명했다. "그리고 규모면에서 그렇게합니다."LinkedIn의 영향은 "변형 적"이라고 그녀는 말했습니다. 현재 LinkedIn은 생산 단계에서 카프카 (Kafka)의 가장 큰 배치입니다. 또한 하루에 1.1 조개 이상의 메시지를 처리합니다.

한편, Confluent는 대기업이 생산 시스템을 위해 카프카를 운영 할 수 있도록 가입으로 고급 관리 소프트웨어를 제공합니다. Narkhede는 고객 중 주요 대형 소매 업체이자 "미국에서 가장 큰 신용 카드 발급 기관 중 하나"라고 말했다.

후자는이 기술을 실시간 사기 방지를 위해 사용하고 있다고 그녀는 말했다.

Kafka는 451 Research의 애널리스트 인 Jason Stamper는 "다양한 종류의 데이터를 빠르게 통합하는 데 도움이되는"매우 빠른 메시징 버스 "라고 말합니다. "이것이 가장 인기있는 선택 중 하나로 떠오르는 이유입니다."ActiveMQ와 RabbitMQ 외에도 유사한 기능을 제공하는 또 다른 제품은 Apache Flume입니다. Storm과 Spark Streaming은 여러면에서 유사합니다. 상업 공간에서 Confluent의 경쟁사는 IBM InfoSphere Streams, Informatica의 Ultra Messaging Streaming Edition 및 SAS의 Event Stream Processing Engine (ESP)과 Software AG의 Apama, Tibco의 StreamBase 및 SAP의 Aleri, Stamper가 추가되었습니다. 더 작은 경쟁 업체에는 DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic 및 Glassbeam이 포함됩니다.

클라우드에서 AWS의 Kinesis 스트림 처리 서비스는 "Redshift 데이터웨어 하우스 및 S3 스토리지 플랫폼과의 통합의 부가 혜택을 제공합니다."라고 Teradata의 새로 발표 된 Listener는 또 다른 경쟁자이며 Kafka 기반 포레스터 리서치 (Forrester Research)의 브라이언 홉킨스 (Brian Hopkins) 부사장 겸 수석 분석가는 지적했다.

일반적으로 실시간 데이터의 경향은 뚜렷하다.

2013 년까지 "큰 데이터는 모두 하둡 (Hadoop)에 엄청난 양의 데이터가 담겨있다 "고 말했다. "당신이 그렇게하지 않으면, 당신은 이미 커브의 배후에 있습니다."오늘날 스마트 폰과 다른 소스의 데이터는 실시간으로 소비자들과 관계를 맺을 수있는 기회를 제공하고 상황에 맞는 경험을 제공합니다. 고 밝혔다. 즉, 데이터를 더 빠르게 이해하는 능력에 달려 있습니다. "홉킨스는"사물의 인터넷은 모바일의 두 번째 물결과 같습니다. "모든 공급 업체는 데이터의 눈사태를 찾고 있습니다."

결과적으로 기술은 그에 따라 적응하고 있습니다. "914>"2014 년까지 하둡에 관한 것이었고 스파크였습니다. "이제 Hadoop, Spark 및 Kafka가 있으며, 이들은 현대적인 분석 아키텍처에서 데이터 처리 파이프 라인의 동등한 경쟁자 중 하나입니다."