Apache Kafka

Apache Kafka는 대규모 데이터 스트리밍과 실시간 데이터 처리를 위한 오픈소스 분산 메시징 시스템입니다. LinkedIn에서 처음 개발되어 2011년에 Apache Software Foundation 프로젝트로 공개되었으며, 대량의 데이터를 빠르고 안정적으로 처리하기 위해 설계되었습니다. Kafka는 실시간 스트리밍 데이터 파이프라인과 이벤트 중심 아키텍처를 구현하는 데 널리 사용됩니다.

Apache Kafka의 주요 특징:

분산 시스템: Kafka는 분산 환경에서 실행되며, 데이터 처리와 저장을 여러 서버에 분산하여 확장성과 안정성을 제공합니다.
높은 처리량: 초당 수백만 개의 메시지를 처리할 수 있는 성능을 제공하여 대규모 데이터 처리에 적합합니다.
내구성: 메시지를 디스크에 저장하고, 복제를 통해 데이터 손실을 방지합니다.
확장성: 서버(브로커)를 추가하면 클러스터의 처리 용량을 확장할 수 있습니다.
다양한 통합 가능성: 여러 프로듀서와 컨슈머를 통해 다양한 시스템과 통합할 수 있습니다.

Kafka의 구성 요소:

브로커(Broker): Kafka 클러스터를 구성하는 서버로, 메시지를 저장하고 전달하는 역할을 합니다.
토픽(Topic): 데이터가 게시되는 카테고리 또는 채널. 프로듀서가 데이터를 토픽에 게시하고, 컨슈머가 해당 토픽을 구독하여 데이터를 가져갑니다.
파티션(Partition): 토픽이 분산 처리 및 저장을 위해 나뉘는 단위. 각 파티션은 여러 브로커에 분산 저장됩니다.
프로듀서(Producer): 메시지를 생성하여 Kafka의 특정 토픽에 게시하는 역할.
컨슈머(Consumer): 토픽에서 메시지를 읽어오는 역할을 수행합니다.
ZooKeeper: Kafka 클러스터의 상태를 관리하고, 브로커 간의 조정을 담당합니다. (Kafka 2.8 이후에는 Kafka 자체 관리 기능으로 대체 가능)