Kafka - Kafka Stream API(카프카 스트림즈) - 2
Kafka - Kafka Stream API(카프카 스트림즈) - 2
이전 카프카 스트림즈 포스팅에서는 간단하게 카프카 스트림즈 API를 다루어보았습니다. 이번 2번째 카프카 스트림즈 포스팅은 조금더 깊게 카프카 스트림즈에 대해 알아보려고 합니다.
Kafka Streams는 Kafka 프로듀서 및 컨슈머를 이용하여 들어오는 메시지를 즉각적으로 가공하여 또 다른 토픽으로 메시지를 내보낼 수 있습니다. 이러한 카프카 스트림즈를 사용하는 기업들을 소개하자면 New York Times는 카프카와 카프카 스트림즈를 이용하여 독자들을 위한 실시간 컨첸츠를 저장하고 배포합니다.그리고 라인 같은 경우는 서비스끼리 통신하기 위한 중앙 데이터 허브로 카프카를 사용합니다. 그리고 카프카 스트림즈를 이용하여 토픽을 데이터를 안정적으로 가공하고 필터링하여 컨슈머가 효율적으로 메시지를 컨슘할 수 있게 합니다. 이러한 많은 기업들이 안정적으로 실시간 데이터를 처리하기 위해 카프카와 카프카 스트림즈를 이용합니다.
카프카 메시징 계층은 데이터를 저장하고 전송하기 위해 데이터를 파티션 단위로 분할한다. 카프카 스트림즈 역시 파티션된 토픽을 기반으로 병렬 처리 모델의 논리 단위로 작업을 진행한다. 카프카 스트림즈는 키/값 형태의 스트림 데이터이므로 스트림 데이터의 키값으로 토픽내 특정 파티션으로 라우팅된다. 일반적으로 파티션 개수만큼 컨슈머 그룹안의 컨슈머들이 생성되듯이 카프카 스트림즈도 역시 파티션 개수만큼 태스크가 생성되어 병렬로 데이터 스트림을 처리할 수 있다. 또한 작업스레드 수를 조정할 수 있어 더욱 효율적인 병렬처리가 가능하다.
Required configuration parameters
- application.id - 스트림 처리 응용 프로그램의 식별자 아이디이다. Kafka 클러스터 내에서 유일한 값이어야 한다.
- bootstrap.servers - Kafka 인스턴스 호스트:포트 정보이다.
Optional configuration parameters(중요도 보통이상의 설정값)
- cache.max.bytes.buffering - 모든 스레드에서 레코드 캐시에 사용할 최대 메모리 바이트 수입니다.(default 10485760 bytes)
- client.id - 요청시 서버에 전달할 ID 문자열이다. 카프카 스트림즈 내부적으로 프로듀서,컨슈머에게 전달된다(default empty string)
- default.deserialization.exception.handler - DeserializationExceptionHandler인터페이스를 구현하는 예외 처리 클래스이다.
(default LogAndContinueExceptionHandler)
- default.production.exception.handler - ProductionExceptionHandler인터페이스를 구현하는 예외 처리 클래스이다.
(default DefaultProductionExceptionHandler)
- key.serde - record key에 대한 직렬화/역직렬화 클래스이다. Serde 인터페이스를 구현한다.(default Serdes.ByteArray().getClass().getName() )
- num.standby.replicas - 각 태스크의 대기 복제본 수이다.(default 0)
- num.stream.threads - 스트림을 처리할 스레드 수이다.(default 1)
- replication.factor - 복제본 수이다.(default 1)
- retries - 처리 실패시 재시도 횟수(default 0)
- retry.backoff.ms - 재시도 요청 간격 시간(default 100밀리세컨드)
- state.dir - 상태 저장소 디렉토리 위치(default /tmp/kafka-streams)
- value.serde - record value에 대한 직렬화/역직렬화 클래스이다. key.serde와 동일.
default.deserialization.exception.handler
기본 deserialization 예외 처리기를 사용하면 deserialize에 실패한 레코드의 예외를 관리할 수 있다. 예외 처리기는 throw된 예외에 따라 FAIL 또는 CONTINUE를 반환해야한다. FAIL은 스트림이 종료될 것이고, CONTINUE는 예외를 무시하고 계속해서 처리를 진행할 것이다. 내부적으로 제공하는 예외 핸들어가 있다.
- LogAndContinueExceptionHandler - 예외가 발생하여도 계속해서 프로세스를 진행한다.
- LogAndFailExceptionHandler - 예외가 발생하면 프로세스를 중지한다.
기본적으로 제공하는 핸들러 이외에도 사용자가 직접 정의하여 예외 핸들러를 구현할 수 있다.
public class SendToDeadLetterQueueExceptionHandler implements DeserializationExceptionHandler {
KafkaProducer<byte[], byte[]> dlqProducer;
String dlqTopic;
@Override
public DeserializationHandlerResponse handle(final ProcessorContext context,
final ConsumerRecord<byte[], byte[]> record,
final Exception exception) {
log.warn("Exception caught during Deserialization, sending to the dead queue topic; " +
"taskId: {}, topic: {}, partition: {}, offset: {}",
context.taskId(), record.topic(), record.partition(), record.offset(),
exception);
dlqProducer.send(new ProducerRecord<>(dlqTopic, record.timestamp(), record.key(), record.value(), record.headers())).get();
return DeserializationHandlerResponse.CONTINUE;
}
@Override
public void configure(final Map<String, ?> configs) {
dlqProducer = .. // get a producer from the configs map
dlqTopic = .. // get the topic name from the configs map
}
}
위의 예제코드는 예외가 발생하면 DLQ 토픽에 메시지를 보낸 이후 계속해서 프로세스를 진행하는 예외 핸들러이다. 위에서 이야기하였듯이 반드시 FAIL,CONTINUE 둘중하나를 반환해야 한다.
- default.production.exception.handler
프로덕션 예외 처리기를 사용하여 너무 큰 메시지 데이터를 생성하는 등 브로커와 상호 작용하려고 할때 트리거되는 예외를 컨트롤 할 수 있습니다. 기본적으로 카프카는 DefaultProductionExceptionHandler를 제공한다. 이 예외 처리기도 역시 FAIL,CONTINUE등 하나를 반환하여 프로세스 진행여부를 결정해주어야 한다.
import java.util.Properties;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.common.errors.RecordTooLargeException;
import org.apache.kafka.streams.errors.ProductionExceptionHandler;
import org.apache.kafka.streams.errors.ProductionExceptionHandler.ProductionExceptionHandlerResponse;
public class IgnoreRecordTooLargeHandler implements ProductionExceptionHandler {
public void configure(Map<String, Object> config) {}
public ProductionExceptionHandlerResponse handle(final ProducerRecord<byte[], byte[]> record,
final Exception exception) {
if (exception instanceof RecordTooLargeException) {
return ProductionExceptionHandlerResponse.CONTINUE;
} else {
return ProductionExceptionHandlerResponse.FAIL;
}
}
}
Properties settings = new Properties();
// other various kafka streams settings, e.g. bootstrap servers, application id, etc
settings.put(StreamsConfig.DEFAULT_PRODUCTION_EXCEPTION_HANDLER_CLASS_CONFIG,
IgnoreRecordTooLargeHandler.class);
Stream DSL
- branch - 제공되는 predicate에 따라서 적절히 여러개의 KStream으로 분할한다.(KStream[] 반환)
/**
* branch
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam {
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.foreach((key,value)->log.info("key,value ={}",key+" "+value));
KStream<String, String>[] streamArr = source.branch(
(key,value) -> value.startsWith("A"),
(key,value) -> value.startsWith("B"),
(key,value) -> true
);
streamArr[0].to("stream-exam-output1");
streamArr[1].to("stream-exam-output2");
streamArr[2].to("stream-exam-output3");
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
위의 코드는 stream-exam-input이라는 토픽에 "A"로 시작하는 데이터가 들어오면 stream-exam-output1, "B"로 시작하는 데이터가 들어오면 stream-exam-output2, 그 밖의 데이터는 stream-exam-output3으로 보내는 간단한 branch 예제이다. branch에는 적절하게 Predicate를 리스트 형태로 작성한다. 데이터의 값에 따라 다른 처리를 해야할때에는 branch를 사용하면 각각 다른 처리를 하는 토픽으로 메시지를 내보낼 수 있을 것 같다.
- filter - 적절한 Predicate을 인자로 받아 메시지를 필터링한다.(KStream 반환)
/**
* filter
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam2 {
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.filter( (key,value)->value.length()>3 ).to("stream-exam-output");;
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
위의 예제는 토픽으로 메시지를 입력받아 value 값의 길이가 3보다 크다면 stream-exam-output 토픽으로 메시지를 내보내는 예제이다.
- filterNot - filter와 반대되는 개념이다.
/**
* filterNot
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam3 {
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.filterNot( (key,value)->value.length()>3 ).to("stream-exam-output");;
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
fliter와는 반대되는 개념이다. 크게 설명할 부분을 없을 것같다.
- flatMap - 하나의 레코드를 이용해 0개 혹은 하나 이상의 레코드를 생성한다. flatMap은 key,value가 바뀔 수 있다.
/**
* flatMap
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam4 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.flatMap(
new KeyValueMapper() {
@Override
public Object apply(Object key, Object value) {
List<KeyValue<Object, Object>> list = new LinkedList<>();
String keyStr = (String)key;
String valueStr = (String)value;
list.add(KeyValue.pair(valueStr.toUpperCase(),value));
list.add(KeyValue.pair(valueStr.toLowerCase(),value));
return list;
}
}
).to("stream-exam-output");;
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
위의 예제는 메시지를 받아서 해당 메시지의 값을 대문자,소문자를 키로하여 2개의 레코드를 만드는 예제이다.
- flatMapValues - 원본 레코드의 키를 유지하면서 하나의 레코드를 가져와서 0개 혹은 하나 이상의 레코드를 생성한다. value의 값과 값의 타입이 바뀔 수 있다.
/**
* flatMapValue
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam5 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.flatMapValues(value->Arrays.asList(value.split(" "))).to("stream-exam-output");
// source.flatMapValues(
// new ValueMapper() {
// @Override
// public Object apply(Object value) {
// String valueStr = (String)value;
// return Arrays.asList(valueStr.split(" "));
// }
// }
// );
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
위의 예제는 메시지의 값에 공백을 포함하고 있으면 해당 메시지를 공백기준으로 split하여 list로 반환한다. 그럼 해당 List는 flat되어 여러개의 String Stream으로 변환되어 stream-exam-output 토픽으로 메시지가 전달된다.
- GroupByKey - 기존 키로 레코드를 그룹핑한다. 스트림이나 테이블을 집계하고 후속작업을 위해 키로 그룹화하여 파티션하는 것을 보장한다.
/**
* GroupByKey
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam6 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
KGroupedStream<String, String> groupedStream = source.flatMap(
new KeyValueMapper() {
@Override
public Object apply(Object key, Object value) {
List<KeyValue<Object, Object>> list = new LinkedList<>();
String keyStr = (String)key;
String valueStr = (String)value;
list.add(KeyValue.pair(value,valueStr.toUpperCase()));
list.add(KeyValue.pair(value,valueStr.toLowerCase()));
return list;
}
}
).groupByKey();
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
스트림의 기존 키값을 이용하여 그룹핑한다.
GroupBy - 새로운 키로 그룹핑한다. 테이블을 그룹핑할 때는 새로운 값과 값 유형을 지정할 수도 있다.
/**
* GroupBy
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam7 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
KGroupedStream<String, String> groupedStream = source.groupBy(
(key,value)->value, Serialized.with(Serdes.String(),Serdes.String())
);
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
위의 예제와 같이 기존 스트림에서 받은 키값을 그대로 사용하는 것이 아니라 변경하여 사용할 수 있다.(예제는 value를 키로 사용한다)
- map - 하나의 레코드를 가져와서 다른 하나의 레코드를 생성한다. 타입을 포함하여 키와 값을 수정할 수 있다.
/**
* map
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam8 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.map(
(key,value)->KeyValue.pair(value, key)
);
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
메시지를 받아서 키와 값을 바꿔주는 map 예제이다.
- mapValues - 하나의 레코드를 받아서 값을 바꿔준다.
/**
* mapValues
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam9 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.mapValues(
(value)->value+"_map"
).to("stream-exam-output");
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
메시지를 받아서 값에 "_map"이라는 문자열을 추가하여 수정하였다.
- merge - 두 스트림의 레코드를 하나의 스트림으로 merge한다.
/**
* merge
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam10 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.foreach((key,value)->log.info("key,value ={}",key+" "+value));
KStream<String, String>[] streamArr = source.branch(
(key,value) -> value.startsWith("A"),
(key,value) -> value.startsWith("B"),
(key,value) -> true
);
KStream<String, String> merge1 = streamArr[0].merge(streamArr[1]);
merge1.merge(streamArr[2]).to("stream-exam-output");
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
- selectKey - 각 레코드에 새키를 할당한다. 마치 map을 이용하여 key값을 바꾸는 것과 동일하다.
/**
* selectKey
* @author yun-yeoseong
*
*/
@Slf4j
public class KafkaStreamExam11 {
@SuppressWarnings("unchecked")
public static void main(String[] args) {
// TODO Auto-generated method stub
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "kafka-stream-exam");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("stream-exam-input");
source.selectKey(
//리턴되는 값이 키가된다.
(key,value)->value.charAt(0)+""
).to("stream-exam-output");
//최종적인 토폴로지 생성
final Topology topology = builder.build();
log.info("Topology info = {}",topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
streams.start();
}
}
- toStream - KTable을 스트림으로 가져온다.
@Slf4j
public class WordCounter {
public static void main(String[] args) {
Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-wordcount");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094,localhost:9095");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
final StreamsBuilder builder = new StreamsBuilder();
NoriAnalyzer analyzer = new NoriAnalyzer();
KStream<String, String> source = builder.stream("streams-plaintext-input");
source.flatMapValues(value -> Arrays.asList(analyzer.analyzeForString(value).split(" ")))
//return하는 value가 키가 된다. 리턴값으로 그룹핑된 카프카스트림 객체를 리턴한다. KGroupedStream
.groupBy(new KeyValueMapper<String, String, String>() {
@Override
public String apply(String key, String value) {
log.info("key = {},value = {}",key,value);
return value;
}
})
//count()를 호출하여 해당 키값으로 몇개의 요소가 있는지 체크한다. 그리고 해당 데이터를 스토어에(KeyValueStore<Bytes,byte[]> counts-store) 담고
//변경이 있는 KTable에 대해서만 결과값을 리턴한다.
.count(Materialized.<String, Long, KeyValueStore<Bytes, byte[]>>as("counts-store"))
.toStream() //KTable -> Stream
.to("streams-wordcount-output", Produced.with(Serdes.String(), Serdes.Long()));
final Topology topology = builder.build();
System.out.println(topology.describe());
final KafkaStreams streams = new KafkaStreams(topology, props);
try {
streams.start();
} catch (Throwable e) {
System.exit(1);
}
}
}
지금까지는 메시지의 상태가 없는 StreamDSL이었다. 다음으로 알아볼 DSL은 이전 메시지의 상태를 참조하는 상태기반 스트림이다. 아마 실시간으로 데이터 스트림을 처리할때 상태가 필요없는 처리도 있겠지만, 오늘하루 사용자가 많이 문의한 단어등 단어의 빈도수를 계산해야하는 스트림이 있다고 해보자. 그렇다면 지금 이순간 전까지 해당 단어는 몇번이 누적되었는지를 알아야 이시간 이후로 들어오는 같은 단어도 이전 빈도수에 누적하여 통계를 낼 것이다. 이렇게 상태에 기반하여 처리해야하는 스트림을 처리하는 것이 상태기반 스트림이다.
다음 포스팅에서 다루어볼 내용은 Stateful transformations이다. 레퍼런스의 양이 굉장히 많은 부분으로 조금 정리한 후 포스팅하려한다.
출처: https://coding-start.tistory.com/141?category=790331 [코딩스타트]
'Apache Kafka > Apache Kafka' 카테고리의 다른 글
kafka 모니터링 도구 (0) | 2021.10.28 |
---|---|
Apache Kafka - Kafka Producer(카프카 프로듀서) - 2 (0) | 2021.04.24 |
Apache Kafka - Kafka(카프카)란 ? 분산 메시징 플랫폼 - 1 (0) | 2021.04.24 |
Kafka - Spring Cloud Stream Kafka Streams API(스프링 클라우드 스트림 카프카 스트림즈 API) (0) | 2021.04.24 |
Kafka - Spring cloud stream kafka(스프링 클라우드 스트림 카프카) (0) | 2021.04.24 |
Kafka - Kafka Streams API(카프카 스트림즈) - 1 (0) | 2021.04.24 |
Kafka - Kafka Consumer(카프카 컨슈머) Java&CLI (0) | 2021.04.23 |
Kafka - Kafka Producer(카프카 프로듀서) In Java&CLI (0) | 2021.04.20 |