This repository was archived by the owner on Oct 30, 2022. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 180
This repository was archived by the owner on Oct 30, 2022. It is now read-only.
重复消费问题 #131
Copy link
Copy link
Open
Description
childe,你好:
首先非常感谢使用了hangout对我的帮助,我这里遇到一个问题,想请教你。
**问题:**我的hangout在消费kafka的并写入到Elasticsearch的时候,发现Elasticsearch上日志数据量比kafka的LOG-END-OFFSET数据要多,而kafka的LOG-END-OFFSET数据与我的日志文件数据量是一样的。
比如我的日志条数是48078条,我的kafka的LOG-END-OFFSE总和也是48078,但是我的Elasticsearch上查看到的日志是51334条,很好奇多余的几千条数据是怎么来的。
**我的理解:**我感觉可能是hangout消费kafka后,kafka并没有认为hangout消费了,所以数据显示没有被消费,则又被hangout消费了一遍,那么请问hangout消费一条数据之后,会做什么处理?
**注:**由于某些原因,我的ES版本不能升级。
下面是我的应用环境:
ES版本:Elasticsearch 2.3.5
hangout版本:hangout-0.1.8.2-ES2.3.5
kafka版本:kafka_2.11-1.1.0
zookeeper版本:zookeeper-3.4.12
下面是我的hangout配置
inputs:
- NewKafka:
codec: json
topic:
topic-test: 6
consumer_settings:
bootstrap.servers: 192.168.1.10:9092,192.168.1.11:9092,192.168.1.12:9092
value.deserializer: org.apache.kafka.common.serialization.StringDeserializer
key.deserializer: org.apache.kafka.common.serialization.StringDeserializer
group.id: topic-test
outputs:
- Elasticsearch:
cluster: es-cluster # cluster name, required
hosts: # required
- 192.168.10.10:9301
- 192.168.10.11:9301
- 192.168.10.12:9301
- 192.168.10.13:9301
- 192.168.10.14:9301
index: 'hangout-test'
index_type: logs # default logs
bulk_actions: 20000 # default 20000
bulk_size: 15 #default 15
flush_interval: 10 #default 10
concurrent_requests: 0 #default 0
timezone: "Asia/Shanghai" # defaut UTC 时区. 只用于生成索引名字的字符串格式化
sniff: false
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels