通过BulkLoad快速将海量数据导入到Hbase

2018-12-21

原始文件从mysq导出来的csv文件 503003676755886086,503003161271734273,1 503003669797548035,503003161271734273,1 503003568609964035,503003161271734273,1 503003700512428038,5030031612717...

OOZIE 任务调度使用及详解

2018-12-14

job.properties nameNode=hdfs://dev-bg-m01:8020 jobTracker=dev-bg-m01:8050 queueName=default oozie.use.system.libpath=true #oozie.libpath=/user/dmp_operator1/share/libs jdbcURL=jdbc...

Spring mvc 框架定时刷新kerberos认证票据

2018-12-01

package com.XXX.counter.listener; import javax.servlet.ServletContextEvent; import javax.servlet.ServletContextListener; import java.util.Timer; public class TicketScanerListener...

JAVA 远程上传文件HDFS+kerberos认证

2018-10-19

package com.jiatui.bigdata; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.security.UserGroupInformation; /** * 读取文件...

Spark1.X操作DataFrame示例

2018-10-12

{"id":1, "name":"Ganymede", "age":32} {"id":2, "name":"Lilei", "age":19} {"id":3, "name":"Lily", "age":25} {"id":4, "name":"Hanmeimei", "age":25} {"id":5, "name":"Lucy", "age...

Kafka HA Kafka一致性重要机制之ISR(kafka replica)

2018-10-08

一、kafka replica 当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 Replica的个数小于等于Broker的个数,也就是说,对于每个Partit...

ELK日志采集logstash output -> elasticsearch 数据写入性能优化。

2018-09-11

背景 前些时间测试线上ELK环境,发现beats组件直连elasticsearch数据灌入异常快,但是过了logstash数据明显迟缓。判定logstah的灌入存在瓶颈。以下为logstash调优细节。 环境 本次针对的优化对象是线上的日志分析平台,主...

初版图谱数据采集接入方案

2018-06-23

neo4j数据采集方案利弊比较 采用大批量数据文件导入的优点以及缺点 大批量数据导入初始化库建议使用neo4j-import,这是直接官方集成的把需要导入的数据提前处理成相应的csv文...

Neo4j 图数据库在社交网络等领域的应用

2018-04-04

一、前言 Neo4j 是一种基于图论实现的新型 NoSQL 数据库。这种数据库,在处理社交网络,物流运输,推荐系统,欺诈检测等,关系分析等领域有着巨大优势。本场 Chat,我将为你介绍: Neo4j 与关系型、其他非关系型数据库的优势比较 哪...