通过BulkLoad快速将海量数据导入到Hbase

2018-12-21

原始文件从mysq导出来的csv文件 503003676755886086,503003161271734273,1 503003669797548035,503003161271734273,1 503003568609964035,503003161271734273,1 503003700512428038,5030031612717...

OOZIE 任务调度使用及详解

2018-12-14

job.properties nameNode=hdfs://dev-bg-m01:8020 jobTracker=dev-bg-m01:8050 queueName=default oozie.use.system.libpath=true #oozie.libpath=/user/dmp_operator1/share/libs jdbcURL=jdbc...

Spring mvc 框架定时刷新kerberos认证票据

2018-12-01

package com.XXX.counter.listener; import javax.servlet.ServletContextEvent; import javax.servlet.ServletContextListener; import java.util.Timer; public class TicketScanerListener...

JAVA 远程上传文件HDFS+kerberos认证

2018-10-19

package com.jiatui.bigdata; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.security.UserGroupInformation; /** * 读取文件...

Spark1.X操作DataFrame示例

2018-10-12

{"id":1, "name":"Ganymede", "age":32} {"id":2, "name":"Lilei", "age":19} {"id":3, "name":"Lily", "age":25} {"id":4, "name":"Hanmeimei", "age":25} {"id":5, "name":"Lucy", "age...

Kafka HA Kafka一致性重要机制之ISR(kafka replica)

2018-10-08

一、kafka replica 当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 Replica的个数小于等于Broker的个数,也就是说,对于每个Partit...

初版图谱数据采集接入方案

2018-06-23

neo4j数据采集方案利弊比较 采用大批量数据文件导入的优点以及缺点 大批量数据导入初始化库建议使用neo4j-import,这是直接官方集成的把需要导入的数据提前处理成相应的csv文...

python用map-reduce(IP地址库匹配省份和城市)

2018-03-16

IP地址库文件为city.txt大致内容如下: (在HDFS/data139/ods/ip_address/city.txt) 708100096|708104191|辽宁|抚顺 708104192|708112383|辽宁|葫芦岛 708112384|708116479|辽宁|朝阳 708116480|708...