JAVA 远程上传文件HDFS+kerberos认证

2018-10-19

package com.jiatui.bigdata; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.security.UserGroupInformation; /** * 读取文件写入HDFS上 */ public class R...

Spark1.X操作DataFrame示例

2018-10-12

{"id":1, "name":"Ganymede", "age":32} {"id":2, "name":"Lilei", "age":19} {"id":3, "name":"Lily", "age":25} {"id":4, "name":"Hanmeimei", "age":25} {"id":5, "name":"Lucy", "age":37} {"id":6, ...

Kafka HA Kafka一致性重要机制之ISR(kafka replica)

2018-10-08

一、kafka replica 当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 Replica的个数小于等于Broker的个数,也就是说,对于每个Partit...

初版图谱数据采集接入方案

2018-06-23

neo4j数据采集方案利弊比较 采用大批量数据文件导入的优点以及缺点 大批量数据导入初始化库建议使用neo4j-import,这是直接官方集成的把需要导入的数据提前处理成相应的csv文...

python用map-reduce(IP地址库匹配省份和城市)

2018-03-16

IP地址库文件为city.txt大致内容如下: (在HDFS/data139/ods/ip_address/city.txt) 708100096|708104191|辽宁|抚顺 708104192|708112383|辽宁|葫芦岛 708112384|708116479|辽宁|朝阳 708116480|70812...

自定义UDF解析IP地址获取 省份/城市+HDP集群TEZ报错问题

2018-01-19

 编写UDF解析IP段落属于哪个身份城市(公司给了一份IP地址库格式大致如下) 18620416|18628607|内蒙古|呼和浩特 18628608|18629631|内蒙古|呼和浩特 18629632|18630655|内蒙古|呼和浩特 18630656|18631679|内蒙古|呼和浩特 186316...

生产环境LZO文件压缩map数问题解决

2017-11-30

SDK采集数据每天打包成lzo文件上到大数据平台,由于lzo不支持spilt,一个文件不能被多个map并行处理。这样大数据计算资源未能充分利用。  生产环境适合LZO么?  适合,但需要做出相关处理,普通的HDFS文件是textfile,...

kafka结合Spark Streaming 保证数据不丢失不重复处理问题

2017-08-11

本篇文章主要从二个方面展开: 一、Exactly Once 二、输出不重复 事务: 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务...

利用Flume将MySQL表数据准实时抽取到HDFS(转)

2017-06-29

一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使...