JAVA 远程上传文件HDFS+kerberos认证

2018-10-19

package com.jiatui.bigdata; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.security.UserGroupInformation; /** * 读取文件写入HDFS上 */ public class R...

Spark1.X操作DataFrame示例

2018-10-12

{"id":1, "name":"Ganymede", "age":32} {"id":2, "name":"Lilei", "age":19} {"id":3, "name":"Lily", "age":25} {"id":4, "name":"Hanmeimei", "age":25} {"id":5, "name":"Lucy", "age":37} {"id":6, ...

Kafka HA Kafka一致性重要机制之ISR(kafka replica)

2018-10-08

一、kafka replica 当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 Replica的个数小于等于Broker的个数,也就是说,对于每个Partit...

ELK日志采集logstash output -> elasticsearch 数据写入性能优化。

2018-09-11

背景 前些时间测试线上ELK环境,发现beats组件直连elasticsearch数据灌入异常快,但是过了logstash数据明显迟缓。判定logstah的灌入存在瓶颈。以下为logstash调优细节。 环境 本次针对的优化对象是线上的日志分析平台,主...

初版图谱数据采集接入方案

2018-06-23

neo4j数据采集方案利弊比较 采用大批量数据文件导入的优点以及缺点 大批量数据导入初始化库建议使用neo4j-import,这是直接官方集成的把需要导入的数据提前处理成相应的csv文...

Neo4j 图数据库在社交网络等领域的应用

2018-04-04

一、前言 Neo4j 是一种基于图论实现的新型 NoSQL 数据库。这种数据库,在处理社交网络,物流运输,推荐系统,欺诈检测等,关系分析等领域有着巨大优势。本场 Chat,我将为你介绍: Neo4j 与关系型、其他非关系型数据库的优势比较 哪...

Neo4j中导入RDF数据

2018-03-28

知识图谱构建过程中图数据库Neo4j是比较常用的知识存储工具(上一篇文章介绍了图数据库Neo4j的安装与配置),RDF也是知识表示常见形式,由于Neo4j官方只介绍了CSV与关系数据库中数据如何导入Neo4j,但对于如何导入RDF三元组数据未作说...

python用map-reduce(IP地址库匹配省份和城市)

2018-03-16

IP地址库文件为city.txt大致内容如下: (在HDFS/data139/ods/ip_address/city.txt) 708100096|708104191|辽宁|抚顺 708104192|708112383|辽宁|葫芦岛 708112384|708116479|辽宁|朝阳 708116480|70812...

自定义UDF解析IP地址获取 省份/城市+HDP集群TEZ报错问题

2018-01-19

 编写UDF解析IP段落属于哪个身份城市(公司给了一份IP地址库格式大致如下) 18620416|18628607|内蒙古|呼和浩特 18628608|18629631|内蒙古|呼和浩特 18629632|18630655|内蒙古|呼和浩特 18630656|18631679|内蒙古|呼和浩特 186316...