Neo4j中导入RDF数据

2018-03-28

知识图谱构建过程中图数据库Neo4j是比较常用的知识存储工具(上一篇文章介绍了图数据库Neo4j的安装与配置),RDF也是知识表示常见形式,由于Neo4j官方只介绍了CSV与关系数据库中数据如何导入Neo4j,但对于如何导入RDF三元组数据未作说...

python用map-reduce(IP地址库匹配省份和城市)

2018-03-16

IP地址库文件为city.txt大致内容如下: (在HDFS/data139/ods/ip_address/city.txt) 708100096|708104191|辽宁|抚顺 708104192|708112383|辽宁|葫芦岛 708112384|708116479|辽宁|朝阳 708116480|708...

生产环境LZO文件压缩map数问题解决

2017-11-30

SDK采集数据每天打包成lzo文件上到大数据平台,由于lzo不支持spilt,一个文件不能被多个map并行处理。这样大数据计算资源未能充分利用。  生产环境适合LZO么?  适合,但需要做出相关处理,普通的HDFS文件是textfile,...

spark2.0.1 csv文件转换parquet文件

2017-10-19

  import org.apache.spark.sql.{SQLContext, SparkSession} import org.apache.spark.sql.types._ object Demo { def main(args: Array[String]): Unit = { if(args.length != 2){ ...

kafka结合Spark Streaming 保证数据不丢失不重复处理问题

2017-08-11

本篇文章主要从二个方面展开: 一、Exactly Once 二、输出不重复 事务: 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务...

利用Flume将MySQL表数据准实时抽取到HDFS(转)

2017-06-29

一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使...

spark FP-Growth树应用示例

2017-04-05

package sparkFIM import java.util.concurrent.ConcurrentHashMap import org.apache.spark.mllib.fpm.FPGrowth import org.apache.spark.{SparkConf, SparkContext} import scala.collection....

elasticsearch2.3.4 (mysql导入elasticsearch中)

2017-03-02

Shell 1.https://github.com/jprante/elasticsearch-jdbc(插件源) wget http://xbib.org/repository/org/xbib/elasticsearch/importer/elasticsearch-jdbc/2.3.4.1/elasticsearch-jdbc-2.3.4.1-dist.z...