生产环境LZO文件压缩map数问题解决

2017-11-30

     SDK采集数据每天打包成lzo文件上到大数据平台,由于lzo不支持spilt,一个文件不能被多个map并行处理。这样大数据计算资源未能充分利用。   生产环境适合LZO么? 适合,但需要做出相关处理,普通的HDFS文件是textfile,由于lz...

kafka结合Spark Streaming 保证数据不丢失不重复处理问题

2017-08-11

本篇文章主要从二个方面展开: 一、Exactly Once 二、输出不重复 事务: 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务...

利用Flume将MySQL表数据准实时抽取到HDFS(转)

2017-06-29

一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使...

elasticsearch2.3.4 (mysql导入elasticsearch中)

2017-03-02

Shell 1.https://github.com/jprante/elasticsearch-jdbc(插件源) wget http://xbib.org/repository/org/xbib/elasticsearch/importer/elasticsearch-jdbc/2.3.4.1/elasticsearch-jdbc-2.3.4.1-dist.z...

spark Maven pom.xml

2016-08-27

Java <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche...

Zookeeper的功能以及工作原理

2016-08-22

1.ZooKeeper是什么? ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和...

Hive使用update&delete操作

2016-08-16

修改配置(hive-site.xml)也可以直接加入hive开头给予变量 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.partition.mode = nonstrict hive.txn.manager = or...

抽取mysql分表数据

2016-07-25

Shell yestoday=`date -d "1 day ago" +"%Y-%m-%d"` year=`date -d "now" +"%Y"` echo '' > /apps/data/cash_bill/cash_bill_tmp.csv; ##找出配置表中表名后缀名字 relate_list=`mysql --skip...