《京华烟云》有感——正中红心，不偏不倚

博客分类：

休闲

看完京华烟云小说后，忍不住写这个感受时，眼泪不由自主地流。姚木兰同父亲一样，最终得道。父亲是远离群众，一个人打坐沉思得道，而木兰最终为了国家存亡，为了民族的延续，深入群众，得到解脱，失去自我。� ...

2014-12-31 14:42
浏览 1053
评论(0)
分类:非技术

Metaq服务器端的配置说明server.ini

博客分类：

环境搭建

注：从metaq官网copy下来，便于查看；地址：https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86 配置管理 Web管理平台从1.4.5开始，MetaQ提供了一个Web管理平台，默认运行在8120端口，你可以通过浏览器访问

2014-04-04 11:03
浏览 1061
评论(0)
分类:开源软件

Storm的可靠性与Ack机制

博客分类：

storm

storm

Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理，但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析，可靠性要求不是很高，则可以选择使用不可靠的Bolts。 Storm编程中，有各种 ...

2014-04-01 17:06
浏览 3108
评论(0)
分类:开源软件

参考： [1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea [2] http://blog.csdn.net/jiushuai/article/details/18729367 1. 已有的环境 a. 安装有HDFS文件系统 b. 安装有YARN，且YARN服务已经开启 c. JAVA_HOME 注：本次安装实验是基于hadoop2.2.0的，jdk1.7，因此a,b,c全部满足。 2. Storm on Yarn的安装准备 a. ...

2014-02-14 15:02
浏览 5250
评论(9)
分类:开源软件

计算字符串相似度【转载】

博客分类：

算法
Java语言

编辑距离

---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------　在“文本比较算法Ⅰ——LD算法”中，介绍了编辑距离的计算。　　在“文本比较算法Ⅱ——Needleman/Wunsch算法”中，介绍了最长公共子串的计算。

2013-11-15 16:33
浏览 1916
评论(0)
分类:编程语言

字符串相似度匹配算法【转载】

原文链接：http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html 文章大致内容： 1，计算两个字符串的Levenshtein距离。 Levenshtein距离：又叫做编辑距离，指两个字符串A和B中，A到B（或者B到A）的转变至少需要编辑的次数。编辑操作包括：添加、删除、替换。 2，计算两个字符串的LCS（Longest Common Subsequence）长度 3，根据1,2，来确定最后的相似度。

2013-09-26 17:21
浏览 1771
评论(0)
分类:编程语言

《Hadoop权威指南》——第七章MapReduce的类型与格式

博客分类：

MapReduce

mapreduce

输入类FileInputFormat FileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。 1,1基本的输入通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。 1,2有选择的输入如果需要排除特定文件，可以使用setInputPathFilter()方法设置一个过滤器。注：FileInputFormat会使用一个默认的过滤器来排除隐藏文件（名称中以“.”和“_”开头的文件）。如果通过调用setInputPathFilter()设置过滤器，将会在默认过滤器的基础上进行过滤。 1,3类Fi ...

2013-09-18 14:37
浏览 1879
评论(0)
分类:企业架构

MapReduce，组合式，迭代式，链式（转载）

博客分类：

MapReduce

mapreduce

MapReduce，组合式，迭代式，链式前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html 1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多� ...

2013-07-23 10:08
浏览 1030
评论(0)
分类:企业架构

mahout之Kmeans使用及结果分析

mahout kmeans

Mahout-Kmeans 1，两个输入路径：一个是数据的点；一个是初始集群。点的输入文件是SequenceFile(Key, VectorWritable)格式；而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy) 2，每次迭代会产生一个输出目录“cluster-N”，输出文件格式为SequenceFile(Text, Cluster)，表示第N次迭代后产生的clusters。 3，输出目录“clusteredPoints”，表示最终的集群结果，即每个集群中所包含的Points。 4，解压安装Mahout ...

2013-07-12 19:32
浏览 4445
评论(0)
分类:开源软件

Oozie的JavaAction使用

博客分类：

oozie

1编写自定义功能的main函数功能：得到指定目录的信息（该目录下文件个数、该目录的修改时间），并将信息反馈给oozie。代码如下： package myTest.oozie; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.File; import java.i ...

2013-07-08 21:11
浏览 4181
评论(0)
分类:开源软件

Hive环境搭建

博客分类：

环境搭建

hive

Hive 1.安装（1）安装要求：Java1.6；Hadoop0.20.x （2）安装步骤 l 解压 $ tar -xzvf hive-x.y.z.tar.gz l 环境变量HIVE_HOME，PATH，JAVA_HOME,HADOOP_HOME $ cd hive-x.y.z $ export HIVE_HOME={{pwd}} $ export PATH=$HIVE_HOME/bin:$PATH $ export JAVA_HOME=/usr/java/jdk1.7.0_01 $ export HADOOP_HOME=<hadoop-ins ...

2013-07-05 10:35
浏览 1211
评论(0)
分类:企业架构

hadoop环境搭建

博客分类：

环境搭建

背景：三台机器，一个主机名为master，另外两个是slave1和slave2。将master作为jobtracker和namenode 1，在所有机器上新建用户 useradd hh -g hadoop 2，配置ssh（免密码登陆） // 在master端生成秘钥 ssh-keygen //查 ...

2013-06-14 14:16
浏览 1028
评论(0)
分类:开源软件

Oozie相关函数

博客分类：

oozie

EL:Expression Language http://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_Constants Oozie相关函数 1.Decision Node 1.1 switch case default一定要设置。 Example： <workflow-app name="foo-wf" xmlns="uri:oozie:workflow:0.1"> ... <decisi ...

2013-05-17 14:34
浏览 2749
评论(0)
分类:开源软件

通过HadoopAPI获取task日志内容

在集群中查看Task日志的方法，一般有两个： 1，通过Hadoop提供的WebConsole，直接在页面中追踪查看； 2，到集群中运行该task的节点上，查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件，分别是syslog，stdout，stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法，需要追踪到哪个节点运行了该task。下面，通过使用JobClient，以及JobClient的几个私有方法（displayTaskLogs（）、getTaskLogs（）、getTaskLogURL（ ...

2013-05-16 11:30
浏览 2035
评论(0)
分类:开源软件

MR实现将同一个key的内容分配到同一个输出文件

博客分类：

MapReduce

MapReduce程序默认的输出文件个数：首先，根据setNumReduceTasks(int num)这个方法，其次，根据Map的输出文件个数。一般情况下，同一个key的数据，可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历，则需要将包含该key的所有文件作为输入文件。当数据比较庞大时，这样的操作会浪费资源。如果同一个Key的所有的value值都会被分配到同一个文件中，就会比较理想。在Hadoop-core包中，有个类MultiplyOutputs可以实现以上功能（其实就是在reduce中加一两句话，其他不变）。代码如下： pa ...

2013-05-15 18:17
浏览 1853
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

《京华烟云》有感——正中红心，不偏不倚

Metaq服务器端的配置说明server.ini

Storm的可靠性与Ack机制

Storm on yarn安装步骤

计算字符串相似度【转载】

字符串相似度匹配算法【转载】

《Hadoop权威指南》——第七章MapReduce的类型与格式

MapReduce，组合式，迭代式，链式（转载）

mahout之Kmeans使用及结果分析

Oozie的JavaAction使用

Hive环境搭建

hadoop环境搭建

Oozie相关函数

通过HadoopAPI获取task日志内容

MR实现将同一个key的内容分配到同一个输出文件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>