`
ghost_face
  • 浏览: 52985 次
社区版块
存档分类
最新评论
文章列表
       看完京华烟云小说后,忍不住写这个感受时,眼泪不由自主地流。姚木兰同父亲一样,最终得道。父亲是远离群众,一个人打坐沉思得道,而木兰最终为了国家存亡,为了民族的延续,深入群众,得到解脱,失去自我。 ...
注:从metaq官网copy下来,便于查看; 地址:https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86 配置管理 Web管理平台 从1.4.5开始,MetaQ提供了一个Web管理平台,默认运行在8120端口,你可以通过浏览器访问
        Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理,但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析,可靠性要求不是很高,则可以选择使用不可靠的Bolts。        Storm编程中,有各种 ...
参考: [1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea [2] http://blog.csdn.net/jiushuai/article/details/18729367 1.     已有的环境   a. 安装有HDFS文件系统 b. 安装有YARN,且YARN服务已经开启 c. JAVA_HOME  注:本次安装实验是基于hadoop2.2.0的,jdk1.7,因此a,b,c全部满足。   2.     Storm on Yarn的安装准备   a. ...
---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------  在“文本比较算法Ⅰ——LD算法”中,介绍了编辑距离的计算。   在“文本比较算法Ⅱ——Needleman/Wunsch算法”中,介绍了最长公共子串的计算。
原文链接:http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html   文章大致内容: 1,计算两个字符串的Levenshtein距离。       Levenshtein距离:又叫做编辑距离,指两个字符串A和B中,A到B(或者B到A)的转变至少需要编辑的次         数。编辑操作包括:添加、删除、替换。 2,计算两个字符串的LCS(Longest Common Subsequence)长度 3,根据1,2,来确定最后的相似度。  
输入 类FileInputFormat FileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。 1,1基本的输入 通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。 1,2有选择的输入 如果需要排除特定文件,可以使用setInputPathFilter()方法设置一个过滤器。 注:FileInputFormat会使用一个默认的过滤器来排除隐藏文件(名称中以“.”和“_”开头的文件)。如果通过调用setInputPathFilter()设置过滤器,将会在默认过滤器的基础上进行过滤。 1,3类Fi ...
MapReduce,组合式,迭代式,链式   前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html 1.迭代式mapreduce     一些复杂的任务难以用一次mapreduce处理完成,需要多 ...
Mahout-Kmeans 1,两个输入路径:一个是数据的点;一个是初始集群。      点的输入文件是SequenceFile(Key, VectorWritable)格式;       而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy) 2,每次迭代会产生一个输出目录“cluster-N”,输出文件格式为SequenceFile(Text, Cluster),表示第N次迭代后产生的clusters。 3,输出目录“clusteredPoints”,表示最终的集群结果,即每个集群中所包含的Points。 4,解压安装Mahout ...
1编写自定义功能的main函数 功能:得到指定目录的信息(该目录下文件个数、该目录的修改时间),并将信息反馈给oozie。 代码如下: package myTest.oozie; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.File; import java.i ...
  Hive 1.安装 (1)安装要求:Java1.6;Hadoop0.20.x (2)安装步骤 l  解压 $ tar -xzvf hive-x.y.z.tar.gz l  环境变量HIVE_HOME,PATH,JAVA_HOME,HADOOP_HOME $ cd hive-x.y.z $ export HIVE_HOME={{pwd}} $ export PATH=$HIVE_HOME/bin:$PATH $ export JAVA_HOME=/usr/java/jdk1.7.0_01   $ export HADOOP_HOME=<hadoop-ins ...
背景:三台机器,一个主机名为master,另外两个是slave1和slave2。          将master作为jobtracker和namenode   1,在所有机器上新建用户   useradd hh -g hadoop     2,配置ssh(免密码登陆)    // 在master端生成秘钥 ssh-keygen //查 ...

Oozie相关函数

  EL:Expression Language http://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_Constants Oozie相关函数 1.Decision Node 1.1 switch case default一定要设置。 Example: <workflow-app name="foo-wf" xmlns="uri:oozie:workflow:0.1">     ...     <decisi ...
 在集群中查看Task日志的方法,一般有两个: 1,通过Hadoop提供的WebConsole,直接在页面中追踪查看; 2,到集群中运行该task的节点上,查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件,分别是syslog,stdout,stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法,需要追踪到哪个节点运行了该task。   下面,通过使用JobClient,以及JobClient的几个私有方法(displayTaskLogs()、getTaskLogs()、getTaskLogURL( ...
MapReduce程序默认的输出文件个数: 首先,根据setNumReduceTasks(int num)这个方法, 其次,根据Map的输出文件个数。 一般情况下,同一个key的数据,可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历,则需要将包含该key的所有文件作为输入文件。当数据比较庞大时,这样的操作会浪费资源。如果同一个Key的所有的value值都会被分配到同一个文件中,就会比较理想。 在Hadoop-core包中,有个类MultiplyOutputs可以实现以上功能(其实就是在reduce中加一两句话,其他不变)。代码如下:   pa ...
Global site tag (gtag.js) - Google Analytics