怎么在Java中执行Hive命令或HiveQL java运行hiveQL,如何获取并打印日志信息?

作者&投稿:出孟 (若有异议请与网页底部的电邮联系)

    这里所说的在Java中执行Hive命令或HiveQL并不是指Hive Client通过JDBC的方式连接HiveServer(or HiveServer2)执行查询,而是简单的在部署了HiveServer的服务器上执行Hive命令。当然这是一个简单的事情,平常我们通过Hive做简单的数据分析实验的时候,都是直接进入Hive执行HiveQL,那我们为什么还要在程序中执行呢?

       这里涉及到了一个问题,通过进入Hive执行HiveQL,我们只能将分析结果打印到屏幕或是存入临时表,那如果我们想吧分析结果写入文件,或者我们想对分析结果做进一步的分析,用程序做分析,该怎么办?这就是为什么要在Java中执行Hive命令。

       Java在1.5过后提供了ProcessBuilder根据运行时环境启动一个Process调用执行运行时环境下的命令或应用程序(1.5以前使用Runtime),关于ProcessBuilder请参考Java相关文档。调用代码如下:

String sql="show tables; select * from test_tb limit 10";  
List<String> command = new ArrayList<String>();  
  
command.add("hive");  
command.add("-e");  
command.add(sql);  
  
List<String> results = new ArrayList<String>();  
ProcessBuilder hiveProcessBuilder = new ProcessBuilder(command);  
hiveProcess = hiveProcessBuilder.start();  
  
BufferedReader br = new BufferedReader(new InputStreamReader(  
        hiveProcess.getInputStream()));  
String data = null;  
while ((data = br.readLine()) != null) {  
    results.add(data);  
}

 其中command可以是其它Hive命令,不一定是HiveQL。



这里所说的在Java中执行Hive命令或HiveQL并不是指Hive Client通过JDBC的方式连接HiveServer(or HiveServer2)执行查询,而是简单的在部署了HiveServer的服务器上执行Hive命令。当然这是一个简单的事情,平常我们通过Hive做简单的数据分析实验的时候,都是直接进入Hive执行HiveQL,那我们为什么还要在程序中执行呢?
这里涉及到了一个问题,通过进入Hive执行HiveQL,我们只能将分析结果打印到屏幕或是存入临时表,那如果我们想吧分析结果写入文件,或者我们想对分析结果做进一步的分析,用程序做分析,该怎么办?这就是为什么要在Java中执行Hive命令。
基于Hadoop集群的Hive安装 http://www.linuxidc.com/Linux/2013-07/87952.htm
Hive内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm
Hive详细教程 http://www.linuxidc.com/Linux/2014-04/100978.htm
Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm
Hive本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm
Hive学习之WordCount单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm
Java在1.5过后提供了ProcessBuilder根据运行时环境启动一个Process调用执行运行时环境下的命令或应用程序(1.5以前使用Runtime),关于ProcessBuilder请参考Java相关文档。调用代码如下:
String sql="show tables; select * from test_tb limit 10";
List<String> command = new ArrayList<String>();
command.add("hive");
command.add("-e");
command.add(sql);
List<String> results = new ArrayList<String>();
ProcessBuilder hiveProcessBuilder = new ProcessBuilder(command);
hiveProcess = hiveProcessBuilder.start();
BufferedReader br = new BufferedReader(new InputStreamReader(
hiveProcess.getInputStream()));
String data = null;
while ((data = br.readLine()) != null) {
results.add(data);
}
其中command可以是其它Hive命令,不一定是HiveQL。
本篇文章来源于 Linux公社网站(www.linuxidc.com) 原文链接:http://www.linuxidc.com/Linux/2014-06/103110.htm

如何在Java中执行Hive命令或HiveQL~

这里所说的在Java中执行Hive命令或HiveQL并不是指Hive Client通过JDBC的方式连接HiveServer(or HiveServer2)执行查询,而是简单的在部署了HiveServer的服务器上执行Hive命令。当然这是一个简单的事情,平常我们通过Hive做简单的数据分析实验的时候,都是直接进入Hive执行HiveQL

通过进入Hive执行HiveQL,只能将分析结果打印到屏幕或是存入临时表,如果想把分析结果写入文件,或者对分析结果做进一步的分析,用程序做分析,就是为什么要在Java中执行Hive命令。

Java在1.5过后提供了ProcessBuilder根据运行时环境启动一个Process调用执行运行时环境下的命令或应用程序(1.5以前使用Runtime),关于ProcessBuilder请参考Java相关文档。调用代码如下:

String sql="show tables; select * from test_tb limit 10"; List command = new ArrayList(); command.add("hive"); command.add("-e"); command.add(sql); List results = new ArrayList(); ProcessBuilder hiveProcessBuilder = new ProcessBuilder(command); hiveProcess = hiveProcessBuilder.start(); BufferedReader br = new BufferedReader(new InputStreamReader( hiveProcess.getInputStream())); String data = null; while ((data = br.readLine()) != null) { results.add(data); }其中command可以是其它Hive命令,不一定是HiveQL。

log4j 可以打印日志

首先把log4j.jar文件考到工程里面,然后把log4j.properties考到工程项目的src下。

log4j.properties文件配置如下:
log4j.rootLogger=DEBUG, A1 ,R
log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH\:mm\:ss} [%c]-[%p] %m%n
log4j.appender.R=org.apache.log4j.RollingFileAppender
log4j.appender.R.File=D:\\Test_Log4j.log
log4j.appender.R.MaxFileSize=100KB log4j.appender.R.MaxBackupIndex=1
log4j.appender.R.layout=org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n

以上参数下面有详解.

LogTest.java代码如下

package com.log4j.junit;


import org.apache.log4j.Logger;
import org.apache.log4j.PropertyConfigurator;

import com.log4j.dao.EmployeeDao;
import com.log4j.entity.Employee;

/**
* 采用log4j打印日志类
* @author Administrator
*
*/
public class LogTest {

/**
* 采用单例模式
*/
static Logger logger = null;

public static void testAddMethod(EmployeeDao empDao,Employee emp) throws ClassNotFoundException{
logger=Logger.getLogger(EmployeeDao.class.getName());

PropertyConfigurator.configure(".\\src\\log4j.properties");

logger.info("Info "+EmployeeDao.class.getName()+" "+" param="+emp.getClass().getName());
//获取类的相应方法

logger.warn("Warn ...");

logger.error("Error ...");

}

}
EmployeeDao.java文件代码如下:
package com.log4j.dao;

import com.log4j.entity.Employee;

public class EmployeeDao {

public void addEmployee(Employee emp){
System.out.println(emp.getEmpId()+" "+emp.getEmpName());
}

}


Employee.java代码如下:
package com.log4j.entity;

public class Employee {

private int empId;
private String empName;

public int getEmpId() {
return empId;
}
public void setEmpId(int empId) {
this.empId = empId;
}
public String getEmpName() {
return empName;
}
public void setEmpName(String empName) {
this.empName = empName;
}

}


EmployeeJuint.java代码如下:
package com.log4j.junit;

import org.junit.Test;
import com.log4j.dao.EmployeeDao;
import com.log4j.entity.Employee;

/**
* 测试员工使用log4j打印日志junit
* @author tfq
* datetime 2011-08-14
*/
public class EmployeeJuint {

@Test
public void addEmployee(){
Employee emp=new Employee();
emp.setEmpId(1);
emp.setEmpName("tfq");
EmployeeDao empDao=new EmployeeDao();
//打印日志
//LogTest.testAddMethod(EmployeeDao.class.getName());
//LogTest.testAddMethod(empDao);
try {
LogTest.testAddMethod(empDao,emp);
empDao.addEmployee(emp);
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
}
}


运行EmployeeJuint .java中的addEmployee().在D盘的Test_Log4j.log会有如下记录:
param=com.log4j.entity.Employee
WARN main com.log4j.dao.EmployeeDao - Warn ...
ERROR main com.log4j.dao.EmployeeDao - Error ..

下面是lo4j.propertites中配置详解:
1、定义配置文件

首先使用配置文件将使我们的应用程序更加灵活配置log日志输出方式包括输出优先级、输出目的地、输出格式。Log4j支持两种配置文件格式,一种是 XML格式的文件,一种是Java特性文件log4j.properties(键=值)。下面将介绍使用log4j.properties文件作为配置文 件的方法:

①配置根Logger,其语法为:0

log4j.rootLogger = [ level ] , appenderName, appenderName, …

其中,level 是日志记录的优先级,分为OFF、FATAL、ERROR、WARN、INFO、DEBUG、ALL或者自定义的级别。Log4j建议只使用四个级别,优 先级从高到低分别是ERROR、WARN、INFO、DEBUG。通过在这里定义的级别,您可以控制到应用程序中相应级别的日志信息的开关。比如在这里定 义了INFO级别,则应用程序中所有DEBUG级别的日志信息将不被打印出来。 appenderName就是指定日志信息输出到哪个地方。可同时指定多个输出目的地。

②配置日志信息输出目的地Appender,其语法为:

log4j.appender.appenderName = fully.qualified.name.of.appender.class
log4j.appender.appenderName.option1 = value1

log4j.appender.appenderName.option = valueN

其中,Log4j提供的appender有以下几种:
org.apache.log4j.ConsoleAppender(控制台),
org.apache.log4j.FileAppender(文件),
org.apache.log4j.DailyRollingFileAppender(每天产生一个日志文件),
org.apache.log4j.RollingFileAppender(文件大小到达指定尺寸的时候产生一个新的文件),
org.apache.log4j.WriterAppender(将日志信息以流格式发送到任意指定的地方)

③配置日志信息的格式(布局),其语法为:

log4j.appender.appenderName.layout = fully.qualified.name.of.layout.class
log4j.appender.appenderName.layout.option1 = value1

log4j.appender.appenderName.layout.option = valueN

其中,Log4j提供的layout有以下几种:
org.apache.log4j.HTMLLayout(以HTML表格形式布局),
org.apache.log4j.PatternLayout(可以灵活地指定布局模式),
org.apache.log4j.SimpleLayout(包含日志信息的级别和信息字符串),
org.apache.log4j.TTCCLayout(包含日志产生的时间、线程、类别等等信息)

Log4J采用类似C语言中的printf函数的打印格式格式化日志信息,打印参数如下: %m 输出代码中指定的消息

%p 输出优先级,即DEBUG,INFO,WARN,ERROR,FATAL
%r 输出自应用启动到输出该log信息耗费的毫秒数
%c 输出所属的类目,通常就是所在类的全名
%t 输出产生该日志事件的线程名
%n 输出一个回车换行符,Windows平台为“
”,Unix平台为“

%d 输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,比如:%d{yyy MMM dd HH:mm:ss,SSS},输出类似:2002年10月18日 22:10:28,921
%l 输出日志事件的发生位置,包括类目名、发生的线程,以及在代码中的行数。举例:Testlog4.main(TestLog4.java:10)

2、在代码中使用Log4j

①得到记录器

使用Log4j,第一步就是获取日志记录器,这个记录器将负责控制日志信息。其语法为:

public static Logger getLogger( String name)

通过指定的名字获得记录器,如果必要的话,则为这个名字创建一个新的记录器。Name一般取本类的名字,比如:

static Logger logger = Logger.getLogger ( ServerWithLog4j.class.getName () )

②读取配置文件

当获得了日志记录器之后,第二步将配置Log4j环境,其语法为:

BasicConfigurator.configure (): 自动快速地使用缺省Log4j环境。
PropertyConfigurator.configure ( String configFilename) :读取使用Java的特性文件编写的配置文件。

例:PropertyConfigurator.configure(".\\src\\log4j.properties")
DOMConfigurator.configure ( String filename ) :读取XML形式的配置文件。

③插入记录信息(格式化日志信息)

当上两个必要步骤执行完毕,就可轻松地使用不同优先级别的日志记录语句插入到您想记录日志的任何地方,其语法如下:

Logger.debug ( Object message ) ;
Logger.info ( Object message ) ;
Logger.warn ( Object message ) ;
Logger.error ( Object message ) ;




在web程序中使用log4j注意问题

1、 由于jsp或servlet在执行状态时没有当前路径概念,所有使用PropertyConfigurator.configure(String)语句找log4j.properties文件时要给出相对于当前jsp或servlet的路径转化成为一个绝对的文件系统路径。方法是使用servletcontext.getrealpath(string)语句。例:

//得到当前jsp路径

String prefix = getServletContext().getRealPath("/");

//读取log4j.properties

PropertyConfigurator.configure(prefix+"\\WEB-INF\\log4j.properties");

2、相应的log4j.properties设置某个属性时也要在程序中设置绝对路径。例:

log4j.appender.R.File属性设置日志文件存放位置。我们可以用读写.properties配置文件的方法进行灵活设置。

大数据云计算好不好学习?
答:学会Hive的基本命令: 创建、删除表;加载数据到表;下载Hive表的数据; MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数); HDS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据; 自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看...

【hive-整合】hive整合phoenix及注意问题
答:Step 2 : 在hive-site.xml添加如下属性,使得hive的MR能够使用phoenix的jar包.若不在hive-site.xml添加改属性,当hive语句执行使用mr时(如有order by的语句)依然会报 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory 错误。

如何使用kettle连接hive和hive2
答:Error connecting to database: (using class org.apache.hadoop.hive.jdbc.HiveDriver)Unable to load Hive Server 2 JDBC driver for the currently active Hadoop configuration at org.pentaho.di.core.database.Database.normalConnect(Database.java:428)at org.pentaho.di.core.database.Database....

如何将hive查询结果导出成txt文件
答:在java中可以使用split("\\u0001")来进行切分 如果确实需要将查询结果导出到本地文件,最好使用hive的命令:[sql] view plaincopy在CODE上查看代码片派生到我的代码片 bin/hive -e "select * from test" >> res.csv 或者是:bin/hive -f sql.q >> res.csv 其中文件sql.q写入你想要执行的...

Java大数据需要学习哪些内容?
答:JavaWeb开发不仅涉及到后端开发知识,还涉及到前端开发知识,整体的知识量还是比较大的,而且在学习的过程中,需要完成大量的实验。大数据开发包括Java基础,MySQL基础,Hadoop(HDFS,MapReduce,Yarn,Hive,Hbase,Zookeeper,Flume,Sqoop等),Scala语言(类似于Java,Spark阶段使用),Spark(SparkSQL,SparkStreaming,...

HIVE Row Formats和SerDe
答:Deserilize把字符串或者二进制流转换成hive能识别的java object对象。比如:select语句会用到Serialize对象, 把hdfs数据解析出来;insert语句会使用Deserilize,数据写入hdfs系统,需要把数据序列化。当是读取hdfs文件时key部分将会被忽略,在写入hdfs时key总是一个常量,一般的行的数据是存储在value中的。你...

什么是impala,如何安装使用Impala
答:在.bash_profile添加环境变量: exportHIVE_HOME=/home/hadoop/hive-0.9.0-cdh4.1.2 exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin exportHIVE_CONF_DIR=$HIVE_HOME/conf exportHIVE_LIB=$HIVE_HOME/lib 添加完后执行以下命令使得环境变量生效: ..bash_...

IDEA下写hive的udf(踩坑教程)
答:配置maven的过程网上有很多这里就不写了。UDF 用户自定义函数(user defined function)–针对单条记录。创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 (必须重写这个方法)4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、hql中使用 打包后的文件在你的...

java.lang.NoClassDefFoundError: org/apache/hive/hcatalog/mapreduce/...
答:缺少jar包。

大公司网站java网站都一般采用什么架构?
答:3、rpc架构 第一代rpc框架网络层采用netty,序列化层是json,基于http自定义协议。第二代框架就是完全基于thrift,thrift解决了上面的语言兼容性。4、数据平台和处理 没在这个组呆过,只是了解一些。基本和各大公司的大数据处理一样,离线计算hive/pig,流式计算storm/Presto,内存计算spark,以此来满足...