Hive|Hive 处理非等值连接(join.... on .... like ....)

有一个需求是判断一个表中的一个字符串字段是否是另外一个表中一个字符串字段的子串;
mysql实现方式:

SELECT * FROM table1 RIGHT JOIN table2 ON table2.x LIKE CONCAT('%' , table2.y , '%')

用以上代码放到Hive中执行,发现报错,原因是Hive不支持非等值连接
可以用以下方式来处理Hive不支持非等值连接:
SELECT * FROM table1 RIGHT JOIN table2 ON(TRUE) WHERE LOCATE(table1.y,table2.x)

备注:
  1. mysql 中字符串的连接不能用加号(+)实现,可以用CONCAT()函数实现。
    使用方法:CONCAT(str1 , str2 , str3 , .......):将str1、str2、str3....等子串连接在一起。
  2. 使用LOCATE(substr , str)函数,如果包含,则返回 >0 的数,否则返回0。
以上方法在Hive中执行可能会报错:Error: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.lang.Integer cannot be cast to java.lang.Boolean。将上述代码改成如下形式即可正常运行:
SELECT * FROM table1 RIGHT JOIN table2 ON(TRUE) WHERE LOCATE(table1.y,table2.x)>0

【Hive|Hive 处理非等值连接(join.... on .... like ....)】问题就此解决。

    推荐阅读