spark sql自定义函数udf - - ITeye博客

`

sxyqhyt

浏览: 77318 次
性别:
来自: 北京

最近访客更多访客>>

mzyp

czbkjava

feige1990

繁星水

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

spark sql自定义函数udf

博客分类：

spark
scala

spark scala udf

阅读更多

 def visitview(vtimes : Iterable[String]): Long ={
    var times = 0L
    if(vtimes.size == 0){
    }else{
      val lb = scala.collection.mutable.ListBuffer.empty[String]
      for(vtime <- vtimes){
        lb.append(vtime)
      }
      times = 1L
      val list = lb.toList.sorted
      for(i <- 0 to list.size-2){
        if(list(i+1).toLong - list(i).toLong > DEFAULT_VISIT_TIMEOUT){
          times = times + 1
        }
      }
    }
    times
  }

    val sparkConf = new SparkConf().setAppName("ChexunHourCount").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val sqlContext = new SQLContext(sc)

    sqlContext.udf.register("visitview",ConstantUtil.visitview _)

case class Loging(vtime:Long, userIp:Long, muid:String, uref:String, ucp:String)
val df = file.map(_.split("\t")).filter(x=>ConstantUtil.isNotPromote(x(3))).filter(y=>ConstantUtil.isNotPromote(y(2))).map(t => Loging(t(9).toLong,t(8).toLong,t(1),t(2),t(3))).toDF()
df.registerTempTable("loging")
val vvCount = sqlContext.sql("select sum(visitview(vtime)) from loging group by muid  limit 10 ").collect()

1、自定义函数

2、注册函数

3、在spark sql中使用自定义函数

分享到：

Spark把执行结果写入到mysql中 | flume与kafka集成

2015-04-23 15:29
浏览 7674
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-hive-udf:Spark Hive UDF示例: Spark Hive UDF示例建立项目 mvn clean package ...spark.sql("CREATE OR REPLACE FUNCTION uppercase AS 'com.ranga.spark.hive.udf.UpperCaseUDF' USING JAR '/tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar'") sp

Spark SQL 表达式计算: 表达式计算在Spark SQL中随处可见，本演讲将简介表达式、UDF、UDAF、UDTF的概念，主要的API，以及如何扩展Spark SQL函数库。本演讲还将提及Catalyst在计划阶段和Project Tungsten在执行层做的优化，以及未来性能提升...

交互式数据分析包括脚本开发任务提交(Spark, Hive)UDF函数资源管理和智能诊断: Scriptis用于交互式数据分析，包括脚本开发(SQL, Pyspark, HiveQL)，任务提交(Spark, Hive)， UDF，函数，资源管理和智能诊断.zip

spark计算psi的udf函数: import org.apache.spark.sql.functions._ import org.apache.spark.sql.types.DoubleType import org.apache.spark.sql.{DataFrame, SparkSession, functions} object UDF extends App { def psi: ((Seq[Int], Int...

Spark从入门到精通: 6、大量全网唯一的知识点：基于排序的wordcount，Spark二次排序，Spark分组取topn，DataFrame与RDD的两种转换方式，Spark SQL的内置函数、开窗函数、UDF、UDAF，Spark Streaming的Kafka Direct API、...

Scriptis：Scriptis用于交互式数据分析，包括脚本开发（SQL，Pyspark，HiveQL），任务提交（Spark，Hive），UDF，功能，资源管理和智能诊断: 上下文：UDF，自定义变量以及函数的管理和共享。控制台：引擎参数，任务/引擎管理和资源隔离/显示的自定义设置。快速开始阅读快速入门与类似调度系统的比较文件资料社区如果您希望立即得到答复，请向我们提出问题...

Spark分布式内存计算框架视频教程: 10.自定义函数UDF 11.分布式SQL引擎（spakr-sql和Spark ThriftServer） 12.Catalyst 优化器第四章、离线综合实战 1.综合实战概述（需求、调研、业务） 2.环境搭建（大数据环境和应用开发环境） 3.项目初始化（工具...

积分java源码-cs143_spark_hw:cs143_spark_hw: 非常重要，允许开发人员在表达式中定义和利用自定义操作。让我们看一个例子。想象一下，您有一个包含产品包装照片的产品目录。您可能希望注册一个用户定义的函数extract_text ，该函数调用 OCR 算法并返回图像中...

积分java源码-cs143-spark:cs143-火花: 允许开发人员定义和利用表达式中的自定义操作。例如，假设您有一个包含产品包装照片的产品目录。您可能希望注册一个用户定义的函数extract_text ，该函数调用 OCR 算法并返回图像中的文本，以便您可以从照片中获取...

datalake-etl-pipeline：使用Apache Spark的Hadoop中简化的ETL过程。具有用于datalake的完整ETL管道。 SparkSession扩展，DataFrame验证，列扩展，SQL函数和DataFrame转换: 该软件包具有完整的ETL过程- 使用元数据，转换和数据模型信息来设计ETL管道建立目标转换SparkSQL和Spark Dataframes 构建源和目标Hive DDL 验证DataFrames，扩展核心类，定义DataFrame转换并提供UDF SQL函数。...

typedudf:火花型udf: Spark sql用户定义的函数不支持将结构类型反序列化为Product类型（案例类，元组等），因此您必须手动访问Row的字段： import org . apache . spark . sql . Row import org . apache . spark . sql . functions . _...

Framework-Of-BigData:大数据面试题，从0到1走向架构师之路。Flink、Spark、Hive、HBase、Hadoop、Kettle、Kafka..: 每周日更新项目系列一、大数据项目面试系列优秀文章目录一、HadoopHDFS是如何设计架构的...SQL中的窗口(三种模式)Flink系统自带函数与自定义UDF(超详细)那些被问懵的Flink面试题(Flink面试急需)Flink 自定义Avro序列化

IQL即席查询服务: 基于SparkSQL实现了一套即席查询服务，具有如下特性：优雅的交互方式，支持多种...基于REPL的写代码功能，动态注册UDF函数高效的script管理，配合import/include语法完成各script的关联对数据源操作的权限验证

Hive大数据离线应用开发: 本章将为大家解答以下问题：基于Hadoop的Hive工具的基本概念以及配置和启动。Hive的数据类型、表以及数据操作。如何用Hive进行数据查询。...Hive的UDF自定义函数介绍和应用。azkaban的介绍和实际应用。

Linkis：Linkis可帮助轻松连接到各种后端计算存储引擎（Spark，Python，TiDB ...），公开各种接口（REST，JDBC，Java ...），具有多租户，高性能和资源控制: 它还为管理统一变量，UDF，函数和资源文件提供了方便的支持。在高并发，高性能和高可用性的情况下，它还具有完善的任务/作业生命周期管理功能，可以保证这一点。基于Linkis的计算中间件架构的概念，我们在其之上...

蜂巢：Apache蜂巢: HiveSQL也可以通过用户定义的函数（UDF），用户定义的集合（UDAF）和用户定义的表函数（UDTF）扩展为用户代码。 Hive用户在执行SQL查询时可以选择3种运行时。用户可以选择Apache Hadoop MapReduce，Apache Tez或...

大数据场景化解决方案.pdf: Spark SQL：Spark处理结构化数据的⼀个模块。 HDFS介绍 HDFS(Hadoop Distributed File System)基于Google发布的GFS论⽂设计开发。其除具备其它分布式⽂件系统相同特性外，HDFS还有⾃⼰特有的特性：⾼容错性：...

Linkis:Linkis帮助轻松连接到各种后端计算存储引擎（Spark，Python，TiDB ...），公开各种接口（REST，JDBC，Java ...），并具有多租户，高性能和资源控制: 通过使用由Linkis提供的REST / WS / JDBC之类的标准接口，上层应用程序可以轻松访问诸如MySQL / Spark / Hive / Presto / Flink等底层引擎，并实现用户资源（如统一变量）的互通，脚本，UDF，函数和资源文件同时...

Linkis 分布式服务框架 v0.9.4: 为您提供Linkis 分布式服务框架下载，Linkis是一个打通了多个计算存储引擎如：Spark、TiSpark、Hive、Python和HBase等，对外提供统一REST/WebSocket/JDBC接口，提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算...

Linkis-其他: Linkis基于微服务架构，提供了金融级多租户隔离、资源管控、权限隔离等企业级特性，支持统一变量、UDF、函数、用户资源文件管理，具备高并发、高性能、高可用的大数据作业/请求全生命周期管理能力。核心特点： 1、...

Global site tag (gtag.js) - Google Analytics