下载后可任意编辑【世毕盟人工智能申请】系列微讲座第一场: 数据挖掘今日的嘉宾 Wang 学长, 是当前就读于 UC Berkeley 的计算机博士
嘉宾分享: 大家好
我是 UC Berkeley 的第二年 cs phd
当前是 riselab 的成员, 我们lab 的一个基本情况, 大家能够看看这个小短文今年刚成立的, 主要是做用于 machine learning 的大数据实时处理系统
我去年属于 amplab 的成员, 也就是做一个很火的大数据系统 apache spark 那个 lab
btw, 那个做 spark 的 phd matei 是我的同门师兄, 我们的导师都是ion stoica
关于 data mining 这个分支, 当前比较主流的几个方向如下:1
是基于传统 database 去做 query optimization, 最近我们 lab 有同学想试图让 machine learning 的数据处理系统去支持类似 sql query 的编程语言
把数据都统一存储为 table 格式, 这样方便非专业人士去实现基本的 machine learning training and prediction model
因为相比于传统编程语言, sql下载后可任意编辑之类的指令是更容易让非专业人士上手的
就是去做 big data system design, 是算一种 data analysis 的方式
这也就是我导师这个组主要 focus 的方面
做下一代的大数据处理系统
这个方向, 相比较与传统的 data analysis 的系统, , 就是当前数据量特别大, , , 然后处理这种大数据, 当前使用超级计算机的代价较高, 而且维护起来十分困难, 因此大公司 like google, facebook, amazon 都习惯于用 distribut