世毕盟人工智能申请系列微讲座第一场数据挖掘世毕盟留学样本

下载本文档

阅读 171
下载 8
格式 docx
大小 90.66 KB
约6页
2024-12-23 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

下载后可任意编辑【世毕盟人工智能申请】系列微讲座第一场: 数据挖掘今日的嘉宾 Wang 学长, 是当前就读于 UC Berkeley 的计算机博士。嘉宾分享: 大家好! 我是 UC Berkeley 的第二年 cs phd。当前是 riselab 的成员, 我们lab 的一个基本情况, 大家能够看看这个小短文今年刚成立的, 主要是做用于 machine learning 的大数据实时处理系统。我去年属于 amplab 的成员, 也就是做一个很火的大数据系统 apache spark 那个 lab。btw, 那个做 spark 的 phd matei 是我的同门师兄, 我们的导师都是ion stoica。关于 data mining 这个分支, 当前比较主流的几个方向如下:1.是基于传统 database 去做 query optimization, 最近我们 lab 有同学想试图让 machine learning 的数据处理系统去支持类似 sql query 的编程语言。把数据都统一存储为 table 格式, 这样方便非专业人士去实现基本的 machine learning training and prediction model。因为相比于传统编程语言, sql下载后可任意编辑之类的指令是更容易让非专业人士上手的。2.就是去做 big data system design, 是算一种 data analysis 的方式。这也就是我导师这个组主要 focus 的方面。做下一代的大数据处理系统。这个方向, 相比较与传统的 data analysis 的系统, , 就是当前数据量特别大, , , 然后处理这种大数据, 当前使用超级计算机的代价较高, 而且维护起来十分困难, 因此大公司 like google, facebook, amazon 都习惯于用 distributed system 去实现超级计算机的功能。这里的 distributed system, 最直观的理解, 就能够说是一大堆我们台式机的主机箱, 经过网线把这些主机箱连接起来, 变成了一个集群( cluster) 。distributed system 相对于传统意义的超级计算机( 比如国内的超算: 天河二号) 。就是她的容错性强, 也就是说, 有一部分主机箱坏掉了, 整个数据处理系统还能继续工作。。。超算假如有节点坏掉了, 那整个数据处理任务就 fail 掉了。可是缺点也是有的。比如, distributed system 一般都是用传统网线和 router 链接, 相比于超算, distributed system的网络通信速率低 , 也就是延时会大一些。如何正确的 , 高效的利用distributed system 去处理海量数据, 尽量减小延时, 尽量减小容错性所带来的 overhead, 就是设计大数据处理系统的关键所在。这就是 b...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

世毕盟人工智能申请系列微讲座第一场数据挖掘世毕盟留学样本

下载后可任意编辑【世毕盟人工智能申请】系列微讲座第一场: 数据挖掘今日的嘉宾 Wang 学长, 是当前就读于 UC Berkeley 的计算机博士

嘉宾分享: 大家好

我是 UC Berkeley 的第二年 cs phd

当前是 riselab 的成员, 我们lab 的一个基本情况, 大家能够看看这个小短文今年刚成立的, 主要是做用于 machine learning 的大数据实时处理系统

我去年属于 amplab 的成员, 也就是做一个很火的大数据系统 apache spark 那个 lab

btw, 那个做 spark 的 phd matei 是我的同门师兄, 我们的导师都是ion stoica

关于 data mining 这个分支, 当前比较主流的几个方向如下:1

是基于传统 database 去做 query optimization, 最近我们 lab 有同学想试图让 machine learning 的数据处理系统去支持类似 sql query 的编程语言

把数据都统一存储为 table 格式, 这样方便非专业人士去实现基本的 machine learning training and prediction model

因为相比于传统编程语言, sql下载后可任意编辑之类的指令是更容易让非专业人士上手的

就是去做 big data system design, 是算一种 data analysis 的方式

这也就是我导师这个组主要 focus 的方面

做下一代的大数据处理系统

这个方向, 相比较与传统的 data analysis 的系统, , 就是当前数据量特别大, , , 然后处理这种大数据, 当前使用超级计算机的代价较高, 而且维护起来十分困难, 因此大公司 like google, facebook, amazon 都习惯于用 distribut

办公文档专营 + 关注: 实名认证
内容提供者

大量办公文档，欢迎选择

收藏店铺进入空间

世毕盟人工智能申请系列微讲座第一场数据挖掘世毕盟留学样本

世毕盟人工智能申请系列微讲座第一场数据挖掘世毕盟留学样本

您可能关注的文档

相关文档

热门下载

相关标签