大数据全栈式开发语言 – Python前 段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个Web 应用开发人员,只需要学会一门 语言,就可以实现整个应用。受此启发,我发现 Python 可以称为大数据全栈式开发语言。因为 Python 在云基础设施,DevOps,大数据处理等领域都是炙手可热的语言。领域流行语言云基础设施Python, Java, GoDevOpsPython, Shell, Ruby, Go网络爬虫 Python, PHP, C++数据处理 Python, R, Scala就像只要会 JavaScript 就可以写出完整的 Web 应用,只要会 Python,就可以实现一个完整的大数据处理平台.云基础设施这年头,不支持云平台,不支持海量数据,不支持动态伸缩,根本不敢说自己是做大数据的,顶多也就敢跟人说是做商业智能(BI)。云平台分为私有云和公有云。私有云平台如日中天的 OpenStack, 就是 Python 写的。曾经的追赶者 CloudStack,在刚推出时大肆强调自己是 Java 写的,比 Python 有优势。结果,搬石砸脚,2025 年 初,CloudStack 的发起人 Citrix 宣布加入 OpenStack 基金会,CloudStack 眼看着就要寿终正寝。假如嫌麻烦不想自己搭建私有云,用公有云,不论是 AWS,GCE,Azure,还是阿里云,青云,在都提供了 Python SDK,其中 GCE 只提供 Python 和 JavaScript 的 SDK,而青云只提供 Python SDK。可见各家云平台对 Python 的重视。提 到基础设施搭建,不得不提 Hadoop,在今日,Hadoop 因为其 MapReduce 数据处理速度不够快,已经不再作为大数据处理的首选,但是 HDFS 和 Yarn——Hadoop 的两个组件—-倒是越来越受欢迎。Hadoop 的开发语言是 Java,没有官方提供 Python 支持,不过有很多第三方库封装 了Hadoop 的 API 接口(pydoop,hadoopy 等等)。Hadoop MapReduce 的替代者,是号称快上 100 倍的 Spark,其开发语言是 Scala,但是提供了Scala,Java,Python 的开发接口,想要讨好那么多用 Python 开发的数据科学家,不支持Python,真是说不过去。HDFS 的替代品,比如 GlusterFS,Ceph 等,都是直接提供 Python 支持.Yarn 的替代者,Mesos 是 C++实现,除 C++外,提供了 Java 和 Python 的支持包。DevOpsDevOps 有个中文名字,叫做开发自运维。互联网时代,只有能够快速试验新想法,并在第一时...