Spark

用 Spark SQL 进行结构化数据处理

Spark SQL 是 Spark 生态系统中处理结构化格式数据的模块。它在内部使用 Spark Core API 进行处理,但对用户的使用进行了抽象。这篇文章深入浅出地告诉你 Spark SQL 3.x 的新内容。
2022-05-24
4分钟阅读时长

#新闻拍一拍# 谷歌和微软在 Chromium 上相爱相杀

• 微软宣布 WSL2 对 GPU 的初始支持 • Apache Spark 3.0 发布 • 红帽和 Fedora 社区共同改进模块化,将应用到 RHEL 9
2020-06-22
2分钟阅读时长

60 TB 数据:Facebook 是如何大规模使用 Apache Spark 的

Apache Spark 于 2009 年在加州大学伯克利分校的 AMPLab 由 Matei Zaharia 发起,后来在2013 年贡献给 Apache。它是目前增长最快的数据处理平台之一,由于它能支持流、批量、命令式(RDD)、声明式(SQL)、图数据库和机器学习等用例,而且所有这些都内置在相同的 API 和底层计算引擎中。
2017-06-23
11分钟阅读时长

AWS 和 GCP 的 Spark 技术哪家强?

毋庸置疑,云计算将会在未来数据科学领域扮演至关重要的角色。弹性,可扩展性和按需分配的计算能力作为云计算的重要资源,直接导致云服务提供商集体火拼。其中最大的两股势力正是亚马逊网络服务(AWS) 和谷歌云平台(GCP)。
2016-09-30
5分钟阅读时长

Cassandra 和 Spark 数据处理一窥

Apache Cassandra 数据库近来引起了很多的兴趣,这主要源于现代云端软件对于可用性及性能方面的要求。
2016-07-17
4分钟阅读时长