检查生产中的 ETL 管道
Posted: Sun Mar 02, 2025 8:13 am
有抱负的数据工程师如何展示他们处理工具、技术、数据和领域的能力?
Rajat Venkatesh: 最好的资格是实际经验。最好的数据工程师曾与专家和大规模数据一起在团队中工作过。培训确实提供了基础知识,但很难模拟只有在大规模管理数据管道时才会出现的问题。
大数据工程师的日常生活是怎样的?他们扮演着哪些不同的角色?
Rajat Venkatesh: 在典型的一天中,大数据工程师会做以下事情 -
。
。
与其他团队合作接受新数据。
培训分析师和 萨尔瓦多手机号码列表 数据科学家使用数据湖中的数据。
分析技能、统计学、机器学习对于数据工程师来说是否是必备技能或者有益技能?
Rajat Venkatesh: 这些技能很好。需要一些基本知识,以便数据工程师能够帮助分析师和数据工程师使用数据。在小公司中,数据工程师也可能扮演分析师的角色。在这种情况下,这些技能可能是必需的。
大数据解决方案空间
公司拥有什么样的结构化和非结构化数据?我们谈论的规模有多大?
Rajat Venkatesh: 数据来源显然取决于行业。非结构化数据是一个错误的说法。没有非结构化数据。所有数据都有某种结构。真正的挑战是数据湖可以包含结构截然不同的数据。客户使用的一些数据源包括:GPS、DNA、社交媒体源、CRM 数据、机器遥测。
是否有遗留系统正在被取代?如果有,哪些遗留技能正在被取代?
Rajat Venkatesh: Qubole 在云端提供大数据基础设施。我们替换的旧系统偏向于 Qubole 的技术领域。客户通常希望替换不是为大数据设计的数据库或不是为公共云设计的大数据系统。
你们通过转向大数据领域帮助客户解决了哪些重大“顿悟”时刻?客户如何评估他们的投资回报率?
Rajat Venkatesh: Qubole 的客户通常对大数据有经验。客户希望迁移到公共云。当他们意识到利用公共云的弹性可以大幅提高性能或降低当前工作负载的成本时,他们就会恍然大悟。结果通常是公司在预算范围内进行更多分析,并变得更加以数据为导向。
为客户部署的集群/环境的规模有多大?生产挑战是什么?
Rajat Venkatesh: 我们最大的客户每个集群都运行着几千台机器。他们正在获取数 TB 的数据,并管理总计数 PB 的数据。总体而言,Qubole 使用 100 万台机器帮助客户每月处理近 750 PB 的数据。
Rajat Venkatesh: 最好的资格是实际经验。最好的数据工程师曾与专家和大规模数据一起在团队中工作过。培训确实提供了基础知识,但很难模拟只有在大规模管理数据管道时才会出现的问题。
大数据工程师的日常生活是怎样的?他们扮演着哪些不同的角色?
Rajat Venkatesh: 在典型的一天中,大数据工程师会做以下事情 -
。
。
与其他团队合作接受新数据。
培训分析师和 萨尔瓦多手机号码列表 数据科学家使用数据湖中的数据。
分析技能、统计学、机器学习对于数据工程师来说是否是必备技能或者有益技能?
Rajat Venkatesh: 这些技能很好。需要一些基本知识,以便数据工程师能够帮助分析师和数据工程师使用数据。在小公司中,数据工程师也可能扮演分析师的角色。在这种情况下,这些技能可能是必需的。
大数据解决方案空间
公司拥有什么样的结构化和非结构化数据?我们谈论的规模有多大?
Rajat Venkatesh: 数据来源显然取决于行业。非结构化数据是一个错误的说法。没有非结构化数据。所有数据都有某种结构。真正的挑战是数据湖可以包含结构截然不同的数据。客户使用的一些数据源包括:GPS、DNA、社交媒体源、CRM 数据、机器遥测。
是否有遗留系统正在被取代?如果有,哪些遗留技能正在被取代?
Rajat Venkatesh: Qubole 在云端提供大数据基础设施。我们替换的旧系统偏向于 Qubole 的技术领域。客户通常希望替换不是为大数据设计的数据库或不是为公共云设计的大数据系统。
你们通过转向大数据领域帮助客户解决了哪些重大“顿悟”时刻?客户如何评估他们的投资回报率?
Rajat Venkatesh: Qubole 的客户通常对大数据有经验。客户希望迁移到公共云。当他们意识到利用公共云的弹性可以大幅提高性能或降低当前工作负载的成本时,他们就会恍然大悟。结果通常是公司在预算范围内进行更多分析,并变得更加以数据为导向。
为客户部署的集群/环境的规模有多大?生产挑战是什么?
Rajat Venkatesh: 我们最大的客户每个集群都运行着几千台机器。他们正在获取数 TB 的数据,并管理总计数 PB 的数据。总体而言,Qubole 使用 100 万台机器帮助客户每月处理近 750 PB 的数据。