编程和软件技能 - R、Python、SAS

Real-time financial market data for stocks and trends.
Post Reply
Maksudasm
Posts: 974
Joined: Thu Jan 02, 2025 6:47 am

编程和软件技能 - R、Python、SAS

Post by Maksudasm »

Ambuj Kathuria: 根据我的经验,数据分析师/科学家大约 60-70% 的时间都花在了数据准备上,因为数据嘈杂或混乱。市场上有很多即将推出和已经可用的数据准备工具,如 Alteryx、Talend 等,应该加以利用,这样就应该更多地关注如何通过应用最佳数据科学算法来获取见解。

您对新手、数据科学学生或想要在数据分析行业建立职业生涯的从业者有什么建议?
Ambuj Kathuria:


可视化工具 - Power BI、Qliksense、Tableau、Spotfire、
统计基础和应用知识——回归、相关性、聚类、概率、正态分布等。
机器学习——线性回归、神经 德国手机号码列表 网络、随机森林、XG Boost、SVM 等。
数据准备工具 - Alteryx、Talend

您预见到数据科学领域的变化趋势是什么?您建议当前的数据分析师如何跟上步伐?
Ambuj Kathuria: 我建议关注最新趋势,如人工智能、深度学习神经网络和新可视化工具。最重要的是,要不断深入了解至少一个领域的商业趋势变化。

大数据解决方案空间
公司拥有哪些类型的结构化和非结构化数据?我们谈论的规模有多大?
Ambuj Kathuria:

结构化数据:Excel、ERP 系统或企业内任何其他数据平台中的数据
非结构化数据:电子邮件、通话记录、社交数据、宏观经济数据等。
是否有遗留系统正在被取代?如果有,哪些遗留技能正在被取代?
Ambuj Kathuria:

是的,DWH 卸载、传统 DB 卸载仍然是大数据最常谈论的用例。一些企业客户已经这样做了,他们谈论的是数据货币化、数据即服务、数据网格、IPaaS 等。

为客户部署的集群/环境的规模有多大?生产挑战是什么?
Ambuj Kathuria:

我们的客户运行数千台机器的集群并管理数 TB 到数 PB 的数据。

根据我们的经验,一些生产挑战:

可扩展性:当数据激增时,部署的大数据平台会面临问题
网络: 由于公有云部署的大数据平台出现网络问题,24X7 可用性中断
始终保持性能一致: 由于网络、带宽和其他问题,公共部署和内部部署的性能可能不一样。
您愿意与我们分享一下我们在 Digital Vidya 为行业培养数据分析人才的工作吗?
Ambuj Kathuria:

我个人认为 Digital Vidya 在将具有不同经历的人们聚集到一个平台上分享想法、相互学习以及创建最好的数据科学技能管道方面做得很好。

要了解有关 Ambuj Kathuria 的更多信息,您可以查看他的LinkedIn 个人资料。

数据分析的机会是否激励了您?参加我们即将举行的 “数据分析促进职业和业务增长”培训课程,开启您的旅程。在线免费 :)
Post Reply