高中毕业后,Charles Jansen 去了一所医学院。他讨厌这所大学,几年后他离开了医学界和法国。Charles 学习酒店管理,然后去了中国工作。不久之后,他从高中开始就对编程的兴趣不断增长,直到他决定学习计算机科学。(所以你可以看到他很难找到自己喜欢的东西)不久之后,Charles 开始在阿根廷的 S&P Global 工作。他从事数据提取和自动化工作,做规则库解析器。在某个时候,他的老板说他之前的团队所做的事情可以而且应该用机器学习方法来完成。出于好奇心和计划证明这是不可能的,他开始自学机器学习。Charles 很快意识到他错了,ML 方法确实可以实现数据提取的自动化。他对增强树和深度学习所能做的事情印象深刻,做了一些在线认证、Kaggle 竞赛,然后获得了数据科学的研究生学位。
您记得处理的第一个数据集是什么?
Charles Jansen: 我猜在训练期间 印度手机号码列表 它可能是 MNIST 或类似的东西。进行基于图像识别的练习。后来,我在其上做了一个 GAN,以便自动从中生成新数据。
从专业角度来看,我处理的第一个数据集是网页(HTML)和 PDF 文档,需要以自动方式提取数据。
是否有一个特定的“啊哈”时刻让您意识到数据的力量?
Charles Jansen: 对于机器学习的强大力量,确实有一个非常奇怪的时刻,我意识到我确信机器学习无法做到的事情实际上可能通过专门模型的复杂工作流程来完成。
您如何了解数据分析的最新趋势?您经常访问哪些数据分析资源(即博客/网站/应用程序)?
Charles Jansen: 我在 LinkedIn 上有数千名数据科学家联系人。多亏了他们,我对世界上正在发生的事情非常感兴趣。
Kaggle 是我最喜欢访问的网页之一,可以了解最新的出版物和工具。那里有很多人探索和分享他们的代码。