帮助你在2021年成为数据科学家的21个有用的小贴士

来源:deephub 今日头条 日期:2021-02-21

在这篇文章中,我将与你分享我从其他数据科学家以及我自己过去几年的经验中学到的21条建议。

这取决于你的职业生涯已经走了多远,其中一些建议肯定比其他的更适合你。例如,“花点时间来发现和探索新的库和包”可能对刚开始工作的人来说不太合适。

说到这里,让我们直奔主题吧!

1、最简单的解决方案往往是最好的解决方案

成为数据科学家并不意味着你必须使用机器学习模型解决所有问题。 如果CASE WHEN查询足以完成工作,则坚持这样做。 如果线性回归足以完成任务,则不要构建10层神经网络。

更简单的解决方案有很多好处,包括更快的实施时间,更少的技术负担以及总体上更容易的可维护性。

2、花点时间来发现和探索新的库和包

坚持使用你喜欢的工具很容易,但是使用创造新工具是有原因的——它们是用来填补现有的空白的。通过花时间探索新的库和包,我发现了一些令人难以置信的工具,它们为我节省了大量时间。以下是其中的一些:

Gradio是一个Python包,它允许你用三行代码就可以为你的机器学习模型构建和部署一个web应用。它的作用与Streamlit或Flask相同,但我发现它更容易部署模型。

Pandas Profiling是另一个自动进行探索性数据分析并将其整合到报告中的软件包。我发现当我使用较小的数据集时,这非常有用。最棒的是它只需要一行代码!

Kedro是一个开发工作流工具,允许你创建可移植的ML管道。它将软件工程最佳实践应用到你的代码中,使其可重现性、模块化和文档化良好。

3、高效并不意味着匆忙完成重要的步骤

有些步骤是不能匆忙的。特别是应该花时间深入理解试图解决的业务问题和正在使用的数据。

4、可以说,指标比模型本身更重要

这一点在某种程度上与前一点相联系,因为你必须对你要解决的问题有一个非常好的理解。除了理解这个问题,你还需要弄清楚你想优化的指标,因为归根结底,机器学习是统计和优化的花哨词汇。

举个例子,我可以有一个100%准确率的模型,但如果我试图开发一个异常检测模型,这是没有用的!

5、你的工作表现取决于你的沟通能力

人们会被他们不理解的东西吓倒,并倾向于避开它们。

你必须能够以非技术人员能够理解的方式交流技术术语和建模技术。如果你花时间构建了一个很棒的模型,你就应该花更多时间进行有效的沟通,这样人们才能认可你的努力!

6、学习基础知识,尤其是统计学

数据科学和机器学习本质上是统计学的现代版本。首先通过学习统计,当涉及到学习机器学习的概念和算法时,你会有一个更容易的时间。

7、了解你要解决的问题的各种参数

这可以用一个例子来解释。

在我的一个项目中,我必须开发一个模型来预测一个产品是否必须被RMA 。一开始我以为我的输入是所有的产品,这使得它几乎像一个异常检测问题。

只有在了解业务需求和模型如何使用之后,我才意识到模型的输入是发出RMA的所有产品(客户发送了关于产品问题的电子邮件)。这使数据更加平衡,节省了我很多时间。

8、不要低估SQL的力量

SQL是通用的数据语言——它可以说是任何类型的数据相关专业中最重要的技能,无论你是数据科学家、数据工程师、数据分析师、业务分析师,等等。

SQL不仅在构建管道、提取数据和整理数据方面很重要,而且现在可以使用SQL查询创建机器学习模型。

9、把数据科学当成一项团队运动

作为一名数据科学家,最大的好处之一就是你有很大的自主权。但是,如果你不愿意寻求他人的建议、帮助和反馈,这很容易成为一个弱点。

尽管数据科学具有一定的自主性,但它是一项团队运动。你必须接受来自多个涉众的建议和反馈,包括最终用户、领域专家、数据工程师等。

10、不要浪费时间试图记住所有的东西

要想记住所有的东西实在是太难了。而且这很浪费时间。你最好练习如何用谷歌来回答你的问题,这样你就能得到你需要的答案。

同时,开始使用表格保存真正有用的链接,并且经常回去看看。对我来说,我喜欢包括备忘单、速成课程和我喜欢谷歌的问题的链接。等等

11、快速部署,快速迭代,并不断获得反馈

重要的是要不断地与其他利益相关者沟通,让他们了解你的思考过程,你为模型所做的任何假设并获得反馈。否则的模型可能无法解决手头的问题。

就我个人而言,当与利益相关者(尤其是非编码人员)共享模型时,我使用Gradio为我的模型的每次迭代创建web ui。

我发现Gradio非常有用,原因如下:

  • 它允许我交互式地测试模型中的不同输入。
  • 它允许我从领域用户和领域专家(他们可能不是程序员)那里得到反馈
    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。