数据科学家会被 AI 取代吗？

这是一份关于数据科学家 AI 风险的详细指南，说明哪些任务最容易被自动化，哪些工作仍然需要人类完成，哪些技能值得学习，以及可考虑的下一步职业方向。

这个职业是做什么的

数据科学家的工作并不只是构建机器学习模型。实际工作中，这个角色要判断哪些预测或优化真正能创造商业价值，确认手头有哪些可用数据，选择评估指标，并设计能够在真实业务中稳定运行的解决方案。除了数学能力和实现能力之外，决定“究竟该解决什么问题”本身，就是这份工作的核心组成部分。

AI 加快了基线模型构建、特征建议、代码补全和调参方案生成的速度。但问题定义本身是否成立、是否存在数据泄漏与偏差，以及上线后的负责任评估，仍然是应当由人持续把握的关键环节。

行业技术

AI风险分数

37 / 100

周变化

趋势图

数据科学家会被 AI 取代吗？

在判断数据科学家的 AI 风险时，最重要的一点是：会建模，和能把模型真正用到业务里，并不是一回事。AutoML 和生成式 AI 确实比过去更容易做出精度尚可的原型模型，但围绕数据集偏差、现场约束以及错误决策成本来进行设计，仍然门槛很高。

事实上，模型构建本身越趋于商品化，问题设定和评估设计上的差距就会越大。那些能够判断“什么程度的准确率才真正可用”、该更强调召回率还是精确率、以及预测结果应如何影响人的决策方式的人，在 AI 普及后反而更有可能保持价值。

最可能被取代的任务

凡是沿用熟悉方法、机械推进的建模环节，都尤其容易受到 AI 影响。AI 很适合快速推进原型，但这些结果能否在实际场景中使用，仍然需要另外的人类判断。

自动生成基线模型

对于常见的分类与回归问题，AutoML 和生成式 AI 现在已经能够非常快速地产出基线模型。初步验证的速度大幅提升。但这仍然不能保证目标定义本身就是正确的，也不能保证所用评估指标真的合适。

编写特征候选与预处理代码草稿

AI 能缩短时间序列特征、类别编码以及缺失值处理代码的编写时间。但它也可能混入数据泄漏，或者引入上线后根本不存在的特征，因此如果缺少上下文理解，风险会很高。

通用型超参数搜索

针对已知算法在较大参数范围内做搜索，本身就很容易自动化。但即使找到了略好的组合，也仍然需要有人判断，这样的提升是否值得对应的商业价值，以及是否值得承担再次训练的成本。

常规评估结果汇总

AI 可以帮助整理准确率、召回率、AUC 等指标报告。但哪些失败是不可接受的、哪些指标应该占更高权重，仍然需要由人来界定前提和判断标准。

仍会保留的工作

数据科学家的价值，依然主要体现在问题设定与运营责任上。预测什么、哪些错误最危险、以及人应该在哪些环节继续参与，仍然是非常典型的人类设计工作。

选择真正值得解决的问题

某件事“可以预测”，并不代表它“值得预测”。如果提升空间很小、运营负担很大，或者结果根本无法推动决策，那么建模本身就可能失去意义。选对问题，依然是核心的人类判断。

设计评估指标与运行条件

召回率是否比误报更重要，取决于现场的成本结构。数据科学家仍需要定义“什么才算成功”，并把这个定义嵌入到实际运营流程中。

识别数据泄漏与偏差

一个模型表面上可能看起来精度很高，但它也可能依赖了未来信息，或者对某一类群体造成不公平影响。这样的模型无法在真实环境中站得住。透过表面性能去识别数据中的危险特征，仍然是关键的人类工作。

设计模型与人之间的分工方式

模型是自动执行、只提供建议，还是把最终判断完全留给人，不同方式对应的责任结构完全不同。要设计出真正能在现场运行的方案，远不只是技术实现本身。

值得学习的技能

对数据科学家来说，重要的不只是建模速度，还包括能否在商业与运营语境中完成设计。更强的路径，是用 AI 加快原型阶段，再通过负责任的评估与落地设计来形成差异。

区分相关性与因果性的思维能力

强相关并不必然意味着它适合用于干预。数据科学家需要认真判断，哪些变量是真正可控的，因果解释又能延伸到什么程度。这种判断的重要性，并不亚于纯粹的建模能力。

理解 MLOps 与持续运营

模型只有在上线后能够被重新训练、被监控，并在数据漂移下持续维护时，才真正创造价值。那些能从训练阶段看到长期运营的人，在 AI 普及后更有可能持续保持实际价值。

与业务现场部门协同的能力

销售、客服、制造和医疗团队，并不会天然用数据科学的语言来表达问题。优秀的数据科学家能够把模糊需求翻译成模型要求，也能把模型的边界重新解释给业务现场。

验证 AI 生成原型的能力

让 AI 生成代码或特征想法已经越来越容易。真正拉开差距的，是能否看出风险在哪里、缺了哪些前提，以及如何把速度转化为质量。

可能的发展路径

数据科学经验的价值，不只在于建模，还在于问题设定、评估设计和决策支持。这意味着职业路径不仅可以继续深入研究，也可以向上延伸到业务分析与规划。

数据分析师

那些不仅擅长建模，也擅长解读数字和组织洞察的人，同样能在更偏分析型的岗位上创造价值。适合希望比起“做预测”更靠近“支持决策”的人。

市场研究分析师

提出假设、验证假设，并清楚说明结论边界的经验，也很适合迁移到市场研究工作中。适合想继续保持分析思维，同时更靠近商业决策的人。

产品经理

思考模型精度与商业价值之间关系的经验，也能支持产品优先级判断。适合希望从技术实现转向决定“究竟该做什么”的人。

金融分析师

解读复杂量化模型并理解前提条件影响的能力，在金融领域同样有价值。适合希望从预测建模转向投资分析或经营分析的人。

研究助理

在实验设计和严谨验证方面较强的人，也能在研究支持环境中创造价值。适合想从商业问题稍微退一步，更专注于验证质量本身的人。

业务分析师

把复杂问题结构化，并在明确说明限制条件的前提下输出结论的经验，在业务分析中同样是很强的优势。适合希望比起模型构建，更靠近问题定义与改进设计的人。

摘要

随着 AI 降低模型原型构建门槛，数据科学家将越来越难仅凭“会建模”这一点脱颖而出。真正持续有价值的，是能够选择该解决什么问题、定义什么程度的准确率才可用，并为上线后的责任设计方案的人。最可能长期保持竞争力的，是那些不仅擅长建模，也擅长问题设定与落地设计的人。

同一行业的对比职业

这里列出的是与数据科学家同属一个行业的职业。它们并不代表完全相同的工作，但有助于比较 AI 影响和职业路径的接近程度。

常见问题

Q.数据科学家会被AI取代吗？

在我们的AI职业风险指数中，数据科学家目前的分数为37（满分100）。分数越高，意味着该职业中常规、定义明确的任务已有更多可被自动化——这并不是在预测该职业会消失。AI往往先吸收重复性工作，而判断力、责任担当和人际关系仍由人来承担。

Q.数据科学家的AI风险分数是如何计算的？

该分数将「该职业核心任务在多大程度上可被自动化」的基准估计，与每周一次、权衡最新AI研究、产品和新闻的重新评估结合起来。分数在所有追踪职业之间是相对的，因此数据科学家的数字最好与其他职业相比较来解读，而非视作绝对的概率。

Q.随着AI不断发展，从事数据科学家的人如何保持自身价值？

没有任何职业能完全免受影响，但你可以通过专注于AI最不擅长的部分来降低风险：复杂的判断、伦理上的责任担当、动手或人际方面的工作，以及对AI产出的监督。把AI当作工具来使用的人，始终比试图与之竞争的人表现更好。

Q.数据科学家的风险分数多久更新一次？

该分数每周从我们的指数更新一次。本页上的每周变化数字显示了数据科学家所面临的AI影响相较上一周变动了多少。