「表面光鲜,实则搬砖」,机器学习社区自嘲不为人知的AI工程师真相

tech2022-08-23  123

贾浩楠 发自 凹非寺量子位 报道 | 公众号 QbitAI

机器学习工程师岗位,还香吗?

在培训机构或求职网站随便一搜,机器学习简直不要更热。

但是,国外的同行们却在一则Reddit热帖上,吐槽揭露ML工程师“表面光鲜,实际搬砖”的一面。

说出了培训机构不会告诉你的机器学习业内真相。

那这些“过来人”怎么掉进一个个暗坑的?他们的经历对你有什么警醒借鉴的意义呢?

机器学习岗,怎样避免沦为数据标注师

Reddit热帖下,网友们吐槽最多的,就是学习和工作的巨大差距产生的幻灭感。

学了一大堆牛X高大上的理论知识,以为自己能上手酷炫的神经网络,调参、训练、部署一条龙,但实际上,这些内容大概只占全部工作的10%-20%。

而且在一些团队中,会有专门的岗位来负责这些工作。

其余大部分人的职责是收集数据、给数据打标签、处理数据质量,或者用Python写基础架构。

当年梦中的那个引领AI潮流的少年,就这样成了数据标注师。

但是,网友也承认这一点确实是业内的普遍现象。而且,刚刚工作的新手,从低层技术开始做起,也是符合常理的。

大家的建议是:面对这种大量重复劳动,先别急着上手,去查一查资料,很多类似工作已经有成熟快速的方法。

当你跨过了基础工作这一关,要面对的,是ML项目中可能出现的各种令人头疼的问题,而这,是考验你能否成为优秀机器学习工程师的重要挑战。

机器学习之路布满荆棘

哪些在工作岗位上很重要的东西,是机器学习教程不会教你的?

网友们总结了最重要的4条:

正确认识业务处理凌乱的现实世界数据集工程导向,而不是在Jupyter Notebooks中编写研究代码可视化

这些都是网友们在工作经历中吃了很多亏后,总结出的经验。

比如,很多ML工程师只有给定一个抽象化的问题才能上手,缺乏应对实际工程问题的能力。

而一个合格的、被业内广范认可的机器学习工程师,他可能并不精通算法的数学原理,而是能够在约束条件众多的实际情况下应用算法解决问题。

比如,在很多情况下,普通的旧算法(例如K-Means,高斯混合的EM等)非常有用。烧GPU并不是唯一办法。

避免纸上谈兵,这是机器学习算法工程师正确认识业务的一部分,除此之外,重要的点还有合理的工期规划,和良好的沟通能力。

规划传统工程项目时,设定里程碑、期望值、是(相对)简单的。

但对于机器学习项目来说,在最初目标和前期阶段之后,很难给出具体的计划,因为变数实在太多了。

这就需要在项目初期阶段就保持头脑清醒,不要给自己挖坑,同时也要和boss以及同事说明沟通。

一位网友谈到了切身体会。他放弃了机器学习算法岗位,原因是老板根本不关心他为了完善算法细节付出了多少艰苦的劳动,只看最后的可视化效果。

当boss发现可视化效果并不高级时,认为他一直在浪费时间没好好工作。

所以,比其他软件工程师更强的抗错能力,也是你必备的。

如果你能抗过以上所有挫折和困难,还有艰难的一关要过。

机器学习业内的谎言

任何人都可以轻松成为数据科学家/机器学习工程师软件工程师可以轻松成为数据科学家。学习应用“现成库”就可以轻松上手搞AI。搞AI无需学习高等数学/统计学一种特定算法可以应用于任何领域并获得成功

这些,就是Reddit网友当年少不更事是信过“鬼话”、踩过的坑。

那么,真下决心走机器学习这条路,应该相信什么呢?

首先是要对行业现状有大致了解。

对于普通开发来说,机器学习岗位数量要比其他开发岗少很多。网友反映,在北美地区,100-150个后端开发的公司可能只有有2-5个搞AI的人。

其次,是很多有AI需求的公司没有必要的GPU等基础设施,你去了才发现只能使用免费的Collab。

从个人求职角度讲,ML项目大多很比较专,比较小众。你之前的项目经验,全国可能只有不多的几家公司感兴趣。

明白了这些,你还要清楚怎样正确地踏入机器学习的门。

多数有AI需求的公司,要求的是后端+DevOps+AI+前端这样的一体化岗位。这就需要你的全栈能力。

编写,测试,部署,在生产中跟踪模型、构建大规模数据是一个竞争力出众的机器学习工程师必备的。

而这些能力的基础要求,就是数学。

你当然不需要像搞科研那样精通数学。但扎实的高数、概率论、统计学基础必不可少。

对于有些培训课程打出的所谓不要求任何基础就上手AI的,Reddit网友直接说:“没有数学基础和过往编程经验的人,写出的代码是十分可怕的。”

大牛不仅仅止步于机器学习

当然,数学基础再好,代码写得再漂亮,也只是一个优秀的机器学习工程师。

真正的大佬,是不会止步于此的。

一位现在在搞神经科学的网友给出了独到的建议:

如果想做真正创新,有趣的工作,那么仅凭机器学习知识是不够的。还需要其他专业知识。

在特定环境中,清楚需要用那种ML算法来结解决问题,并且能高效处理数据,这样才能让你做出行业内独树一帜的先进成果。

以上就是Reddit机器学习社区的“过来人”给大家的忠告。

参考链接&传送门

Reddit热议贴https://www.reddit.com/r/MachineLearning/comments/ifn7ua/d_what_are_the_untold_truths_of_being_a_machine/

Reddit网友推荐:2021年最有价值的10本机器学习书https://www.machineelearning.com/top-10-machine-learning-books-in-2021/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能? 

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

最新回复(0)