开云(中国大陆官方网站)Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

关闭菜单
027-83317177
当前位置: 首页 > 新闻资讯 > 行业新闻

Mercor创始人BrendanFoody:AI训练师将成为一个新的职业

2026-03-15 01:31:22 小编

  

Mercor创始人BrendanFoody:AI训练师将成为一个新的职业

  中,我们看到新晋独角兽公司 Mercor 正在重金聘请资深专家,以训练 AI 模型从事许多专业领域的工作。据其创始人兼 CEO Brendan Foody 介绍,重点在于将专家的领域知识和经验转化为 AI 可读的评分标准。然而,人类知识中最微妙的部分 —— 比如 “品味” 或 “直觉”—— 能被算法完美复刻吗?

  在访谈的下半部分,主持人、经济学家 Tyler Cowen 继续与 Foody 展开了深度对谈。Cowen 对评分标准的专家来源提出了质疑:在某些领域,当代专家的水平远不如历史上的大师。Foody 则认为,即便专家品味难以被评分标准量化,AI 依然可以通过对人类反馈的不断观察,来捕捉偏好。他预言,对于具有经济价值的工作,社会将走向一种 “一劳永逸” 的模式,把重复性的工作交给训练好的 AI 去做。在未来,诸如投资银行家、软件工程师等知识工作者,将转向一个全新的职业类别:专门训练 AI 智能体如何从事人类工作。

  在这场人类劳动者看似会被 AI 替代的浪潮中,Foody 同时也指出,尽管模型可能很快会接管 75% 的常规工作,但在面对最后 25% 的瓶颈时,人类的专业智慧仍然不可或缺。他希望,当 AI 行业的关注点从抽象的智能水平转向真正落地的实用技能时,人类专家不仅不会被淘汰,反而将以 “AI 导师” 的身份,迎来一次专业价值的转型。

  Tyler Cowen:说到学习专家 “品味”(taste)的问题,学者们可能会想到康德在《判断力批判》中的观点,基本上是说,品味是无法被评分标准所捕捉的。那么,如果品味非常重要,而你们最希望获得的数据其实是评分标准,那么说是康德错了吗?还是说在品味的问题上,你陷入了某种循环论证,或者奢望可以从模型之外的地方不劳而获?如何更全面地理解这个问题呢?

  Brendan Foody:如果品味无法体现在评分标准中,确实还有其他类型的数据可以用来抓取它。一种方式是基于人类反馈的强化学习(RLHF):你可以让模型生成两个不同的回答,然后让这些很有品味的人去选择他们偏好哪一个。不断重复这一过程,直到模型能把握他们的偏好。这也是一种可行的方法。

  Cowen:我知道有一些研究对比了 AI 创作的诗歌和人类创作的诗歌。结果发现,有品味的读者往往更欣赏人类创作的诗歌,而普通读者却更喜欢 AI 创作的诗歌。你肯定也听说过这类研究。你会站在哪一边?

  Foody:这取决于你要优化的目标是什么。我们公司的总体思路是:对于这类 AI 产品的重度用户而言,他们会对哪种类型的回答感到满意?但这里的挑战就在于,就像你说的,有时候这会偏离顶尖专家眼中的好回答。因此,我们需要在这二者之间平衡,而这在很大程度上取决于各大实验室的研究人员和产品负责人。问题就变成:他们心中的好回答是什么样的?作为他们的合作方,我们如何与他们一起来定义好回答?

  Cowen:我的一些朋友说现在已经没有真正伟大的诗人了,诗歌的黄金时代已经过去了。如果你能对过去的诗人建模 —— 比如华兹华斯(William Wordsworth)、布莱克(William Blake)、弥尔顿(John Milton)、里尔克(Rainer Maria Rilke)等等,并弄清楚他们的想法,那么你们会用这些古代伟大诗人的模型(比如 AI 版的弥尔顿)来取代你们目前聘请的当代专家吗?

  Foody:有这个可能。这又回到了我们提出“AI 生产力指数”(APEX)的初衷,也就是我们看到大家过于关注 AI 在纯学术领域的表现,而不够关注人们将会如何在实际经济活动中使用这些模型。我相信,随着我们可以将越来越多行业的工作自动化,并且如果在很多像文科这样的领域中,人们是愿意花时间在诗歌上的,那么构建一款 AI 工具来帮助他们创作出好的诗歌,让他们或者他们的读者感到满意,这就是我们努力的方向。虽然我不确定这是否一定会用到过去这些诗人的原作。你怎么看?

  Cowen:我也不知道。我并非不喜欢诗歌,但我更喜欢古典诗歌。坦白地说,我不太信任当代的诗人,我喜欢的当代诗作也寥寥无几,也许 Geoffrey Hill 算一位。有些诗人太后现代了,有些也许太 “觉醒”(woke)了,另一些则太过于强调身份政治。所以,我担心的是把定义好诗歌的权力交给当代诗人,尽管这并不完全由他们来决定,但也是掌握了很大的话语权。

  Foody:这确实是一个非常有意思的思考:我们希望怎样训练模型并衡量它们的表现。是通过大众的共识,还是通过该领域的少数顶尖专家?这并没有正确答案。我认为不同的 AI 实验室、不同的研究人员会尝试不同的路径,这将影响他们各自的产品给人带来的感觉,以及他们最终实现的目标。

  Cowen:也许只有在今天正处于巅峰的那些领域中,我们才应该把当下的品味奉为标准。我的同事、经济学家 Scott Sumner 认为最好的电影大概是在 20 世纪 60-70 年代拍摄的。无论是否同意这个观点,我们现在仍然可以从那个年代的资深电影人中挑选专家来评估模型 —— 他们中的有些人还在世。同样,如果你认为最好的重金属音乐出自 1980 年代,那么就应该找那个年代的音乐人来评估,而不是当代的。虽然古代的大诗人已经不在世了,但是考虑到品味会随时间发生重大变化,那么以当代专家的品味来为 AI 设立标准,这仍然是一个值得推敲的决定。

  Foody:确实如此。在未来,我估计我们将能够整合来自各个不同时代的品味偏好。模型将能够了解你的偏好是什么,并利用这些不同的知识库来为你定制答案。

  Cowen:你认为,在理想的情况下,全社会在多大程度上应该变成一台巨大的强化学习机器?比如,我们可以录下每个人做的每件事、每一次会谈讨论,供 AI 模型学习。

  Foody:我认为这将很快达到一个空前的规模。当然,人们总还是会有一些私人的谈话是不想被录音的。但我坚信,对于那些具有经济价值的任务来说,我们将走向一个 “一劳永逸” 的世界。

  比如,投资银行家将无需再为了新项目和新客户,每隔几周就重复一轮公司数据分析的工作。他们将可以一劳永逸地教会模型如何做该类工作。软件开发业也类似,一旦 AI 智能体学会了相关的工作技能,就可以将其反复应用到不同的任务和场景中去。在客户支持类工作中,客服代表也无需日复一日地回复工单,他们的主要工作将是找出智能体的错误,然后把这些错误进一步转化为强化学习的材料,使得智能体能举一反三更好地解决这类问题。

  我认为,软件行业可以说是一个典型案例,代表了未来知识工作的改变方式及其背后的经济激励。在其他领域,我们也将转向这种固定成本投资,教会智能体如何做某项工作,为这类任务构建强化学习环境,然后就能通过智能体来反复执行。这是为什么我相信经济活动的很大一部分将会变成一台强化学习的机器。

  Cowen:你认为录音项链或者智能眼镜这样的穿戴式设备会比聘请专家更重要吗?还是两者都很重要?

  Cowen:拿我来说,我不太常闲聊。假如你让我戴上一个录音项链,录下我所有的谈话内容,然后把这些内容输入给模型。这会产生多大社会价值呢?5 美元、50 美元,还是更多?你会出多少价格?

  Foody:这肯定要因人而异。但我想你的谈话内容会非常有价值,这或许能成为一个不错的副业。如果从对我们的业务和客户会有多大价值的角度来看,我想数量级大概会在每年几万甚至几十万美元的价格,不过这会随着时间而变化。

  我猜测,对于绝大多数人来说,他们仍然非常看重隐私。所以,这些收集来的数据或许会更多地用来为他们打造更个性化的个人智能体,而不会被用于调校那些有数十亿用户的基座模型。

  Cowen:这个问题不难。你可以让我戴上录音项链,但我会让我的 AI 先过一遍录下来的数据,把里面我不想让 Mercor 听到的东西删掉。这个活 AI 已经可以干的相当不错,即便还不完美。然后你得到的就是过滤之后剩下的内容,比如所有那些关于价格弹性和税收政策的辩论。

  Foody:也许可以这样,但你可能比大多数人对这件事的态度要更坦然。大多数人可能会认为,这是让 AI 充当一个移除敏感信息的信任层,但它在这样做时会带有偏见。我认为这个问题总会带有那么一些敏感性。

  事实上,我相信一些在隐私保护方面做得比较好的公司将在这里占据优势。比如,虽然苹果公司目前可能在 AI 上并不处于前沿,但他们在隐私品牌建设上做得极其出色。这将使他们能够赢得用户的高度信任,从而有可能收集到这些个性化的用户信息。

  Cowen:假设三五年后,最优秀的模型已经明显超过了所有人类专家的水平,并且人们也认识到了这一点(目前我们显然还不这么认为)。在那种情况下,你认为专家的声誉将会如何?

  一种观点认为,没人会再尊重专家了,因为机器已经比他们更强。但我认为还有另一种可能。机器一般不会带有强烈的个人风格,会更少地招致人们的反感。人们从机器中得到的,实际上是不带个人色彩的专家观点提炼,专家因此反而可能会得到更多的尊重。人们会说:“哇,这就是专家的水平,太厉害了,而且他们不再会像做客深夜电视脱口秀时那样惹我烦。” 你认为人类专家的地位将会怎样呢?

  Foody:我同意你说的。我想我自己已经到了这样一个阶段:在某些领域,我信任 ChatGPT 或是其他模型的程度,已经胜过了对该行业的任何一位专家的信任,甚至有时在快速了解一些医学问题时也是如此。我认为这一部分是因为模型的能力已经很强,另一部分原因是它没有具体面孔,这让我们愿意赋予它高度的信任。

  回到你一开始提的,我认为这的确引出了这样一个问题:什么时候模型将能完成所有专家都做不到的事情?我对这个市场的判断是,模型在自动化的能力上进步神速,比方说将会把人类专家能做工作的 50%-75% 自动化,但剩下的 25% 会极其吃力。我认为在很长一段时间内,要突破这最后 25% 的瓶颈,人类的专业知识将是不可或缺的。

  Cowen:最厉害的模型还需要多久才能写出一首不亚于聂鲁达(Pablo Neruda)中等水平的诗作?不到一年?

  Foody:我的直觉也差不多。我认为在这个长尾阶段取得突破往往是最艰难的。关于这个我想的另一点是,回到任务时间跨度的维度上,虽然模型作为聊天机器人所能做的事情,在某种程度上已经超越了人类,但它们仍然无法替我们起草一封完整的电子邮件,它们也还无法帮我们安排会议。这些功能迟早会实现,但我认为要达到我们能吩咐模型 “在 90 天内建立一家创业公司”,还有很长的路要走。在我们希望模型能派上用场的每个垂直知识领域,都还需要倾注大量的人类专业知识。

  Cowen:如果我们把社会变成一台巨大的强化学习引擎,在这个过程中会创造出哪些新工作?

  Foody:我们公司的业务最有意思的部分就在于,硅谷的其他所有人都在谈论我们如何将工作岗位自动化,而我们却专注于如何建立一个全新的工作类别:让人们来训练智能体,创造强化学习的环境来帮助模型成长。我相信这将是未来的趋势。与其让投资银行家自己做分析,不如让他们去构建强化学习环境并训练智能体。无论是咨询师、软件工程师,还是客户支持人员,几乎所有的知识工作垂直领域都是如此。

  很难准确地说这将会以怎样的速度发生。但如果在未来五年内,大部分高端知识工作者都开始训练模型 —— 无论是在其全职工作中,还是通过我们这样的平台 —— 以帮助智能体更好地处理他们想要自动化的工作流程,我丝毫不会感到惊讶。我认为我们将在每一个垂直领域看到这种情况,无论使用何种工具,也无论是否会涉及 100 个小时甚至 100 天的长时段任务。

  Foody:Mercor 在拉丁语中是 “市场” 的意思,而我们想建立全球最大的市场,所以就起了这个名字。

  Foody:这在很大程度上是利用了我们的技术和平台提供的帮助。我们这家公司起步于将审核简历、进行面试、拍板录用这些流程自动化。因此,我们评估人才的方法,以及我们筛选和组建团队的模式,已经深深地烙印在公司的基因中,并且是我和其他创始人的首要任务。我非常感激团队里的每一个人,是他们让这一切看起来显得毫不费力。

  Foody:公司接下来的目标在于将我之前提到的这些实际评估方法规模化,探索如何衡量模型在跨度达到几天或几周的任务中的表现,以及这对于企业的影响,这些是我们的工作重点。过去两年来,人们一直非常关注 “智能”(intelligence),而不是模型的实用性。对于我来说,最令人兴奋的工作就是把以下这几方面联系起来:企业想用来做什么、如何衡量做的好坏、如何让模型具备做这些事的能力。

  Foody:这是个有意思的问题。我觉得Mercor 正好处在劳动力市场和人工智能研究的交叉点上。公司的成长基因一直来自于劳动力市场,我们每天都在思考如何把所有人汇聚到我们的平台上,以及如何去匹配他们。我们聘请了像 Sundeep Jain(Uber 前首席产品官兼首席技术官)这样在劳动力市场领域拥有深厚经验的专家。

  但最让我个人着迷的还是人工智能研究领域的最新进展:我们如何将人类的才能和劳动应用到前沿的 AI 问题上去、有哪些更高效的模型训练方法,以及究竟是什么样的评分标准或数据类别最能够推动模型的改进?我一直对学习这些最感兴趣。

联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 027-83317177
咨询kaiyun全站解决方案 马上咨询
免费获取技术咨询服务
姓名图标
电话图标
QQ图标

联系我们 contact us
027-83317177