国产大模型创业公司研发人员面临的困境与机遇：百万年薪与数十亿算力投入的挑战_用户投稿_公司简介

_迷茫中的大模型从业者：疯狂的时代正在过去_迷茫中的大模型从业者：疯狂的时代正在过去

这是中国互联网史上人力成本最高的行业：应届毕业生年薪可达百万，从硕士起，大部分职位甚至仅限于博士。

这也是中国互联网史上人力成本最低的行业：龙头企业开始冲击10万张卡的规模，这意味着数十亿美元的算力投入。

这是国内大模创业公司研发人员面临的终极困境。一方面，它们非常重要，但另一方面，它们又不那么重要。

过去两年，大型机型的热潮席卷了科技界。从业者将其视为未来20年打开科技行业大门的钥匙，蕴藏着无数机遇。他们期待在这里培育出下一个BAT，真正将技术转化为财富。

近日，《新浪蜂鸟》采访了几位正在或曾经在国内大型模型创业公司工作的员工，试图记录下这两年发生在这些犹豫不决的攻击者身上的故事。

交流中，几乎所有人都重复着这句话，“大机型可能是中国科技企业未来十年遇到的最好机会”。

但每个人对这个机会的理解却完全不同：

“短期内我看不到任何（盈利）机会，所以我正在考虑改变赛道。”

“还是回大厂比较好，比较稳定。”

“如果你做到了这一点，你就会被历史铭记。失败也没有坏处。”

三种不同的答案或许才是中国大型创业公司最终能交出的答案：放弃、被收购、一夜成名。

邮箱被破坏

2023年初，在一家大型互联网公司工作了近十年的金阳决定寻找新的机会。

在下属眼中，金阳是一头技术超强的“大牛”。入职短短一年，他就晋升三级，打破了公司原有的晋升“潜规则”；然后他独立组建了一个团队。一个小团队独立工作，尽管部门业务发生了几次变化，但仍保持坚定。

但2022年底，金阳感到一阵寒意，他的业务部门不断裁员。

更重要的是，公司抽调了部分技术人员专攻大型车型。金阳申请转队，但未获批准。

此时，AI引发的人工智能风潮刚刚从大洋彼岸传到中国，国内大型模型产业突然爆发。除了占据舞台中心的传统巨头百度、阿里巴巴、腾讯、字节跳动外，许多初创公司也开始进入这个市场。。

这一阶段被当时的媒体称为“百模型之战”，但金阳告诉笔者，国内能够真正独立训练基础大模型的公司最多不超过30家。 “这30家企业中，真正能够完成大型通用车型开发的企业不到10家。”

投资人常兵告诉笔者，2022年底和2023年初，美国和中国的大型模型公司呈现出百花齐放的共同特点。但经过两年的优胜劣汰，资源不断向领先者聚集。 “目前，美国继续研发通用大型模型的公司仅剩五家，分别是马斯克旗下的Meta、和xAI；在中国，以商汤科技、旷视科技、云从和依图科技为代表的AI四小龙退出，取而代之的是百川智能、零一愿望、智普AI、月暗面、踏星为代表的六家大型典范独角兽公司。”

金阳，这位内部调动失败的“大牛”，很快就被大型初创公司瞄准。一夜之间，他的邮箱收到了很多猎头的邮件。 “过去，也有来自其他主要互联网公司或初创公司的电子邮件。”邀请，但这样的密度在2023年初确实非常罕见。”

离开还是留下？金阳很快就做出了决定，“公司还在优化，未来不可预测，大车型是未来几年最好的机会。”

和他一起离开的还有另外六个人。这也是去年上半年大型模型初创公司团队搭建的基本模式。相关开发团队从大厂撤走了。 “大型模型开发需要非常高的技术背景，至少在去年上半年，这些人才几乎都在大工厂里。”

尽管大型初创公司已经开始校园招聘，但从大工厂接手成熟员工仍然是重要的招聘方式。 “我手里还有几个招聘名额，但方向仍然是针对大工厂，即插即用。” ”

不过，金阳也承认，大工厂挖人的可能性正在逐渐降低。阿里巴巴、百度、腾讯、字节等大型模特团队均已于2022年底和2023年上半年重新签署竞业限制协议。

徒劳的二段跳

2024年初，凌辉从一家大型模型创业公司转型为大型模型六虎之一。 “原来那家公司融资太难了，我就觉得可能有问题。”

他的职业生涯始于2021年，硕士毕业后，顺利进入一家大工厂实习，最终成为一名全职员工，年薪40万。当时，凌辉还觉得自己是一个幸运的人，因为当时的就业形势很糟糕，各大公司都在频繁裁员、减少校招名额。

这种幸运感在大模强风吹起后变成了遗憾，“我不应该因为着急找工作而停止读博士。”当看到学弟学妹博士毕业后年薪近80万元时，凌说辉觉得自己也应该改变一下环境。

在与几位同学交流后，凌辉敏锐地发现，在春秋两季的招聘过程中，大公司往往会采取“掐尖”的招聘模式。 “只有相关专业前5%的应届毕业生才能获得机会，硕士学位基本上是最低门槛。”凌辉称这种模式为“只选贵的，不选合适的”。

大公司的光环和高工资确实让它们在大模特人才争夺战中处于领先地位，比如百度推出的“AIDU计划”、腾讯青云计划中的“AI大模特招聘独立通道”，以及字节跳动旗下的豆宝。模特团队设立的“头号种子”种子计划，就连后起之秀美团也推出了“北斗计划”。

但对于像凌辉这样有一定技术经验但不是顶尖人才的求职者来说，以六小虎为代表的初创公司可能更适合。 “创业公司更注重专业对口，最好有工作经验。”

同学过去的经历，就是凌辉的目标。 2011年，这个家伙一年内逛了三个团购网站，最终被阿里巴巴录用。他的年薪增长了四倍多，目前是阿里巴巴某部门的M4（M4）。导演）。

不过，在常兵看来，大模型行业与中国历史上几乎所有的互联网行业都不同。 “中国互联网公司喜欢花钱挖人，因为这个行业最需求的就是人，多一个员工就意味着多一个产出。” ;大模型产业的核心是投入极少数顶尖人才和基础算力。多一个人和少一个人差别很小。 ”

脉脉相关数据显示，2023-2024年大模型行业最受欢迎的人才仍然是NLP算法工程、深度学习等低层技术人才，而中低层算法工程师的薪资几乎不会变化当他们换工作时。

报告显示，只有一半的员工在从事模特相关工作后实现了加薪，只有16%的员工涨幅超过50%。

值得注意的是，今年10月中旬，字节跳动大模培实习生“中毒”事件让行业在选拔员工时更加谨慎。

据笔者了解，这起事件发生在商业化团队中。实习生田某某因对团队的资源分配不满意，利用HF漏洞，通过共享模型注入损坏代码，对团队的模型训练结果造成损害。

11月底，字节跳动起诉该实习生，索赔侵权损失800万加合理费用2万元。

经历了这件事后，一家大厂的招聘负责人告诉笔者，他们现在对于大车型相关的招聘非常谨慎。虽然释放的岗位很多，但如果达不到要求，“我宁愿空着”。

令辉最终选择离开这个行业。他仍在找工作。他对大型模型只有一个评价，“（目前）这不是一个好机会”。

大厂小创新，小厂大创新

和金阳、凌辉一样，夏铭也来自一家互联网大公司。 2023年上半年，他和上级跳槽到了大模六小虎之一。 “xx（原公司）的晋升路径已经基本封闭，大车型对于中国互联网企业来说是一个难得的机会。”

但刚进新公司没多久，夏铭就感到迷茫，“工资确实提高了，但是太累了，而且几乎每天都要加班到十点甚至更晚。去年，公司开始全职工作，没有人反对。”

在笔者与刘小虎公司一位招聘负责人的交谈中，该人士表示，虽然该公司融资情况良好，目前也有业务收入，但招聘过程仍然“不顺利”。 “面试过程中，很多求职者”

最终，夏铭回到了原来工作的大厂，接替了原领导辞职时留下的职位。 “它稳定且熟悉，一天的大部分时间都花在处理内部沟通上，这使得它更加自由。”

做出和夏铭一样的选择的人并不罕见。今年下半年，旭智科技创始人秦羽佳、零千物模型预训练负责人黄文浩先后加盟字节跳动，零一千物联合创始人据透露，李现刚已回到原来的壳牌公司。

在海外，一些大型创业公司的人员也开始返回大工厂。今年11月底，谷歌大模式的重要参与者Yi Tay宣布在离开谷歌创业一年半后重返谷歌。

值得注意的是，谷歌此前曾以25亿美元的超高估值拿走AI独角兽。 AI的核心技术团队包括两位明星创始人Noam和De。

值得注意的是，进入2024年之后，国内各大互联网公司对于大机型的态度已经变得不再那么激进。常兵告诉笔者，“现在大厂商比较克制，更喜欢用投资来替代资源，以保证自己不落后，自己投入大量资源的动力不足。”

比如某大厂最近开设的一个大模型，其核心内容就是寻找自己的独家资源。其本质是开放而不是大模型。 ”

“大厂小创新，小厂大创新现在几乎是大模型圈的共识。”常兵告诉笔者。

据笔者不完全统计，国内六大模式中，阿里巴巴投资了除面墙智能外的其他五家公司，而腾讯则投资了百川智能、智普AI、月之暗面。其中，后两者美团也出现在投资名单上。

随着腾讯、阿里巴巴多名大机型高管辞职，字节跳动是目前仅存的对大机型仍持激进态度的大厂。麦麦数据显示，自2021年以来，字节跳动连续第四年在新发布的AI岗位数量上排名第一，在众多大厂中大模人才招聘指数最高。

今年以来，字节豆宝的广告在小红书、哔哩哔哩甚至百度上随处可见。夏明告诉笔者，豆包的日活跃度应该已经在“千万”级别了。 “这个广告量别说是大模特刘小虎了，其他大厂都做不到。”

仍有不少防守者

除了大型厂商回流之外，大型模型行业还在人才流失。

今年7月，阿里巴巴大模特元老、统一钱文奠基人杨红霞从字节跳动辞职，加盟香港理工大学，担任电子计算机系教授；

同样是下半年，月之暗面多名海外产品负责人离职创业。年初，他们还丢掉了大模型产品领导者的桂冠；

“星野”产品负责人张千川近日辞去公司一线管理事务，转而担任产品顾问； 11月下旬，腾讯杰出科学家、混元大模型技术负责人之一刘伟正式从腾讯辞职。

但更多的人仍在坚持。何方于2017年年中从一家大厂辞职，此后一直活跃在人工智能行业。加入四位AI小龙中的两位后，他从社交平台跳槽到大模六小虎之一并工作至今。

“我从来没有这么忙过。”近一个月来，何方几乎每天都加班到10点多。 “大模特绝对是中国互联网公司里最忙的。xxxx（另一位大模特刘小虎）不知道为什么前段时间每天都能正常下班，但最近又恢复了每天加班。”

脉脉数据显示，超过65%的大模特从业者每周工作时间超过50小时，近三分之一的人甚至每周工作时间超过60小时。

“最大的问题是.0还没有公布，所以大家都不知道下一阶段该往哪里走，我们只能在原来的基础上继续深化。”何方的观点得到了常冰的认可，“已经有大型初创公司开始进入你擅长的行业，但目前大型模型初创公司仍然以培养通用大型模型为主。”

好消息是，大模刘小虎这一年来虽然减少了部分员工，但几乎全部集中在运营部门，技术研发方面几乎没有人员流失。何方告诉笔者，“大模型最贵的不是人力成本，而是培训成本和算力投入。因为大家还没有掌握模型，所以每个公司还是限制在几百人。如果未来，国内大型模特公司可以拥有相对成熟的商业模式或者用户模式，甚至可能会继续大规模招兵买马。”

追随者更关心的是行业的未来。何方的研发团队经常在加班时一起讨论三个问题：“能卖吗？卖给谁？怎么卖？”

没有答案。

这样的讨论场景在以往的AI初创公司中比较少见。 “与人工智能四小龙时代不同的是，大型初创公司在创业初期就开始考虑商业化和国际化业务。”常冰告诉笔者，“这个行业的求职者最关心的不仅是大型模型技术的发展和公司的融资情况，还有公司的大型模型业务是否有实施场景。”

“明年年中可能是一个分水岭。大型模型可能是一个非常强大的产品，但它也可能成为像人脸识别一样的通用技术。”拥有人脸识别行业经验的何方告诉笔者。

激烈的价格战

今年年中，大型模型行业突然爆发了一场激烈的价格战。

5月初，私募巨头欢放量化旗下AI公司宣布开源第二代教育部大模型——V2，每百万只售价1元；大模六小虎之一的智浦AI也紧随其后，价格从原价降至五毛钱。一;价格战的参与者几乎包括所有主要厂商。字节跳动、阿里巴巴、百度、腾讯和科大讯飞也纷纷降价。

这场价格战被常兵评价为“荒谬”。 “互联网行业的价格战基本上发生在企业争夺地盘的时候，就是在大家都熟悉的领域，利用价格优势攻击其他对手，获得规模。”影响。但现在大机型没有稳定的收入，价格战没有意义。 ”

在常兵看来，大型模型公司发起价格战的核心原因无外乎两点：为大厂商的其他业务谋取利润，或者为初创公司寻求用户。

对于大型制造商来说，价格战仅限于象征性的降价。下游企业获得大模型API后，需要通过喂数据、模型微调等方式进行优化部署，这部分成本不会有任何变化。以阿里巴巴的Qwen-Turbo大型模型为例，百万级代币仅需2元，但继续训练至少需要30元，具体部署每月的成本高达2万元。

百度云千帆的大模型平台也类似。虽然大模型代币可以免费调用，但后期相关链接需要单独付费，价格昂贵。

各大厂商发起的大机型价格战背后，云计算业务成为了实际的暴利者。在百川智能发布会上，创始人王小川表示，（价格战）的根本目标不是销售大机型本身，而是带动整套云服务的销售。猎豹移动董事长兼CEO傅盛也在微信朋友圈发文称，在这场价格战中，降价幅度最大的是那些拥有云服务的大公司。他们使用大型模型来获取云客户。羊毛来自于猪，价格下降幅度最大。上升。

对于大型车型初创公司来说，发起价格战的根本目的并不是为了夺取地盘，本质上是“让客户体验到车型的能力”。常兵告诉笔者，使用的人越多，对大型模型公司来说越有利，“首先，它可以让B端客户体验模型能力，并完成本地部署等高净利润业务的支付同时，通过C端用户的使用，可以进一步优化大模型。”

价格战过后，行业竞争格局发生了微妙的变化。

下半年有消息称，拥有大模型的六小虎中的两家正在放弃预训练模型，减少预训练算法团队的数量，并将业务重心转向AI应用。

金阳、何方先后向笔者证实了这一消息。传闻放弃预训的就是金阳的大型模特公司。不过，金阳也向笔者强调，公司并没有完全放弃预训练模型，而是暂时尝试更多的AI应用。 “说实话，没有人知道未来会发生什么，各大模特公司都还在尝试。”

这样的回应并不令人意外。所有通用大型模型的核心都是预训练，这是决定模型性能最关键的内容，也是所有模型厂商的核心技术壁垒。

金阳告诉笔者，一般大模型的研发与九年义务教育非常相似。必须全面学习基础知识，才能进入大学选专业乃至未来就业。 “如果大型模特公司放弃预训而转向应聘，就意味着在基础知识不扎实的情况下进入大学。”

去B还是不去B

当通用汽车把手放在转向灯按钮上，正要按下时，想到的问题是，应用层改造后，无论是to B还是to C，公司都能持续获得融资和人才就像过去两年一样。？

残酷的事实是，大型模特公司可能无法再坚持下去了。

数据显示，过去三年，约2.6万家大型初创企业融资额超过3000亿美元；而在中国市场，六小虎的融资也以亿美元计算。然而，随着AI能力的快速演进，训练成本也呈指数级增长。

该公司联合创始人兼CEO Dario在一次公开讨论中透露，3个模型的训练成本已达到约1亿美元；处于研发阶段、预计2024年底或2025年初发布的新一代模型的训练成本会更高。已接近 10 亿美元。

马斯克曾估计，.0 训练可能需要 3 万到 5 万个 H100，仅芯片成本就超过 7 亿美元，大约相当于独角兽公司市值的一半以上。

据预测，到 2025 年或 2026 年，训练最新大型语言模型的成本将达到 50 亿至 100 亿美元。

只有少数财力雄厚的大公司及其合作伙伴有能力构建这些基本模型。

这意味着大型初创企业需要持续筹集资金，或者至少拥有一定程度的流动性。

例如，致B？

在今年7月举办的一次大型模型大会上，与会的大型模型初创公司几乎没有提及通用人工智能，而是讨论如何落地。

但至少在过去的一两年里，to B并不是一个成熟的答案。金阳和何方都告诉笔者，目前的大模式只能在某些数字化已经成熟的行业取得关键突破，比如金融、医疗、互联网等。与能源一样，在所有行业大规模复制几乎是不可能的。”

与美国同行完全不同的是，美国的大型模型公司能够输出相对标准化、单一的产品，因为各个行业的数字化程度都比较高。在中国，大型模型初创公司往往需要面对各行业的定制化需求和数字化程度。完全不一致的困境。

更麻烦的是，随着美国大型模型公司不断开源，国内厂商不断发动价格战，大型模型初创公司通过B站赚钱变得越来越困难。你失去的更多。”

何方告诉笔者，“公司现在悄悄推出了一些业务，没有进行宣传，甚至连App都没有在各大应用市场上线。”

那么，不去B吗？

六小虎之一给出了很好的答案，在海外市场。 “内部会议和沟通显示，它已经盈利了，”金阳告诉作者。 “大部分收入来自聊天机器人社交应用程序。”据公开声明，该公司今年计划实现收入7000万美元，约合人民币5亿元。收到。

这也是中国互联网公司的成熟路径，利用社交、支付等日常应用打造超级App，即人工智能时代的微信、抖音或者支付宝。金阳、夏铭、何放对此虽然有所期待，但并不乐观。 “中国不可能在短时间内产生所谓的超级应用。国外用户有良好的订阅习惯，但国内用户更习惯免费服务。”

大型模型的疯狂似乎正在过去，没有人能够真正预测未来。好消息是，在这些仍在坚持的开发者眼中，国产大车型永远不会成为下一个白白结束的元宇宙。

“如果这件事能做到，”何放眼里依然有光，“我们可能会成为中国科技发展史上最值得纪念的一群人。”

以上部分内容由“文心一言”整理拓展，转载请注明出处：https://www.2sg.net.cn//61628.html

国产大模型创业公司研发人员面临的困境与机遇：百万年薪与数十亿算力投入的挑战

联系我们