查看完整版本: [-- 万亿数据产业背后,被AI「困住」的打工人[1P] --]

武当休闲山庄 -> 数码讨论 -> 万亿数据产业背后,被AI「困住」的打工人[1P] [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831 2026-06-10 16:11


「核心提示」AI发展带来数据标注、数据采集等新岗位,但职业瓶颈和薪资限制了这些岗位的人才流入,反过来影响了AI能力的天花板。

AI的发展正催生出这样的图景:在分工层次上,人来负责上层的“判断和决策”、下层的“打标和整理”。而中间层的“分析和总结”,那些传统由分析师、咨询顾问和秘书完成的脑力劳动,正被各类AI工具填满。
好消息是,上下两层出现了一些新岗位。比如数据标注、数据构建和数据采集。这些岗位正以前所未有的速度涌入就业市场。脉脉报告显示,2026年春招AI岗位量同比增长8.7倍。
数据采集与具身智能密切相关:采集员需要穿戴动捕设备,记录触觉、视觉、力学等多模态数据,帮助机器人学习抓取、行走、避障等动作。
数据构建则是对数据“去杂”的过程:公开数据或企业数据库往往格式混乱、存在错误,需要人工进行筛选和整理。
数据标注则是AI产出内容的“裁判”,告诉大模型什么样的输出是“好的”,帮助AI形成学习正反馈,提升大模型输出内容的质量。
这些新工作到底是长久趋势,还是昙花一现;能成为“文科生的康庄大道”吗,还只是“新一代天坑”?为此,《豹变》找到了一些从事相关工作的人,试图还原AI催生的新岗位背后真实情况。
1、“数据做题家”的真实面貌
景璃在北京某互联网大厂担任数据标注的外包,工作是提升AI文创工具的输出质量,她大学专业是戏剧影视文学。
景璃对《豹变》说:“我标注过的品类包括演讲稿、小说、论文,现在做最多的是漫剧或者AI短剧的剧本。”
数据标注行业也有大量的非全职招聘。成都大学生文琪就找了一份数据标注的远程兼职,内容是给英文的语音转文字做标注。
她们的工作流程一般是这样的:电脑上会显示AI的几个输出结果,数据标注负责选一个最优结果,由负责质检的同事再判断一次,负责人抽查一次,最后再由甲方检查。根据这个最优结果,AI能够逐渐“理解”人类的评价标准,从而提升输出质量。
景璃一些外包同事是数学或计算机背景,他们会承担部分数据构建的工作,即爬取公开数据,依据特定的方式进行数据清洗、整理,最后用于大模型的标注和训练。分工上,数据构建位于标注的上游。
行业内把构建和标注工作戏称为“做题”,没有这些“数据做题家”就没有各类AI工具。
据国家数据发展研究院测算,2025年专业数据产品(含人工智能训练的高质量数据集)产值规模超过2.3万亿元。
2025年3月,国家数据局数据显示,成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人,相关产值超83亿元。
市场很大,岗位薪水也各有不同。景璃与她的同事们每月能拿到12k到18k左右的固定薪水,少数人可以拿到额外奖金;文琪的兼职也能拿到每月接近10k的固定薪水。
但是,一线城市以外的地方,数据标注的薪水就没这么可观了。景璃谈到,在一些北方省会城市,同等岗位工资大约是北京的一半。
一些小城市则更低,且人员流动性很大。“新员工下班等电梯都在刷BOSS直聘找工作。”某位身在小城市、刚刚入职的数据标注员这样对《豹变》透露,他的首月薪水是1500元。
差异不光来自城市,也来自公司在行业的地位。在数据标注出现以前,景璃所在的公司就是业内知名的外包公司,客户包括国内多家互联网大厂。
这也决定了他们的招聘要求。景璃所在岗位要求有编剧、文学创作类经验,校招生前几年要求是本科,现在则要求985/211大学的文学类专业。文琪的兼职是英语类,要求英语专业八级,且成绩至少要达到“良好”。
2、AI需要“裁判”“翻译”和“保姆”
为什么AI需要这些工作?
因为AI缺乏实践积累出来的判断能力。目前,主流AI已经把互联网上的公开信息学习完毕。但在各类细分行业,还存在着大量的“水下信息”:行业内部的隐性知识、经验判断,甚至市面上的二手消息也需要进行甄别,数据标注就是这样一个帮助AI理解人类评价标准的“信息裁判”。
以法律领域为例,AI可以背诵所有法条,但面对一个具体案件的证据链分析,需要理解法官在特定地区的裁判倾向、了解某些证据在实践中的采信概率,这些不会出现在裁判文书网上。
景璃所在的剧本赛道,AI在标注前的输出质量很难让人类满意。“从戏剧创作的角度,AI生成的内容很多有明显的问题,处理这些问题的标准是相对简单、客观的。有时候,AI给的几个备选都不太好,甚至很难找到最优的。”
如果说数据标注是信息裁判,那么具身智能的数据采集就是AI与物理世界之间的翻译。现实世界存在海量物理信息,人和动物的神经系统可以自主适应,但机器人就必须靠人把真实情况如何“告诉”它。
此前有业内人士表示,大语言模型GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。
数据采集的缺口大,也催生出资本热度,目前行业里头部的创业玩家,光轮智能和帕西尼感知估值均达到了百亿级别。
帕西尼感知2025年在天津投产了全球最大具身智能数据采集工厂——Super EID Factory,部署超150个标准化采集单元,年产2亿条高质量训练数据;2026年又在江苏宿迁、湖北武汉、四川自贡、江西赣州建4座超级工厂。
复杂的不光是物理世界,还有企业的数据库。一位从事制造业的人士告诉《豹变》,个人和企业级AI Agent存在开发上的鸿沟,因为AI本质上是一个概率模型,难以完成企业里一些“精准且复杂”的工作,比如数据管理。
一位AI产品经理表示,“我们现在的数据管理智能体,正式运行前的数据清洗还是需要人工来完成。AI如果想要应用于传统制造业,对数据质量的要求很高。”
原因在于,大部分制造业没有使用统一格式的数据库,不同部门使用不同的数据标准,同一组数据在不同的表格里有不同的字段名称,数据中还存在大量冗余信息和错误。由于AI有一定概率出现幻觉,无法精准消化这些“脏数据”,必须经过清洗、对齐、补全。
这导致了AI工具要在企业跑通,需要有人做它的“保姆”。现在的企业级AI Agent,大多以整合服务方案应用于制造业,方案内容包括:数据线上化、数据清洗,最后才是AI Agent的具体应用。
3、人和AI各自的“烦恼”
不光是传统制造业,AI大厂的管理者们也希望通过AI提高企业日常运行的效率。但现实是,企业管理层往往寄望于AI降本增效,却低估了基层员工在决策中的作用。
一些大厂员工对《豹变》表示,企业强推AI,实际上增加了工作压力,因为员工不得不为AI的工作产出“擦屁股”。员工被要求在AI辅助下完成更多任务,但AI输出的结果又需要人工反复核对修正。
这也和一些公开的研究成果相吻合。
员工行为分析平台ActivTrak跟踪了2023-2025年超千家企业和4.43亿小时的数字化工作行为数据,并得出结论:随着AI落地职场,从业者的工作量并未减少,反而出现周末加班增多、工作碎片化加剧的情况。其中,员工的协作沟通时长增加34%,多任务处理时间增加了12%。
当然,这种压力一般不会压在数据外包的头上。“每天10点上班7点下班,一天工作8到9小时,白天时不时也能休息。”景璃这样对《豹变》说。
虽然觉得工作的性价比还可以,但景璃还是在考虑别的方向。“我的目标是去做短剧编剧,现在这份工作很机械,做久了对职业发展没什么帮助。”她的大多数同事却觉得,现在找个事少离家近的工作已经不容易了,抱着先做着的心态。
想法的不同可能和群体有关。景璃刚参加工作不久,她的同事们则大多超过30岁。在互联网大厂,这已经是一个平均年龄相对较大的群体。
文琪也明确表示,做数据标注的兼职只是赚个外快,校招找工作是不会找数据标注的。文琪的兼职群里也大多是学生或其他需要赚快钱的各类人群。
这可能意味着,从事数据标注的人要面对长期的职业生涯瓶颈。
这种没有行业资深人士参与、提升空间有限的状况,也限制了AI的能力。一些头部数据标注公司也试图寻找专业人士,但整体上并不成功。一位资深律师向《豹变》透露,有数据标注公司找上过自己,但被他拒绝,因为开出的价码太低。“就算你给我8000元一小时,我还要掂量下要不要冒失去饭碗的风险,何况只给200元一小时呢?”
越是需要做复杂判断的领域,数据标注的成本越高,但很多标注企业又不愿意付出足够高的溢价。结果是,这些领域的数据缺口长期存在,模型在垂直场景的表现也难以突破。
具身智能也面对类似的数据价格瓶颈,后果则是企业间的差距被拉大。真机遥控操作是行业公认质量最高的数据采集方案,单小时有效数据的成本可高达数千元,头部机器人公司凭借资金优势拥有最丰富的真机数据积累。
但很多公司受限于资金规模,只能用头部机器人公司的公开数据或仿真数据训练自己的模型,但仿真数据与真实物理环境存在偏差,迁移到真机时往往出现“Sim2Real Gap”(仿真到现实的差距)。
长远来看,数据成本总有随着规模化而被摊薄的一天。但AI始终要面对“做错了谁来负责”的问题。
责任背后,是法律与社会对“人格化主体”的认定。但AI不是法律主体,不能承担民事责任。企业如果用AI替代专业人士完成这些工作,一旦出错,责任链条会变得模糊不清。
这也是很多工作无法被AI取代的另一重原因。这些工作,既是AI发展的基石,也是AI局限性的证明。只要AI还在学习人类知识,只要物理世界还需要被“翻译”成数字语言,只要社会还需要明确的责任主体,这些工作岗位就会继续存在。

jjybzxw 2026-06-10 18:16
AI新岗位:数据标注/采集/构建行业深度全文梳理
一、行业底层分工格局:人-AI分层替代现状
AI重塑职场三层脑力分工:
1. 上层:人类主导判断、战略决策,AI无法替代;
2. 中层:传统分析师、咨询、秘书等标准化总结分析工作,被AI大面积挤占;
3. 下层:人工承接数据打标、采集、清洗整理,诞生全新就业岗位(数据标注、数据构建、多模态采集)。

市场扩张速度:2026春招AI相关岗位同比增长8.7倍,数据产业链成为刚需赛道。

三类底层AI基础岗位核心职能
1. 数据采集(配套具身智能/机器人)
穿戴动捕设备采集视觉、触觉、力学多模态真实数据,教会机器人行走、抓取、避障。
行业数据缺口极大:GPT系列千亿小时文本语料,全行业高质量机器人物理数据仅50万小时,差距上万倍;头部企业(光轮智能、帕西尼感知)估值百亿,多地投建超级采集工厂。

2. 数据构建(上游环节,数据“去杂清洗”)
爬取公开数据、对接企业杂乱数据库,统一格式、剔除错误、补全缺失信息,产出干净数据集供给标注训练。制造业AI落地高度依赖该岗位:企业各部门数据标准不统一、脏数据泛滥,AI易产生幻觉,无法自主完成规整,必须人工预处理。

3. 数据标注(AI的“人类裁判”)
针对AI生成文本、剧本、语音、图文给出优劣评判标准,给模型正向反馈,持续优化输出质量。覆盖剧本、论文、法律、语音转写、图文多赛道,是大模型迭代的核心基础。

二、从业者真实生存现状:收入分层、门槛分化、职业天花板明显
1. 薪资地域&层级巨大差距
- 一线大厂外包(专业赛道:文学、法律、外语):全职12k-18k,优质项目有奖金;英语专八远程兼职月入近万;
- 北方省会同级岗位:薪资仅一线城市一半;
- 小城市基础标注岗:月薪低至1500,人员流动极快,员工持续跳槽。

2. 招聘门槛持续抬高,细分赛道重专业背景
- 剧本/漫剧标注:偏好戏剧影视文学,校招从普通本科升级为985/211文学专业;
- 语音英文标注:硬性要求英语专八且成绩良好;
- 数据构建:多要求计算机、数学背景,负责爬虫、数据清洗工作。

3. 从业者心态:短期过渡,难做终身职业
1. 年轻从业者(应届生、文科毕业生):仅当作过渡兼职/短期工作,长远目标转向编剧、策划、专业对口岗位,认为标注工作机械重复,无法积累核心竞争力;
2. 30岁以上基层从业者:只求工作稳定、压力小、上下班规律(早10晚7,每日8-9小时),安于现状;
3. 行业共性痛点:职业瓶颈极强,属于流水线式脑力重复劳动,缺少晋升与专业沉淀通道。

三、行业两大核心矛盾:人才供给不足,反向限制AI技术上限
矛盾1:高端垂直领域专业人才不愿入行,高质量数据长期短缺
法律、医疗、金融等高门槛行业标注,需要资深专业人士输出评判标准,但企业给出时薪溢价极低(如律师仅200元/小时),远低于专业本职收入,资深从业者普遍拒绝接单。
后果:垂直行业数据集质量不足,大模型在细分专业场景能力难以突破。

矛盾2:具身智能数据成本两极分化,拉大企业技术差距
- 最优方案真机实操采集:单小时有效数据成本数千元,仅百亿估值头部企业负担得起;
- 中小厂商只能依赖免费公开数据、仿真模拟数据,存在“仿真-现实鸿沟”,机器人落地效果远落后头部企业。

矛盾3:企业AI降本预期落空,人工核验成本不降反增
企业大规模上线AI工具后,并未减少人力:员工需要花费大量时间修正AI错误、反复复核输出内容。
第三方平台数据(2023-2025):千余家企业、4.43亿小时工作行为统计,AI落地后:
- 协作沟通时长增加34%
- 多任务处理时长增加12%
- 周末加班、工作碎片化问题显著加剧

仅外包标注岗位压力偏低,企业正式员工普遍承担AI纠错额外工作量。

四、岗位长期存在的三大底层逻辑(不会短期消失)
1. AI不具备人类隐性经验判断力
网络公开数据已被充分学习,但行业潜规则、法官裁判倾向、实操隐性经验等“水下信息”无法自动抓取,必须人工标注建立评判标准;AI只能做概率推演,不懂现实场景复杂取舍。
2. 物理世界数字化必须人工“翻译”
机器人无法自主感知真实世界触觉、受力、空间逻辑,海量多模态物理数据只能依靠人工穿戴设备采集,仿真数据永远无法完全替代真机真实数据。
3. AI无法承担法律与民事责任
AI不属于法律责任主体,一旦企业用AI替代专业岗位出错,责任链条模糊。涉及法律、医疗、企业决策等高风险场景,必须保留人类终审、核验环节,底层数据标注、数据清洗岗位作为前置流程无法省略。

五、全文核心总结
1. 市场规模庞大:2025年高质量AI数据集产值超2.3万亿,七大标注基地带动5.8万就业,是AI产业刚需基础赛道;
2. 岗位两极分化:一线城市专业赛道收入可观,但小城市基础岗薪资微薄;门槛持续提升,却普遍存在职业发展天花板,仅适合短期过渡;
3. 产业发展枷锁:高薪专业人才供给不足、高端数据采集成本高昂,直接限制大模型、具身智能技术突破,形成“缺人→数据差→AI能力受限”的循环;
4. 长期趋势判断:数据标注、采集、构建不会昙花一现,但不会成为优质长期职业;它是AI发展的底层基建,只要AI仍需学习人类现实经验,人工数据处理岗位就会持续存在。

姜谷粉丝 2026-06-11 09:15
万亿数据产业规模已超2.3万亿元(2025年专业数据产品产值),但AI的快速发展让从业者陷入“新岗位陷阱”与“旧岗位冲击”的双重困境,核心矛盾体现在以下方面:

一、AI催生的“新岗位”:高薪光环下的职业困局
AI发展催生了数据标注、数据采集等“数据做题家”岗位,看似为文科生、毕业生打开新赛道,实则存在多重隐忧:

职业天花板低,人才流动性大
数据标注本质是“AI裁判”,需从AI生成的多个结果中选最优解,帮助模型迭代,但工作内容重复性强、技能迭代慢。一线从业者月薪12k-18k(北京),但三四线城市薪资仅为北京的50%,且人员流动极快——“新员工下班等电梯都在刷招聘软件”,岗位难以形成长期职业积累。
准入门槛虚高,供需矛盾突出
头部企业招聘数据标注岗,已从“本科”升级为“985/211文学/英语专业”,兼职岗也要求“英语专八+良好成绩”,但岗位实际技能需求与学历门槛不匹配,导致“高学历人才扎堆,低技能岗位无人深耕”。
区域发展失衡,机会集中在头部
优质岗位集中在北京、上海等一线城市,北方省会、小城市不仅薪资低,还缺乏完整的产业链配套,从业者难以在当地获得长期发展机会。
二、AI替代的“旧岗位”:传统脑力劳动的“中间层塌陷”
AI工具正在快速填补“分析、总结、决策辅助”等中间层脑力劳动,传统职业面临“技能贬值”:

分析师、咨询顾问、秘书:AI可快速完成数据整理、报告生成、会议纪要等工作,人类仅能保留“顶层决策”和“底层执行”,中间层价值被大幅压缩。
制造业数据管理岗:企业级AIAgent落地前,需人工完成数据清洗、对齐、补全,AI的“概率模型”特性无法处理“脏数据”,导致“AI越普及,人工数据维护越忙”。
三、AI与就业的深层矛盾:效率提升与岗位收缩的悖论
劳动生产率提升≠就业增长
编程行业借助AI工具,1人2-3小时可完成过去9-10人2周的工作量;新能源汽车、智能制造等先进制造业,用工规模远小于传统制造业。AI提升效率的同时,直接导致岗位需求收缩。
中国就业压力更严峻
中国过去依赖“低成本劳动力”构建产业链优势,AI让制造业不再高度依赖人力,传统成本优势消失。叠加2026年高校毕业生达1200万人、农村剩余劳动力转移需求,AI替代冲击可能引发就业市场结构性失衡。
从业者“越忙越累”的困境
员工行为分析数据显示,AI落地后,从业者周末加班增多、工作碎片化加剧,协作沟通时长增加34%,多任务处理时间增加12%——AI未减少工作量,反而让工作更复杂。
四、破局方向:个人与社会的协同应对
个人层面:向“AI无法替代”的能力转型
聚焦创造性、复杂沟通、情感交互、跨领域整合等AI弱项,如AI培训师(教模型理解行业逻辑)、机器人维护工程师(调试具身智能设备)、高端咨询(结合人性洞察做决策)。
社会层面:制度重构共享AI红利
国际货币基金组织(IMF)预测全球40%岗位面临AI替代风险,中国需通过劳动制度调整(如缩短工时)、税收调节(对AI企业征收专项税)、教育升级(培养AI协作能力)等方式,让劳动者共享技术红利,避免就业市场剧烈震荡。


查看完整版本: [-- 万亿数据产业背后,被AI「困住」的打工人[1P] --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号