武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 万亿数据产业背后，被AI「困住」的打工人[1P] --]

武当休闲山庄 -> 数码讨论 -> 万亿数据产业背后，被AI「困住」的打工人[1P] [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831

2026-06-10 16:11

「核心提示」AI发展带来数据标注、数据采集等新岗位，但职业瓶颈和薪资限制了这些岗位的人才流入，反过来影响了AI能力的天花板。
作
AI的发展正催生出这样的图景：在分工层次上，人来负责上层的“判断和决策”、下层的“打标和整理”。而中间层的“分析和总结”，那些传统由分析师、咨询顾问和秘书完成的脑力劳动，正被各类AI工具填满。
好消息是，上下两层出现了一些新岗位。比如数据标注、数据构建和数据采集。这些岗位正以前所未有的速度涌入就业市场。脉脉报告显示，2026年春招AI岗位量同比增长8.7倍。
数据采集与具身智能密切相关：采集员需要穿戴动捕设备，记录触觉、视觉、力学等多模态数据，帮助机器人学习抓取、行走、避障等动作。
数据构建则是对数据“去杂”的过程：公开数据或企业数据库往往格式混乱、存在错误，需要人工进行筛选和整理。
数据标注则是AI产出内容的“裁判”，告诉大模型什么样的输出是“好的”，帮助AI形成学习正反馈，提升大模型输出内容的质量。
这些新工作到底是长久趋势，还是昙花一现；能成为“文科生的康庄大道”吗，还只是“新一代天坑”？为此，《豹变》找到了一些从事相关工作的人，试图还原AI催生的新岗位背后真实情况。
1、“数据做题家”的真实面貌
景璃在北京某互联网大厂担任数据标注的外包，工作是提升AI文创工具的输出质量，她大学专业是戏剧影视文学。
景璃对《豹变》说：“我标注过的品类包括演讲稿、小说、论文，现在做最多的是漫剧或者AI短剧的剧本。”
数据标注行业也有大量的非全职招聘。成都大学生文琪就找了一份数据标注的远程兼职，内容是给英文的语音转文字做标注。
她们的工作流程一般是这样的：电脑上会显示AI的几个输出结果，数据标注负责选一个最优结果，由负责质检的同事再判断一次，负责人抽查一次，最后再由甲方检查。根据这个最优结果，AI能够逐渐“理解”人类的评价标准，从而提升输出质量。
景璃一些外包同事是数学或计算机背景，他们会承担部分数据构建的工作，即爬取公开数据，依据特定的方式进行数据清洗、整理，最后用于大模型的标注和训练。分工上，数据构建位于标注的上游。
行业内把构建和标注工作戏称为“做题”，没有这些“数据做题家”就没有各类AI工具。
据国家数据发展研究院测算，2025年专业数据产品（含人工智能训练的高质量数据集）产值规模超过2.3万亿元。
2025年3月，国家数据局数据显示，成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人，相关产值超83亿元。
市场很大，岗位薪水也各有不同。景璃与她的同事们每月能拿到12k到18k左右的固定薪水，少数人可以拿到额外奖金；文琪的兼职也能拿到每月接近10k的固定薪水。
但是，一线城市以外的地方，数据标注的薪水就没这么可观了。景璃谈到，在一些北方省会城市，同等岗位工资大约是北京的一半。
一些小城市则更低，且人员流动性很大。“新员工下班等电梯都在刷BOSS直聘找工作。”某位身在小城市、刚刚入职的数据标注员这样对《豹变》透露，他的首月薪水是1500元。
差异不光来自城市，也来自公司在行业的地位。在数据标注出现以前，景璃所在的公司就是业内知名的外包公司，客户包括国内多家互联网大厂。
这也决定了他们的招聘要求。景璃所在岗位要求有编剧、文学创作类经验，校招生前几年要求是本科，现在则要求985/211大学的文学类专业。文琪的兼职是英语类，要求英语专业八级，且成绩至少要达到“良好”。
2、AI需要“裁判”“翻译”和“保姆”
为什么AI需要这些工作？
因为AI缺乏实践积累出来的判断能力。目前，主流AI已经把互联网上的公开信息学习完毕。但在各类细分行业，还存在着大量的“水下信息”：行业内部的隐性知识、经验判断，甚至市面上的二手消息也需要进行甄别，数据标注就是这样一个帮助AI理解人类评价标准的“信息裁判”。
以法律领域为例，AI可以背诵所有法条，但面对一个具体案件的证据链分析，需要理解法官在特定地区的裁判倾向、了解某些证据在实践中的采信概率，这些不会出现在裁判文书网上。
景璃所在的剧本赛道，AI在标注前的输出质量很难让人类满意。“从戏剧创作的角度，AI生成的内容很多有明显的问题，处理这些问题的标准是相对简单、客观的。有时候，AI给的几个备选都不太好，甚至很难找到最优的。”
如果说数据标注是信息裁判，那么具身智能的数据采集就是AI与物理世界之间的翻译。现实世界存在海量物理信息，人和动物的神经系统可以自主适应，但机器人就必须靠人把真实情况如何“告诉”它。
此前有业内人士表示，大语言模型GPT-5训练语料折合约100亿小时，而全行业汇聚的高质量具身数据仅约50万小时，差距以万倍计。
数据采集的缺口大，也催生出资本热度，目前行业里头部的创业玩家，光轮智能和帕西尼感知估值均达到了百亿级别。
帕西尼感知2025年在天津投产了全球最大具身智能数据采集工厂——Super EID Factory，部署超150个标准化采集单元，年产2亿条高质量训练数据；2026年又在江苏宿迁、湖北武汉、四川自贡、江西赣州建4座超级工厂。
复杂的不光是物理世界，还有企业的数据库。一位从事制造业的人士告诉《豹变》，个人和企业级AI Agent存在开发上的鸿沟，因为AI本质上是一个概率模型，难以完成企业里一些“精准且复杂”的工作，比如数据管理。
一位AI产品经理表示，“我们现在的数据管理智能体，正式运行前的数据清洗还是需要人工来完成。AI如果想要应用于传统制造业，对数据质量的要求很高。”
原因在于，大部分制造业没有使用统一格式的数据库，不同部门使用不同的数据标准，同一组数据在不同的表格里有不同的字段名称，数据中还存在大量冗余信息和错误。由于AI有一定概率出现幻觉，无法精准消化这些“脏数据”，必须经过清洗、对齐、补全。
这导致了AI工具要在企业跑通，需要有人做它的“保姆”。现在的企业级AI Agent，大多以整合服务方案应用于制造业，方案内容包括：数据线上化、数据清洗，最后才是AI Agent的具体应用。
3、人和AI各自的“烦恼”
不光是传统制造业，AI大厂的管理者们也希望通过AI提高企业日常运行的效率。但现实是，企业管理层往往寄望于AI降本增效，却低估了基层员工在决策中的作用。
一些大厂员工对《豹变》表示，企业强推AI，实际上增加了工作压力，因为员工不得不为AI的工作产出“擦屁股”。员工被要求在AI辅助下完成更多任务，但AI输出的结果又需要人工反复核对修正。
这也和一些公开的研究成果相吻合。
员工行为分析平台ActivTrak跟踪了2023-2025年超千家企业和4.43亿小时的数字化工作行为数据，并得出结论：随着AI落地职场，从业者的工作量并未减少，反而出现周末加班增多、工作碎片化加剧的情况。其中，员工的协作沟通时长增加34%，多任务处理时间增加了12%。
当然，这种压力一般不会压在数据外包的头上。“每天10点上班7点下班，一天工作8到9小时，白天时不时也能休息。”景璃这样对《豹变》说。
虽然觉得工作的性价比还可以，但景璃还是在考虑别的方向。“我的目标是去做短剧编剧，现在这份工作很机械，做久了对职业发展没什么帮助。”她的大多数同事却觉得，现在找个事少离家近的工作已经不容易了，抱着先做着的心态。
想法的不同可能和群体有关。景璃刚参加工作不久，她的同事们则大多超过30岁。在互联网大厂，这已经是一个平均年龄相对较大的群体。
文琪也明确表示，做数据标注的兼职只是赚个外快，校招找工作是不会找数据标注的。文琪的兼职群里也大多是学生或其他需要赚快钱的各类人群。
这可能意味着，从事数据标注的人要面对长期的职业生涯瓶颈。
这种没有行业资深人士参与、提升空间有限的状况，也限制了AI的能力。一些头部数据标注公司也试图寻找专业人士，但整体上并不成功。一位资深律师向《豹变》透露，有数据标注公司找上过自己，但被他拒绝，因为开出的价码太低。“就算你给我8000元一小时，我还要掂量下要不要冒失去饭碗的风险，何况只给200元一小时呢？”
越是需要做复杂判断的领域，数据标注的成本越高，但很多标注企业又不愿意付出足够高的溢价。结果是，这些领域的数据缺口长期存在，模型在垂直场景的表现也难以突破。
具身智能也面对类似的数据价格瓶颈，后果则是企业间的差距被拉大。真机遥控操作是行业公认质量最高的数据采集方案，单小时有效数据的成本可高达数千元，头部机器人公司凭借资金优势拥有最丰富的真机数据积累。
但很多公司受限于资金规模，只能用头部机器人公司的公开数据或仿真数据训练自己的模型，但仿真数据与真实物理环境存在偏差，迁移到真机时往往出现“Sim2Real Gap”（仿真到现实的差距）。
长远来看，数据成本总有随着规模化而被摊薄的一天。但AI始终要面对“做错了谁来负责”的问题。
责任背后，是法律与社会对“人格化主体”的认定。但AI不是法律主体，不能承担民事责任。企业如果用AI替代专业人士完成这些工作，一旦出错，责任链条会变得模糊不清。
这也是很多工作无法被AI取代的另一重原因。这些工作，既是AI发展的基石，也是AI局限性的证明。只要AI还在学习人类知识，只要物理世界还需要被“翻译”成数字语言，只要社会还需要明确的责任主体，这些工作岗位就会继续存在。

jjybzxw

2026-06-10 18:16

AI新岗位：数据标注/采集/构建行业深度全文梳理
一、行业底层分工格局：人-AI分层替代现状
AI重塑职场三层脑力分工：
1. 上层：人类主导判断、战略决策，AI无法替代；
2. 中层：传统分析师、咨询、秘书等标准化总结分析工作，被AI大面积挤占；
3. 下层：人工承接数据打标、采集、清洗整理，诞生全新就业岗位（数据标注、数据构建、多模态采集）。

市场扩张速度：2026春招AI相关岗位同比增长8.7倍，数据产业链成为刚需赛道。

三类底层AI基础岗位核心职能
1. 数据采集（配套具身智能/机器人）
穿戴动捕设备采集视觉、触觉、力学多模态真实数据，教会机器人行走、抓取、避障。
行业数据缺口极大：GPT系列千亿小时文本语料，全行业高质量机器人物理数据仅50万小时，差距上万倍；头部企业（光轮智能、帕西尼感知）估值百亿，多地投建超级采集工厂。

2. 数据构建（上游环节，数据“去杂清洗”）
爬取公开数据、对接企业杂乱数据库，统一格式、剔除错误、补全缺失信息，产出干净数据集供给标注训练。制造业AI落地高度依赖该岗位：企业各部门数据标准不统一、脏数据泛滥，AI易产生幻觉，无法自主完成规整，必须人工预处理。

3. 数据标注（AI的“人类裁判”）
针对AI生成文本、剧本、语音、图文给出优劣评判标准，给模型正向反馈，持续优化输出质量。覆盖剧本、论文、法律、语音转写、图文多赛道，是大模型迭代的核心基础。

二、从业者真实生存现状：收入分层、门槛分化、职业天花板明显
1. 薪资地域&层级巨大差距
- 一线大厂外包（专业赛道：文学、法律、外语）：全职12k-18k，优质项目有奖金；英语专八远程兼职月入近万；
- 北方省会同级岗位：薪资仅一线城市一半；
- 小城市基础标注岗：月薪低至1500，人员流动极快，员工持续跳槽。

2. 招聘门槛持续抬高，细分赛道重专业背景
- 剧本/漫剧标注：偏好戏剧影视文学，校招从普通本科升级为985/211文学专业；
- 语音英文标注：硬性要求英语专八且成绩良好；
- 数据构建：多要求计算机、数学背景，负责爬虫、数据清洗工作。

3. 从业者心态：短期过渡，难做终身职业
1. 年轻从业者（应届生、文科毕业生）：仅当作过渡兼职/短期工作，长远目标转向编剧、策划、专业对口岗位，认为标注工作机械重复，无法积累核心竞争力；
2. 30岁以上基层从业者：只求工作稳定、压力小、上下班规律（早10晚7，每日8-9小时），安于现状；
3. 行业共性痛点：职业瓶颈极强，属于流水线式脑力重复劳动，缺少晋升与专业沉淀通道。

三、行业两大核心矛盾：人才供给不足，反向限制AI技术上限
矛盾1：高端垂直领域专业人才不愿入行，高质量数据长期短缺
法律、医疗、金融等高门槛行业标注，需要资深专业人士输出评判标准，但企业给出时薪溢价极低（如律师仅200元/小时），远低于专业本职收入，资深从业者普遍拒绝接单。
后果：垂直行业数据集质量不足，大模型在细分专业场景能力难以突破。

矛盾2：具身智能数据成本两极分化，拉大企业技术差距
- 最优方案真机实操采集：单小时有效数据成本数千元，仅百亿估值头部企业负担得起；
- 中小厂商只能依赖免费公开数据、仿真模拟数据，存在“仿真-现实鸿沟”，机器人落地效果远落后头部企业。

矛盾3：企业AI降本预期落空，人工核验成本不降反增
企业大规模上线AI工具后，并未减少人力：员工需要花费大量时间修正AI错误、反复复核输出内容。
第三方平台数据（2023-2025）：千余家企业、4.43亿小时工作行为统计，AI落地后：
- 协作沟通时长增加34%
- 多任务处理时长增加12%
- 周末加班、工作碎片化问题显著加剧

仅外包标注岗位压力偏低，企业正式员工普遍承担AI纠错额外工作量。

四、岗位长期存在的三大底层逻辑（不会短期消失）
1. AI不具备人类隐性经验判断力
网络公开数据已被充分学习，但行业潜规则、法官裁判倾向、实操隐性经验等“水下信息”无法自动抓取，必须人工标注建立评判标准；AI只能做概率推演，不懂现实场景复杂取舍。
2. 物理世界数字化必须人工“翻译”
机器人无法自主感知真实世界触觉、受力、空间逻辑，海量多模态物理数据只能依靠人工穿戴设备采集，仿真数据永远无法完全替代真机真实数据。
3. AI无法承担法律与民事责任
AI不属于法律责任主体，一旦企业用AI替代专业岗位出错，责任链条模糊。涉及法律、医疗、企业决策等高风险场景，必须保留人类终审、核验环节，底层数据标注、数据清洗岗位作为前置流程无法省略。

五、全文核心总结
1. 市场规模庞大：2025年高质量AI数据集产值超2.3万亿，七大标注基地带动5.8万就业，是AI产业刚需基础赛道；
2. 岗位两极分化：一线城市专业赛道收入可观，但小城市基础岗薪资微薄；门槛持续提升，却普遍存在职业发展天花板，仅适合短期过渡；
3. 产业发展枷锁：高薪专业人才供给不足、高端数据采集成本高昂，直接限制大模型、具身智能技术突破，形成“缺人→数据差→AI能力受限”的循环；
4. 长期趋势判断：数据标注、采集、构建不会昙花一现，但不会成为优质长期职业；它是AI发展的底层基建，只要AI仍需学习人类现实经验，人工数据处理岗位就会持续存在。

姜谷粉丝

2026-06-11 09:15

万亿数据产业规模已超2.3万亿元（2025年专业数据产品产值），但AI的快速发展让从业者陷入“新岗位陷阱”与“旧岗位冲击”的双重困境，核心矛盾体现在以下方面：

一、AI催生的“新岗位”：高薪光环下的职业困局
AI发展催生了数据标注、数据采集等“数据做题家”岗位，看似为文科生、毕业生打开新赛道，实则存在多重隐忧：

职业天花板低，人才流动性大
数据标注本质是“AI裁判”，需从AI生成的多个结果中选最优解，帮助模型迭代，但工作内容重复性强、技能迭代慢。一线从业者月薪12k-18k（北京），但三四线城市薪资仅为北京的50%，且人员流动极快——“新员工下班等电梯都在刷招聘软件”，岗位难以形成长期职业积累。
准入门槛虚高，供需矛盾突出
头部企业招聘数据标注岗，已从“本科”升级为“985/211文学/英语专业”，兼职岗也要求“英语专八+良好成绩”，但岗位实际技能需求与学历门槛不匹配，导致“高学历人才扎堆，低技能岗位无人深耕”。
区域发展失衡，机会集中在头部
优质岗位集中在北京、上海等一线城市，北方省会、小城市不仅薪资低，还缺乏完整的产业链配套，从业者难以在当地获得长期发展机会。
二、AI替代的“旧岗位”：传统脑力劳动的“中间层塌陷”
AI工具正在快速填补“分析、总结、决策辅助”等中间层脑力劳动，传统职业面临“技能贬值”：

分析师、咨询顾问、秘书：AI可快速完成数据整理、报告生成、会议纪要等工作，人类仅能保留“顶层决策”和“底层执行”，中间层价值被大幅压缩。
制造业数据管理岗：企业级AIAgent落地前，需人工完成数据清洗、对齐、补全，AI的“概率模型”特性无法处理“脏数据”，导致“AI越普及，人工数据维护越忙”。
三、AI与就业的深层矛盾：效率提升与岗位收缩的悖论
劳动生产率提升≠就业增长
编程行业借助AI工具，1人2-3小时可完成过去9-10人2周的工作量；新能源汽车、智能制造等先进制造业，用工规模远小于传统制造业。AI提升效率的同时，直接导致岗位需求收缩。
中国就业压力更严峻
中国过去依赖“低成本劳动力”构建产业链优势，AI让制造业不再高度依赖人力，传统成本优势消失。叠加2026年高校毕业生达1200万人、农村剩余劳动力转移需求，AI替代冲击可能引发就业市场结构性失衡。
从业者“越忙越累”的困境
员工行为分析数据显示，AI落地后，从业者周末加班增多、工作碎片化加剧，协作沟通时长增加34%，多任务处理时间增加12%——AI未减少工作量，反而让工作更复杂。
四、破局方向：个人与社会的协同应对
个人层面：向“AI无法替代”的能力转型
聚焦创造性、复杂沟通、情感交互、跨领域整合等AI弱项，如AI培训师（教模型理解行业逻辑）、机器人维护工程师（调试具身智能设备）、高端咨询（结合人性洞察做决策）。
社会层面：制度重构共享AI红利
国际货币基金组织（IMF）预测全球40%岗位面临AI替代风险，中国需通过劳动制度调整（如缩短工时）、税收调节（对AI企业征收专项税）、教育升级（培养AI协作能力）等方式，让劳动者共享技术红利，避免就业市场剧烈震荡。

查看完整版本: [-- 万亿数据产业背后，被AI「困住」的打工人[1P] --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled