时薪上千,大模型公司抢985文科生给AI当老师 高学历标注员成新宠。这篇文章探讨了AI数据标注员这一职业的现状与挑战。这类工作主要涉及对文本、图像、音频等原始数据进行分类、标记或注释,以帮助机器学习和理解人类世界的逻辑和知识。2020年起,“人工智能训练师”正式被纳入国家职业分类目录,其中“数据标注员”是重要工种之一。截至今年9月底,我国7个数据标注基地共有标注企业362家,从业人员达8.5万人。然而,据量子位智库发布的报告,未来5年中国数据标注专业人才缺口可能达到百万量级。
小鹅是一名在“985”高校读研的历史学专业学生,曾在大四时做过一份数据标注实习工作。她的任务是对科技公司提供的用户提问和AI生成答案进行打分,平均处理一条数据需要15分钟,有时甚至要花近一个小时。这份实习不需要面试,招聘方提供了一份打分标准手册和一套测试题,要求自学并通过测试。小鹅花了一个下午学习手册,又花了两个小时完成测试题才通过考核。起初看似简单的任务实际上非常复杂,标注手册中包含大量术语,理解门槛极高。打分要求极其繁琐,需要在多个维度上给答案打分并备注原因。
除了打分,另一种常见的标注形式是“出题”,难度更大。刚获得海外语言类专业博士学位的小凡,在求学期间做了长达五年的数据标注兼职。她的工作是在一家海外众包平台上为AI出题并写出解答,这些文本会被作为训练语料喂给AI。从招聘市场情况看,这份职业的天花板很高。今年以来,各大头部大模型公司开始竞相招揽专家级标注员。例如,阿里搭建了“晓天睿士”专家社区,学历要求头部高校硕士起步,行业专家级人才最高时薪可达1000元。字节跳动成立了Xpert兼职众包标注平台,需要标注者上传简历、选择细分专业领域,并完成专业知识测试。另一方面,行业的入职门槛也在提高,候选人本科以上学历的占比超过五成,通用类AI标注开始有经验要求,垂直类一般要求相关专业或行业经验,部分岗位需要做专业笔试。