数据生产主要包括数据采集和数据标注,本方向主要研究、开发网络爬虫研究和标注系统的设计和优化。此外,需要进行人工标注的动员、培训、审核等工作,需要由专人维持运转。目前获取数据的方式主要有两种:一是通过网络进行采集。优点是成本低,但是许多高质量或者非公开数据无法获得;二是构建自己的标注团队,根据任务需求进行加工。优点是目的性强,缺点是成本高,数据生产周期较长。另一个主要任务是方言语音采集工作。