【资料图】
海天瑞声 视觉中国 资料图ChatGPT概念股海天瑞声通过定增为大模型项目募资。6月21日,北京海天瑞声科技股份有限公司(海天瑞声,688787)公告称,拟定增募资不超过7.9亿元,用于AI大模型训练数据集建设项目、数据生产垂直大模型研发项目。其中,AI大模型训练数据集建设项目投资为3.83亿元,数据生产垂直大模型研发项目投资为4.06亿元。
海天瑞声称,AI大模型训练数据集建设项目的实施主体为北京海天瑞声科技股份有限公司及/或下属子公司。鉴于大模型训练数据通常具备数据规模大、数据质量高、数据类型丰富等特点,本项目拟建设AI大模型训练数据集,即生产用于通用型、及各种垂直领域大模型训练的海量、高品质数据集。项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,实现基于大模型通用能力和垂直领域数据的训练学习。
公告称,本项目的数据集产品具体可分为三大类:第一,通用及特定垂直领域的大语言模型训练数据集,包括但不限于:中文大模型预训练语料数据集(含通用场景、特定场景、对话场景、指令集等);多语言大模型预训练语料数据集(含通用场景、对话场景、指令集等)。第二,多模态大模型训练数据集;可应用于多语言图文大模型训练、多模态数字人训练、多语种语音大模型训练、全场景自动驾驶大模型训练等场景的跨模态数据集。第三,大模型评测数据集:可应用于大模型的能力、任务、指标等方面的评测。
募资第二个项目为数据生产垂直大模型研发项目。海天瑞声表示,本项目建设目标为通过大模型基础研究,研发海天瑞声数据生产垂直大模型,并以海天瑞声数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台。
海天瑞声表示,为应对大模型时代下数据规模量极大、复杂性和多样性高,数据服务规则设计难度指数级提升等诸多问题,且为更高效高质完成数据规则的规模化生产,公司将采用全栈自研的数据生产垂直大模型技术,辅助完成面向多个下游任务的数据设计与处理规则。同时,为更好实现数据生产垂直大模型的生成能力,公司将研发并引入多项新兴技术,夯实数据生产垂直大模型构建的基础。
海天瑞声主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。海天瑞声表示,公司将基于过往的数据服务经验,结合行业前沿需求,积极拓展大模型训练数据服务领域,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。
海天瑞声2023年第一季度实现营收2882万元,同比下降39.81%;归母净利润亏损1362万元,同比下降244.27%;扣非净利润亏损1705万元。基本每股收益-0.32元。海天瑞声2022年财年实现营收2.63亿元,同比增长27.32%;归属于上市公司股东的净利润2945.41万元,同比下降6.81%,毛利率64.73%。基本每股收益0.69元。
21日收盘,海天瑞声报收115.00元/股,跌8.72%,目前海天瑞声股价较年内高点已经腰斩,年内涨幅超92%,
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)