首页 > AI资讯 > 最新资讯 > 以高质量数据驱动人工智能发展

以高质量数据驱动人工智能发展

中国证券报    2025-03-10

  “大模型技术的进步使得通用人工智能成为可能,但要实现通用人工智能还有很长的路要走。”全国政协委员、中国科学院自动化研究所研究员王亮近日接受中国证券报记者采访时说。王亮从2000年开始研究计算机视觉,他研究并推动了步态识别算法进入产业应用,是国内人工智能产业的早期开拓者,目前在多模态人工智能系统全国重点实验室从事研究工作。

  王亮表示,DeepSeek在大模型技术上取得的显著进展,极大地提振了人们对迈向通用人工智能的信心。他认为,人工智能的未来应用需要多模态数据的融合。此外,若要推动“人工智能+”广泛落地,应加强学术研究与产业应用的深度融合,同时要加快实现高质量数据的共享。

  大模型技术让人工智能更通用

  在过去的几年间,大模型成为了人工智能飞速发展的强劲引擎。尤其是今年,DeepSeek的突破性进展备受瞩目。王亮分析称,DeepSeek在大模型的软件与硬件层面均进行了优化创新,大幅提升了大模型的运行效率与通用性。

  “大模型如今已具备学习、推理、规划、认知以及决策等关键能力,并且能够接纳多模态数据输入。这赋予了大模型在复杂环境与不同应用领域完成任务的通用能力,使通用人工智能从设想逐步走向可能。”王亮说道。此外,众多大模型纷纷采取开源策略,这一举措极大地降低了学术界与产业界开发、应用大模型技术的门槛,有力地推动了人工智能技术的快速迭代更新,进一步加速了技术的广泛推广。

  不过,王亮同时表示,真正实现通用人工智能依旧任重道远。要让人工智能具备如同人类般感知外部世界、理解并处理信息的能力,诸多技术难题有待攻克。以自动驾驶技术为例,当前采用该技术的公司仅依靠计算机视觉,难以应对复杂多变的环境,通常需要结合雷达系统或其他多模态解决方案,弥补视觉技术的短板。

  王亮认为,为推动人工智能在产业端实现更广泛的应用,多模态感知解决方案不可或缺。比如人形机器人的发展,需要具备感知视觉、听觉、触觉等多模态数据的能力;在网络安全领域,相关应用也需能够理解分析文字、图片、视频、语音等多模态数据,并据此做出精准判断。

  提高数据质量

  王亮表示,要进一步提升大模型性能,需要更大规模的高质量数据,这也是人工智能下一步发展需要突破的难点之一。

  “真正能够用于大模型训练的数据,需要经过人工细致的过滤、清洗与标注,这一过程耗时、耗力且耗费大量资金。”王亮解释道,数据标注通常需要经过专业训练的团队来完成,高质量的数据标注能够使数据更加规范化。他形象地将大模型的发展比作火箭,而数据则是推动火箭升空的燃料。

  近日,为推进国家数据基础设施体系化、集约化、一体化建设,国家数据局指导全国数据标准化技术委员会研究形成了《数据基础设施参考架构(试行)》《数据基础设施互联互通基本要求(试行)》《数据基础设施标识管理规范(试行)》等6项技术文件,引导地方、行业、领域、企业按照“统一目录标识、统一身份登记、统一接口要求”推进国家数据基础设施建设。

  作为全国数据标准化技术委员会的成员,王亮表示:“针对人工智能的发展,我们期望推动不同领域的数据实现共享。而共享的前提是对数据的采集、标注、交易、使用等各个环节进行规范化。若能在数据层面切实做好规范工作,将加速大模型技术在不同垂直领域的应用,推动技术的快速迭代。”

  促进科技创新与产业创新融合

  王亮强调,推动人工智能加速应用,必须促进学术研究与产业应用的深度融合。

  “过去几年,产学研融合取得了一定成果,但仍存在一些不足之处,这与学术界和产业界的不同定位、目标密切相关。”王亮分析称,“学术界关注前沿技术探索,注重长期技术积累;而产业界更侧重于短期应用与商业回报,这导致学术界的研究成果与产业界的实际应用容易脱节。”

  这种脱节使得实验室的技术成果在向产业推广时,难以完全契合产业应用需求,往往需要经历一个适配过程。王亮指出,为缩短这一适配周期,应将学术界与产业界的合作前置。

  “在研发阶段,就应该加强学术界与产业界的协同合作,而不是等到学术研究完成后才考虑产业化。”王亮建议,要让学术界深入了解产业界的真实应用场景与需求,同时产业界为学术界提供应用场景数据,用于算法开发。“如此一来,开发出的算法能够直接应用于实际生产,形成完整的产业闭环。”

(文章来源:中国证券报)

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。