首页 > 视觉

视觉

  • 外媒:苹果收购计算机视觉和人工智能初创公司Vilynx

    【CNMO新闻】据外媒appleinsider消息,苹果在今年初以5000万美元收购了计算机视觉和人工智能初创公司Vilynx,从而获得了与人工智能、机器学习和计算机视觉相关的专业知识和技术。消息人士称,收购这家位于西班牙巴塞罗那的初创公司是为了增强苹果的整个人工智能项目。关于该公司的使命声明说,其

  • 在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发

  • 理想首个AI应用实测:视觉识别媲美GPT,内容创作太拉胯!

    谁曾想,ChatGPT最大的对手会是一家汽车厂商打造的人工智能App呢?2023年6月,理想汽车推出了自研认知大模型“Mind GPT”,它以“理想同学”App的形式出现在理想汽车的车机中,支持通过自然语言交流、发送指令。2024年,Mind GPT升级到3.0,带来了行业领先的自然语言任务执行功能

  • 节卡机器人首发2.5D视觉定位技术

    9月19日,第23届中国国际工业博览会(以下简称“工博会”)在国家会展中心(上海)启幕。本届工博会上,节卡(JAKA)机器人首发首展自研的JAKA 2.5D视觉定位技术,为全球客户提供更便捷、更高精度的智能服务。   据悉,目前,市场上大多移动底盘采用SLAM技术,可实现厘米级定位精度,而协作机器人

  • 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

    北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:传统

  • 为什么事件相机可能是计算机视觉的未来?

    计算机视觉是否即将迎来革命性的自我革新?作为匹兹堡大学眼科学教授及卡内基梅隆大学机器人研究所的兼职教授,里亚德·贝诺斯曼(Ryad Benosman)坚信这一前景。贝诺斯曼教授,也是基于事件的视觉技术的先驱者之一,

  • 如何创建计算机视觉场景训练数据

    曾任eBay首席研究科学家(数据科学总监)对于一些精度要求不太高,或者不太复杂的计算机视觉应用场景,利用一些现有的开源数据集如ImageNet/Coco 等,我们也可以训练出满足基本要求的机器学习模型。但对于更复杂的计算机视觉应用,如何获得大量、高质量的训练数据以支持创建一个精确机器学习解决方案?来

  • 工业自动化向智能化转型升级,“AI+3D视觉”赋能企业降本增效

    当前中国制造业自动化水平究竟如何?视比特(长沙)总经理刘欢介绍道,近年来,随着产业结构的调整、制造水平的进一步提升,我国工业自动化控制技术、产业和应用如雨后春笋般涌现,但在工业领域一些高难度、复杂的应用场景,仍然高度依赖人工。与此同时,“多品种、小批量、快交付”的柔性生产智造需求日益增长,制造业巨头