国内科技巨头阿里巴巴发布了一款名为 QVQ-Max 的新型 Qwen 人工智能机器人,这是一种视觉推理模型。这个模型的有趣之处在于,它可以理解照片和视频的内容,然后根据这些信息进行分析和推理,从而提供解决方案。
阿里巴巴表示,通过这一模型,它缩小了基于文本的人工智能模型与现实世界信息之间的差距。阿里巴巴称,通过视觉推理,该模型可以看到、理解和思考世界上的事物。这家中国公司称,该模型擅长解析图像和识别关键元素,可灵活用于插图设计、视频脚本生成和角色扮演。
与其他人工智能聊天机器人一样,QVQ-Max 可以帮助你完成工作、教育或个人生活中的任务,但凭借其可视化能力,它还可以帮助你完成更多领域的任务,例如附带图表的数学和物理问题,或根据食谱图片指导你烹饪菜肴。
阿里巴巴称 QVQ-Max 只是该模型的首次迭代,并概述了计划如何在即将推出的版本中加以改进。首先,阿里巴巴希望通过验证观察结果的基础技术来提高图像识别的准确性。其次,它希望模型能更好地处理多步骤任务和复杂问题,以便能操作手机、电脑和玩游戏。最后,它计划将模型从基于文本的交互扩展到工具验证和视觉生成。
要开始使用 QVQ-Max,只需前往 chat.qwen.ai,转到左上角的模型下拉菜单,按 “扩展更多模型” 并选择 QVQ-Max。然后,进入聊天框开始使用,别忘了附上一些可视化的东西,看看它能做什么。