OpenAI 宣布对 ChatGPT 中的人工智能图像生成进行重大更新-电脑志

OpenAI 备受期待的改进型人工智能图像生成功能来了。新的高级图像生成器不再像 Dall-E 那样使用单独的图像生成模型，而是成为 GPT-4o 的一部分。

市场上有几种人工智能图像生成模型可以创建超现实、令人惊叹的场景。但是，它们在创建涉及文字、徽标和其他日常生活中常见物品的图像时都很吃力。

OpenAI 图标

OpenAI 声称，新的 GPT-4o 图像生成模型可以解决这些缺陷，因为它可以利用自己的知识库和聊天上下文，准确地呈现文本并按照提示进行操作。这种新模式还允许用户修改上传的图片，或以上传的图片为视觉灵感创建新图片。

这一新的 GPT-4o 图像生成模型现已向所有 ChatGPT Plus、Pro、Team 和免费用户推出。由于这一新模式将成为 ChatGPT 的默认图片生成器，因此用户无需在提示前进行任何额外的选择，就能享受它。用户还可以通过提及长宽比、使用十六进制代码的精确颜色或透明背景来自定义图片。OpenAI 还将在未来几周内为 ChatGPT 企业和教育用户带来这种新模式。

生成式人工智能可能在未来两年对搜索引擎构成巨大威胁

在 Sora 中创建图像时，也可以通过专用的 DALL-E GPT 访问这个新模型。对于开发人员，使用 GPT-4o API 生成图像的功能将在未来几周内推出。

该模型也有一些局限性。首先，由于该模型创建的图片更为详细，因此生成时间可能长达一分钟。它在推出时还存在以下限制，OpenAI 将在未来几周和几个月内修复这些限制：

它偶尔会过于紧密地裁剪较长的图像（如海报），尤其是在底部附近。

图像生成也可以构成信息，尤其是在低上下文提示中。

在生成依赖于其知识库的图像时，它可能难以一次准确呈现 10-20 多个不同的概念，例如完整的元素周期表。

该模型有时难以渲染非拉丁语言，并且字符可能不准确或产生幻觉，尤其是在复杂性更高的情况下。

编辑图像生成的特定部分的请求（例如拼写错误）并不总是有效的，并且还可能以未请求的方式更改图像的其他部分或引入更多错误。

众所周知，当要求以非常小的尺寸呈现详细信息时，该模型会遇到困难。

使用这种新模型生成的所有图像都将带有 C2PA 元数据，OpenAI 的内部工具可以验证图像是否是使用这种模型生成的。

尽管目前存在一些限制，但新的 GPT-4o 模型有望为用户提供更精确、更可定制的图像创建功能。随着 OpenAI 不断完善该模型，我们可以期待它在性能和可靠性方面的进一步改进。

传前苹果设计师Jony Ive和OpenAI的Sam Altman正在合作开发人工智能硬件项目

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/115804.html