电话:020-66888888
CVPR 2025突出
作者:BET356官网在线登录 发布时间:2025-06-03 11:58
本文的作者主要是目标和许多美国大学。第一作者是莱·博林(Lai Bolin),他是佐治亚理工学院自动学习的博士生(仍然是UIUC的来访学生),他的导师是詹姆斯·雷赫(James Rehg)教授(已经被转移到UIUC)。它的主要研究讲话是多模式学习,生成模型和视频理解,CVPR,ECCV,ACL和其他会议中相关文章的发表。赖·博林(Lai Bolin)在Genai de Meta省实习期间完成了这项工作。传播模型的最新发展促进了基于文本指导的文本版本指导文本的编辑算法的快速进步。但是,如果编辑方法希望,很难用语言进行精确描述,或者它严重偏离培训集的分布,那么当前模型的性能将大大引导。例如,您需要一个转换普通汽车的型号进入兰博基尼。如果训练集不包含相似的数据,则模型很难仅使用四个单词“兰博基尼”来推断相应的视觉属性,例如表单和纹理。同时,很难通过语言详细解释兰博基尼的特征。网络的快速流行引起了今天出现的许多新概念。培训数据中未包含的这些新概念对于当前图像编辑模型的概括是一个重要的挑战。解决此问题的直接有效方法是根据文本说明提供一个或之后的转换前后的一个或多个图像,从而使模型可以了解用户想要的图像的转换,即镜头的图像。 Currentte,现有模型正在基于扩散模型开发。但是,要学习图像样本的可能转换,该模型必须具有强大的推理技能和基因的能力速率扩散模型很强,但推理技能仍然很弱。相反,自我修复模型在多个领域(例如文本,图像,发音和特定上下文学习)中表现出强大的推断特征。但是,视觉生成模型输入和输出的当前作者身份模型仅使用最基本的自我定义机制。这种简单而直接的方法基于上下文学习。它并未完全释放自动修订模型的能力。如果您可以改善少量编辑镜头的任务的模型结构,那么此任务的模型性能将有所改善。成像。和InnovatiVE提出了一组的自催化机制。这在这项任务中取得了出色的成果。纸张标题:换句话中的内在学习纸张地址:HTTPS:HTTPS:INSTPS:INSTPS:1:本文中提出的Instamanip模型允许用户同时了解他们想要从文本样本和图像的图像的特征,并以同样的方式编辑新的输入图像。 Méall的理论基本概念编辑本文研究的镜头图像的少数任务包含入口处的图像。问题基本上是根据所有输入变量的条件分布来学习输出图像。它可以用表达方式写。出口是经编辑的图像转换为目标图像。几组示例图像显示了如何使用原点和文本说明的图像。最近的神经科学研究表明,人脑病例的学习过程可以分为两个阶段。 (1)学习和屈服示例的可转移知识的划分,以及(2)将获取的知识应用于新场景。受到这一点的启发,本文介绍了彼此之间的新自变量,允许将少量图像编辑分为两个阶段:表示图像转换的特征,该变量的第一个元素和该变量的入口图像代表学习阶段,而第二个元素代表与大脑学习机制组成的应用阶段。本文档中提出的组的自催化机制是对这两个阶段进行单独的调制。它即将使这个复杂的问题享受并将其分为两个简单的子问题并征服它们。模型的结构和方法在本文档中,我们首先使用编码器将所有条目和文本图像转换为令牌,然后将它们插入整体模板中。在这里,引入了另一个操纵令牌,学习和保存T他在以前的文本说明和照片示例中的以前图像版本,并将此顺序输入本文档中提出的模型中。模型的结构如图2所示。图2:模型结构的组(左)和自动核机制(右)。本文提出的模型是Instamanip,它是组自定义机制的核心。同时,本文的作者提出了关系的正则化,以进一步提高绩效。组自切割机制本文档中提出的模型的结构包括通过引入操纵令牌的多个重复组的自催化机制。入口序列分为两组。第一组包含文本说明,示例照片和操纵令牌。在模型中,模型计算每个令牌,更新每个令牌,了解TE提供的图像版的特征XT和样品照片,并将其存储在操纵令牌或学习阶段中。第二组包含用于生成编辑图像的操作令牌,咨询图像和令牌。该模型计算该组中的体重,并使用存储在上一阶段的操纵令牌(即应用阶段)中的知识来转换新的入口图像。关系标准化研究人员发现,用户提供的示例图像中可能存在噪音,在学习阶段,可以通过在样本的图像中无关的信息来误解模型,并且这些噪音被误解为转换的一部分,并添加到生成的图像中。为了应对这个问题,本文档提出了关系的正则化。一种特定的方法是使用存储在操作令牌中的图像转换函数。在培训数据中,您可以在不同的transfor中获得相似之处通过执行内部产品的关系。也可以通过ITEXT NTRUSSTIONS功能计算的内部产品获得这种相似性。接下来,使用MSE损失函数来创建通过文本指令获得的相似性和相似性,该指令驱动模型排除与当前转换无关的视觉特征的干扰。阅读文档的原始文本以获取更多信息。比较和消融实验本文档使用了指令2PIX收集的数据集,并将其与使用两种配置的最佳先前型号进行了比较。一个是分布配置。换句话说,示例图像和输入映像具有相似的样式和视觉内容,并且其他配置被分发。换句话说,示例图像内容和输入图像不同(一个是室内,另一个是室外)。在实验中,提出的instantamanip模型在两种配置中,文档超过了最佳模型,这使其成为最佳的新方法(ART状态)。图3中的定性视觉比较也反映了相同的优势。表1:该模型与基于样本图像的先前图像编辑方法的比较。图3:此先前方法和模型的视觉比较。在表2中的消融实验中,自催化分组机制可显着提高自代表模型的性能,并与关系正则化进一步提高模型的效果以及每个模块的有效性和需求。表3中的实验表明,文本指令和示例图像的使用仅显着降低了模型的性能,并且有两种模式。每个人都有自己的图像编辑图像,使用它将帮助您获得最佳结果。表2:模型关键模块中的实验咳嗽。桌子3:带有文本说明和示例照片的消融实验。本文还分析了样本图像的数量和多样性。在这里,研究人员介绍了分布的第三个实验环境(多样性)。该配置在示例中的多个图像组中具有显着差异,但是在正常的交付配置中,多个图像组的视觉内容具有很高的相似性。图4中的实验结果表明,通过增加图像示例的数量并增加了图像示例的多样性,可以通过增加本文档中提出的模型的性能。图4:示例图像的数量和多样性中的模型性能分析。他们总结了这篇文章,我们提出了一个Instamanip,这是一种新的自我解释模型。这可以更好地解决少数商品图像的问题,使上下文学习能力令人印象深刻。在本文中,我们建议创新的分组自催化机制,分为两个阶段分解负责任的问题,并对学习和应用阶段进行建模,并分别分别实现两个阶段,以取得更好的结果。同时,本文还提出了关系标准化策略,以支持培训并进一步提高绩效。本文档中提出的模型可以改进,从而在多个指标中取得最佳成果,进一步改善其性能,或者使用更多图像或增加多样性。
电话
020-66888888