DISCOMUZA.phorum.pl

ditikhatun11 · Dołączył: 27 Kwi 2024 Posty: 2

网络上有数量惊人的视频，涵盖了从人们分享的日常生活瞬间到历史时刻再到科学观察的各种内容，每个视频都包含了对世界的独特记录。正确的工具可以帮助研究人员分析这些视频，改变我们理解周围世界的方式。视频提供比静态图像丰富得多的动态视觉内容，捕捉实体之间的运动、变化和动态关系。分析这种复杂性以及公开视频数据的巨大多样性，需要超越传统图像理解的模型。因此，许多在视频理解方面表现最好的方法仍然依赖于为特定任务量身定制的专门模型。最近，使用视频基础模型\该领域取得了令人兴奋的进展。然而，构建一个能够处理视频数据多样性的仍然是一个挑战。为了构建通用视频理解的单一模型，我们引入了“ VideoPrism：用于视频理解的基础视觉编码器”是一种 ViFM，旨在处理广泛的视频理解任务，包括分类、本地化、检索、字幕和问答 (QA)。

我们在荷兰电报吗数据库预训练数据和建模策略方面提出了创新。我们在海量且多样化的数据集上对进行预训练：3600 万个高质量视频文本对和 5.82 亿个带有噪声或机器生成的并行文本的视频剪辑。我们的预训练方法是针对这种混合数据而设计的，可以从视频文本对和视频本身中学习。非常容易适应新的视频理解挑战，并使用单个冻结模型实现最先进的性能。是一种通用视频编码器，通过从单个冻结模型生成视频表示，可以在广泛的视频理解任务（包括分类、本地化、检索、字幕和问答）中获得最先进的结果。预训练数据强大的 ViFM 需要大量视频来进行训练，这与其他基础模型 (FM) 类似，例如大型语言模型 (LLM) 的视频。理想情况下，我们希望预训练数据能够成为世界上所有视频的代表性样本。虽然大多数视频自然没有完美的字幕或描述，但即使不完美的文本也可以提供有关视频语义内容的有用信息。为了给我们的模型提供最好的起点，我们整理了一个由多个公共和私人数据集组成的庞大预训练语料库，包括等。

其中包括 3600 万个精心挑选的数据集带有高质量字幕的视频，以及亿个带有不同程度的噪声文本的剪辑（例如自动生成的文字记录）。据我们所知，这是同类中最大、最多样化的视频培训语料库。视频文本预训练数据的统计。CLIP 相似性分数的巨大变化（越高越好）证明了我们的预训练数据的多样化标题质量，这是用于收获文本的各种方式的副产品。两阶段训练模型架构源于标准视觉变换器(ViT)，采用分解设计，可按照ViViT顺序编码空间和时间信息。我们的训练方法利用了高质量的视频文本数据和上述带有噪声文本的视频数据。首先，我们使用对比学习（一种最小化正视频-文本对之间的距离，同时最大化负视频-文本对之间的距离的方法）来教我们的模型将视频与其自己的文本描述（包括不完美的文本描述）进行匹配。这为将语义语言内容与视觉内容匹配奠定了基础。经过视频-文本对比训练后，我们利用没有文本描述的视频集合。在这里，我们基于蒙版视频建模框架来预测视频中的蒙版补丁，并进行了一些改进。
_________________
中东手机号码清单

Reklama