当前位置: 首页 > news >正文

网络工作室有什么项目武汉seo招聘网

网络工作室有什么项目,武汉seo招聘网,张楚岚,jsp网站开发小程序基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图…

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图像模型的输出是3D grid,都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图:

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和图像模态cross-attention后的输出,a初始化为0。tanh-gating机制保证初始化的时候,模型不受图像特征的影响,输出就是语言模型的输出。

使用single-image cross-attention方法,在计算图像和文本的cross-attention时,通过mask,让文本token只能看到前面的一幅图像的token。

 

训练数据数据集包括公开数据和自建数据。M3W(43 million webpages)、ALIGN dataset(1.8 billion images with alt-text 43 million webpages)、312 million image and text pairs、27 million short videos and text pairs。

http://www.ritt.cn/news/20817.html

相关文章:

  • 网站建设网络推广的好处广告联盟论坛
  • 网站做淘宝客还行吗怎么制作微信小程序
  • 小米商城网页设计论文长沙seo优化价格
  • 做网站按什么收费多少seo管家
  • 道客网站建设推广小程序危机舆情公关公司
  • 网站建设系统公司百度认证
  • 百度站长工具seo查询免费找精准客户软件
  • 手机做任务赚钱的网站有哪些长沙网站到首页排名
  • 网站建设竞争对数分析营销网
  • wordpress关闭文章评论南京seo公司哪家
  • 网站建设到本地重庆做优化的网络公司
  • 贵州软件制作seo关键词推广方式
  • 网站源码下载后怎么布置刷关键词优化排名
  • 上海工厂网站建设关键词推广优化排名如何
  • 门户站模板开鲁网站seo转接
  • 旅游网站优化方案什么是搜索引擎销售
  • 有没有做头像的网站网站链接查询
  • 制作论坛做网站seo整站优化服务教程
  • 大连龙采做网站百度电脑版官网入口
  • 深圳哪个公司做网站好app地推接单平台有哪些
  • 东莞乐从网站建设微营销推广软件
  • 手机商城网站如何找合作项目app平台
  • 做网站赚钱流程2022年适合小学生的新闻
  • 如何建设社交网站b站怎么推广
  • 二级目录 Wordpress怎么做关键词优化排名
  • 单页网站 营销合肥网络推广网络运营
  • 科技时代成都百度seo公司
  • 怎样找网站关键词挖掘机爱站网
  • 网站开发人员需要什么要求贴吧友情链接在哪
  • 只做外贸的公司网站株洲seo快速排名