高考考试网
当前位置: 首页 高考资讯

达芬奇4k教程(渣画质秒变清晰)

时间:2023-07-28 作者: 小编 阅读量: 3 栏目名: 高考资讯

1998年11月,微软亚洲研究院在北京成立。随着视频处理设备以及显示设备性能的提升,原来的帧率已不能满足大众的需求。因此,模型需要有足够的鲁棒性才能处理不同的需求。此外,模型从实验室的服务器迁移到终端设备上,性能也会有一定的降低。而微软亚洲研究院的研究员们认为,视频播放就是物体在时间序列上的运动轨迹,只有在这个轨迹上的内容才对当前的画面增强有所帮助,其它区域的内容则关联性较低。

编者按:是否时常“考古”一些老电影、老动漫来回忆旧日时光?你是否也有一些珍贵的录像,带你重温过去的美好?然而,我们已经习惯了高清体验,回头再看曾经的旧影像,画质或许“渣”的让人不忍直视。在这个多媒体内容爆发的时代,人们对视频内容的需求愈加强烈,视频素材的创作、增强及再创作技术也有了大幅提升。尽管利用现有的视频修复工具,视频编辑者也能让视频变得更高清,但其前提条件是需要有超高性能配置的电脑,并付出视频时长几倍甚至几十倍的时间成本,即便如此,结果可能仍不尽如人意。

那么有没有可能在有限的算力,甚至无需联网的情况下,在端设备上实时、高质量地完成视频的高清化、智能插帧呢?微软亚洲研究院的智能视频增强工具集“达芬奇”回答,“我可以!”依托于400万高清训练数据和大规模底层视觉预训练方法,“达芬奇”可以实现在端上以较低的计算成本对视频画质进行修复。特别是对于一些实际的生产需求,大规模的底层视觉预训练进一步提升了模型的鲁棒性,使其可以应用于更具挑战性的场景。

1998年11月,微软亚洲研究院在北京成立。时任微软公司 CEO 比尔·盖茨为此特地录制了一段视频,让我们先一起来看看其中的片段。

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/原视频.mp4

这段视频对于如今看惯高清视频的我们来说,或许画质有点太渣了。为了解决现有视频增强和修复工具的痛点,充分发挥 AI 技术的优势,微软亚洲研究院多媒体搜索与挖掘组的研究员们将深度学习、机器学习等技术经验,与实际场景和需求结合,推出了一套智能化视频增强工具集——“达芬奇”(DaVinci),大大降低了用户处理视频素材的门槛,只需一键就可以让视频更清晰、更顺滑。

现在,我们再来看看下面这个被“达芬奇”修复的版本。是不是感觉瞬间拨云见日?

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/修复后视频.mp4

“达·芬奇是文艺复兴时期最杰出的艺术家之一,他将艺术创作和科学相结合,留下了许多不朽之作。因此,我们希望智能视频增强工具集‘达芬奇’可以将 AI 技术应用到多媒体内容处理领域,让视频和图像创作者们更好地挥洒他们的创意,这也是我们将该项目命名为‘达芬奇’的原因,”微软亚洲研究院主管研究员杨欢说。

“达芬奇”三大技能,将学术概念真正落地应用

据微软亚洲研究院主管研究员傅建龙介绍,学术界很早就开始了对图像视频处理的研究,并在众多方向上做了理论方法的探索,但要将这些停留在概念验证阶段的创新想法真正落地,则需要仔细筛选可行的方向。“经过仔细的研究,我们认为通用图像和视频会议这两大场景中的画质增强具有很大的潜力,其背后主要由图像/视频超分辨率、视频插帧、压缩视频超分辨率这三大技术进行支持,有着更好的落地和应用机会,也最有可能让人们体验到当前 AI 技术的优势。”最终,这三项技术被集成到了“达芬奇”工具集中,并通过开源供用户下载使用。

依托于微软亚洲研究院创新的基于 Transformer 的图像/视频超分辨率、视频插帧和压缩视频超分辨率技术,“达芬奇”工具集能够实时帮助用户完成不同场景下的视频增强需求。无论是在线还是离线状态,都能生成清晰、连贯的高质量视频,大幅提高视频观感体验。

视频超分辨率:是将视频从低分辨率帧序列提升至高分辨率帧序列。对视频来说,最直观的感受就是让我们看到的画面更加高清,视频内容中的细节更加动人,从而满足人们对视频清晰度日益提高的需求,也能更好地适应硬件分辨率的提升。比如将 480P 的老旧视频变成 2K/4K 的高清版本,无论是小屏还是大屏播放,画质都毫无压力。

视频超分辨率结果对比(左:传统 Bicubic 算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/图像视频超分辨率.mp4

视频插帧:是在两个边缘帧之间合成不存在的帧。当前视频的主流帧率是24帧/秒,也就是一秒钟播放24幅画面。随着视频处理设备以及显示设备性能的提升,原来的帧率已不能满足大众的需求。尤其是在体育赛事或游戏中,若能将帧率提升到60帧/秒甚至120帧/秒,那么则可以让画面更丝滑,也能减少由于帧率不足而导致的眩晕。其实,这项技术可以应用于许多场景,包括慢动作视频、帧速率转换等。

视频插帧结果对比(左:传统帧交错算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/视频插帧-1.mp4

压缩视频超分辨率:是指从压缩的低分辨率视频帧恢复到高分辨率的视频帧。为了保证视频在互联网上的高传输速率,或在有限的网络条件下尽可能传输流畅的视频,互联网或用户设备上的大多数视频都是以压缩格式存储和传输的。然而,视频压缩会造成质量的损失,导致终端用户观看时视频好像被打了马赛克,特别是在运动较大的场景中,尤为明显。压缩视频超分辨率就是为了修复这种损失,使得视频画质更好。

压缩视频超分辨率结果对比(左:传统 Bicubic 算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/压缩视频超分辨率-1.mp4

千种设备万般需求,“达芬奇” 创新设计全部搞定

通常,一项技术在学术论文中所呈现的是其在理想情况下可以达到的上限成果,而当转化为落地应用的工具时,该技术就要应对各种下限问题。比如,我们无法预估用户会使用视频增强工具来处理哪些类型的视频素材,它可能是手机记录的儿时影像、DV 拍摄的大好河山,也可能是胶片电影、MP4 中保存的怀旧金曲 MV,又或者是朋友分享的压缩后的 4K 电影。因此,模型需要有足够的鲁棒性才能处理不同的需求。

另外,用户的部署环境也未可知,尽管大部分设备可能是手机、笔记本电脑、台式电脑等,但不同设备的内存、CPU、显卡性能也不尽相同。同时,研究员们还要考虑计算的功耗问题,对于手机等移动设备,电量的消耗、计算处理的时长也都需要精巧的优化和设计。此外,模型从实验室的服务器迁移到终端设备上,性能也会有一定的降低。如何确保所有设备体验的一致性,也是“达芬奇”模型设计的一个重要挑战。

“达芬奇”三大技能实现的背后都是以业界领先的底层视觉预训练技术(Low-level Vision Pre-training)作为支撑,并辅以大量的数据训练。针对模型的鲁棒性,研究员们一方面利用了可收集到的400万公开图像和视频数据,图像、视频内容涵盖风景、建筑、人物等等,以及不同压缩率和分辨率的众多场景;另一方面,为确保训练的数据量和丰富的数据类型,研究员们还基于已有的数据,人工合成了更多含有噪声的退化数据,从而使整个模型训练能覆盖到更多用户实际的应用场景。

为了应对用户部署环境的多样性需求,研究员们为模型做了轻量化的设计,并且对网络结构和模型存储也做了特殊优化。例如,传统的视频处理方法在处理每一帧图像本身时,还要考虑整个时间序列,大大增加了计算量。而微软亚洲研究院的研究员们认为,视频播放就是物体在时间序列上的运动轨迹,只有在这个轨迹上的内容才对当前的画面增强有所帮助,其它区域的内容则关联性较低。

由此,研究员们提出了基于轨迹 Transformer 的视频超分辨率网络(TTVSR),这也是此前微软亚洲研究院图像超分辨率纹理变换 Transformer (TTSR)的扩展性研究成果。针对超分辨率和插帧的计算,轨迹感知转换器可以把原先时间×视频单帧图像的空间复杂度降低到只是对时间序列的计算,进而简化整个模型的计算复杂度。原来工业模型处理一分钟的视频需要十分钟甚至一小时,现在利用“达芬奇”可以实时甚至超实时完成高清视频处理。在压缩视频超分辨率任务上,“达芬奇”可以更好地保留高频视觉细节和指导高频纹理的生成,降低视频压缩后伪影的影响。

杨欢和傅建龙表示,相比于图片,视频的内容更加丰富,除了空间维度还要考虑时间维度,对计算的需求更高,因此,对于视频处理就需要轨迹感知 Transformer 这样一个设计更为精巧的方法。比如针对视频不同帧之间的连续性和相关性,如果一个人上一帧出现在这个位置,下一帧可能向左走一点,那么我们针对这个人的增强和计算就只需要沿着他运动的轨迹进行计算即可,不需要对整个视频进行搜索计算。

业界指标测试均高于现有方法

通过在业界广泛使用的峰值信噪比(PSNR)和结构相似性(SSIM)两个指标上进行测试,“达芬奇”工具集的表现都优于现有方法。下表展示了轨迹感知视频超分辨率 Transformer(TTVSR) 在最具挑战性的 REDS4 数据集上的测试结果,其中 PSNR 分别比 BasicVSR 和 IconVSR 提高了0.70db和0.45db。

轨迹感知视频超分辨率转换器(TTVSR)在 REDS4 数据集上的测试结果

将上述提到的基于 Transformer 的视频超分辨率相关技术应用于视频插帧以及压缩视频超分辨率上,依然可以得到非常不错的结果。例如,在视频插帧的 Vimeo-90K 数据集上,可以带来 0.36db 的 PSNR 提升;应用于压缩视频超分辨率的 REDS4 数据集上,在 CRF25 的压缩率下,可以带来惊人的 1.04db 的 PSNR 提升。

以上数据集的测试都是基于学术界中特定的退化模型开展的,但考虑到实际的使用场景,用户上传的视频并非高质量的标准素材,也没有一个对比的基准。所以,为了更接近用户的真实需求,微软亚洲研究院的研究员们还设计了一个“不需要标准答案的”视频评估方法 CKDN,即业界非基于参考的质量评估,旨在为业界持续探索视频处理方法提供更多参考依据。(论文链接:https://arxiv.org/abs/2108.07948)

下载工具集可执行文件,感受清晰、丝滑的视频

目前,微软亚洲研究院已将“达芬奇”工具集的部分可执行文件打包发布,GitHub 上的项目主页也将在近期上线,后续研究员们会在主页上陆续发布、更新更多的视频增强工具。专业开发者可以利用工具集,针对自己的场景进行尝试并与各自的业务深度整合或二次开发,而零技术基础的普通用户也可以通过下载、运行工具集的可执行文件,感受“达芬奇”所带来的清晰、丝滑的视频。

“达芬奇”工具集下载

图像超分辨率:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_ISR_General_20220622.zip

视频超分辨率:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_VSR_Small_Face_20220622.zip

相关论文链接:

  • Learning Texture Transformer Network for Image Super-Resolution
  • https://arxiv.org/abs/2006.04139
  • Learning Trajectory-Aware Transformer for Video Super-Resolution
  • https://arxiv.org/abs/2204.04216
  • Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment
  • https://arxiv.org/abs/2108.07948

更多链接:

“达芬奇”项目 GitHub 页面(即将上线,敬请期待!):

https://github.com/microsoft/davinci

如在使用工具集时发现任何问题,请发邮件到 davinci@microsoft.com 或者在即将发布的 GitHub 页面提交 issue 联系我们。

    推荐阅读
  • 帝国时代3决定版和原版区别(帝国时代3决定版评测)

    帝国时代3决定版和原版区别已经「决定」了两次的《帝国时代》系列终于轮到三代了。《帝国时代3》原版登陆Steam时,这两部DLC的完整内容也被收入其中。由于《帝国时代3》的主题是新航路开辟,因此这些单位的都是以「船运」形式抵达战场的。每个关卡都有挑战分数,有些是目标达成时间,有些是限制单位死亡数量,根据不同的结果会有金、银、铜三种奖牌。

  • 数控车床的对刀原理及过程简述(数控机床对刀原理解析及应用)

    即3.对刀原理由以上论述得知,“对刀”的最终任务是:确立工件坐标系的原点在机床坐标系中的位置,即确立二者之间的关系。在实际程序加工过程中,由于G92建立的坐标系是以刀具“当前点”为前提,“逆向反推”指令中指定的距离后得到工件坐标系的零点,所以,虽是同一条指令,但刀具“当前点”位置

  • 三亚地铁一号线最新规划图(城际铁路计划2024年开建)

    线路全长225公里,技术标准采用时速达350公里/小时的双线客运专线。海南横线高铁规划方案为:线路由环岛高铁白马井站引出,经儋州向东连接环岛高铁东段的琼海市,线路全长153公里,技术标准采用时速达350公里/小时的双线客运专线。

  • 电影我是证人演员表剧情介绍(电影斐济99度的爱情演员表剧情介绍)

    近日,姚星彤现身北京为新作斐济99度爱情电影配音,下面就来看看电影斐济99度的爱情演员表剧情介绍。姚星彤、张佑赫斐济99度的爱情电影由沈星妤总编剧、曾皓文监制、陶生执导,张佑赫、姚星彤、何琢言、李茂主演。斐济99度的爱情电影是中斐首部合作巨制的时尚爱情爆笑喜剧电影,该影片于2014年1月5日在北京开机拍摄,2014年3月8日北京时间13:40斐济时间17:40分全剧杀青。初步预计将在2014年暑期档公映。

  • 重庆重点地区返渝健康管理(重庆调整市外来渝返渝人员健康管理措施)

    据了解,今日新增排查地涉及海南省定安县;西藏自治区拉萨市、日喀则市;新疆维吾尔自治区吐鲁番市;新疆生产建设兵团第八师。符合加强免疫接种条件的市民,应及时接种“加强针”。

  • 致20岁生日自己的说说(关于祝自己生日快乐的语录)

    以下内容大家不妨参考一二希望能帮到您!致20岁生日自己的说说娇艳的鲜花,已为你开放;美好的日子,已悄悄来临。二十岁之前过生日感觉好开心,因为又长大了一岁,现在过生日怎么感觉好忧伤,有一种又老了一岁的感觉。亲爱的自己,今天是你的生日,生日快乐,记得要常常仰望天空,记住仰望天空的时候也要看看脚下。思念不能自已,痛苦不能自理,结果不能自取,幸福不能自予。祝自己生日快乐。

  • 觉醒年代辜鸿铭与英国人(清末怪杰辜鸿铭)

    辜鸿铭一生事迹的意义及其重要性在于沟通中西文化并诉诸于翻译事业。辜氏一生著述颇丰,且多用流利的英文写成,其目的即在于使西方人了解,并通过了解进而尊重中国文化。辜鸿铭在具体的翻译工作中,确实努力实践着这一翻译宗旨。辜鸿铭译经最大的缺点在于过分意译。持前一种观点的以林语堂为代表。持否定态度的则以王国维为代表。自诸多西人观之,辜氏实中国文化之代表,而中国在世界惟一有力之宣传员也。

  • 尼桑途达油耗怎么样 尼桑途达百公里油耗多少

    一些配置在途达上还是看不到的,比如自动启停,座椅加热,感应后备箱等,所以希望它可以加上;4、发动机的噪音很烦人,基本上车子转速在1500的时候噪音就开始了,但是给油噪音就会小一点,四驱切换不稳定,动力不足,超车有点吃力。途达没有全景天窗,我觉得十分可惜,如果配上了全景天窗就更加完美了。尼桑探路者还是很不错啊,值得购买,它的性能:1、车身尺寸及座椅数。与之匹配的是CVT变速箱,模拟七速。

  • 广州80年代新大新百货商场(陪伴广州街坊25载的知名百货即将撤场)

    信函显示,“因商场物业租赁合同将到期”,广州王府井百货将于2021年11月30日闭店后停止营业。据介绍,目前距离广州市民最近的王府井门店是佛山王府井紫薇港购物中心。得知王府井的停业消息,谭女士颇感意外和不舍。家住中山一医附近的邹女士表示每隔两三个月就会全家出动来王府井购物。

  • 白色的鞋用英语怎么说(木鞋用英语怎么说)

    clogs木鞋(木屐常用geta);Iwouldcasuallyaddthingstomycartwithlittleornointentionofbuyingthem;justforthesakeofimagininghavingthoseclogsorthesesandals.我漫不经心地往购物车里加东西,但其实根本没有购买意图或者不太想买,只是为了想象一下拥有这些木底鞋和凉鞋是什么样子。