極彩花夢

GF 2023-11-15 13:50

（字幕とか儲からないし、翻訳とか適当でもいいよ）

只看GF | | 小中大

关于深度卷积神经网络超分辨率模型应用在里番上的效果

原文: https://kyokusai.moe/pandora/nnresize_in_hentai_animes/
部分地区加载不了文中图片。

本文介绍一些超分辨率(Image Super-Resolution)的“AI模型”的区别和效果。
文中出现的有关「插值」的名词可以从 https://kyokusai.moe/pandora/simple_artifacts_in_hentai_animes/ 了解。

本文是科普，不会涉及比较深的应用。

◈nnedi3
对于样本《Swing Out Sisters》的BDMV：

右下区域为图中某个区域的最邻近插值放大，方便直接观察细节效果。

这是一个质量非常好的1080P源，使用某个较高质量的缩小算法将宽高降为1/2：

然后再用最邻近插值升回原分辨率：

此时画面出现了相当程度的模糊，直接暴力地使用最邻近插值放大让线条的质量也不堪入目。
对于一个低分辨率的源，我们希望能有一个算法能升分辨率并且质量尽可能接近原分辨率的质量或高分辨率该有的质量。
但是对于一般情况，在高分辨率的源缩小时已经造成信息的不可逆丢失，而对于正常的一个源进行超分亦是要推测出不存在的数据。
「高分辨率」本身是值得多数人青睐的，而我们期待的超分效果就是尽可能地还原片源该有的高分辨率效果。

这里先观察nnedi3用于放缩的效果供后文对比，nnedi3并不是用于超分的算法。

效果还是非常不错的，但仔细观察会发现：
1. 线条变模糊了；
2. 线条周围一圈变白了，也就是振铃/晕轮。
除了模糊和振铃(Ringing)，插值算法一般还有锯齿(Aliasing)这个问题，但nnedi3有抗锯齿效果反而会降低锯齿。

画面变模糊是拉伸的一大硬伤，模糊(blurring)算是更多人最直观的感受。
使用一般算法进行拉伸后一般都需要进行收线、锐化，降低画面的模糊度。

◈Waifu2x
Waifu2x算是最出名的一个卷积神经网络超分模型。

Waifu2x可以进行降噪，关于降噪会在后面进行补充，这里对比效果都将降噪调到最低（不降噪）。
Waifu2x有若干模型，这里先使用upconv_7_anime_style_art_rgb进行2倍拉伸观察效果：

线条锐利度非常不错，但仔细观察能发现有很多地方锐利度过高了（比如红框上面，左胸的线条），超出原本1080P的锐利度。
一些地方的线条颜色变深，一些线条变粗。
然后使用更常用的cunet进行拉伸：

差别不是那么明显。
实际上cunet的锐利度还会再高一点，收线效果也更高线条更细。

对于样片《異世界ハーレム物語》：

片源是WEB-DL，分辨率为960*540（刚好1920*1080的一半）。
用最邻近插值放大观察效果：

片源的锯齿是非常重的。
使用Waifu2x的cunet模型进行拉伸：

锯齿明显降低了，锐利度略有提升。
但Waifu2x对于比较极端的锯齿效果非常有效，在这张图中观察主要女角色的头发线条，一些地方有阶梯感地割离。

Waifu2x还有降噪功能。
例如对上述同样的源进行2倍放大的同时降噪开到最高（3），《Swing Out Sisters》的效果：

锐利度远远高出了片源，有较高程度的收线。
并且仔细观察能发现有一些地方出现了锯齿，角色身上的水珠因为降噪白色基本变成了肤色，并且这种被降噪的地方会出现大幅度的模糊，涂抹非常严重（脸上的红晕基本被涂成一块了）。
《異世界ハーレム物語》的效果：

锐利度大大提高，锯齿对比片源要低一些但是对比不降噪模型就高非常多了。
原本背景帐篷上阴影处的噪点也被涂抹殆尽，角色的头发、肌肤看上去“光滑”许多。

当然，上面这样高强度的降噪肯定不是我们所期望的。
Waifu2x的最高降噪的破坏性过于巨大，在正常处理视频时完全用不了，所以一般用前几档较低的降噪。
随着降噪程度的提高，画面的锐利度提高，但锯齿更多、涂抹会越来越严重。
Waifu2x的降噪一共5档，后两档破坏力过高基本不使用，可选的一共3档，排除不降噪的一档就只有2档——Waifu2x的降噪可调节性远不如常规降噪滤镜，同时非常难控制（毕竟模型就是个黑盒）。

Waifu2x整体是偏保守的，低降噪时的拉伸效果比一般的插值拉伸效果好得多。
缺点主要是：
1. 可调节性较低。
2. 非常耗时，跟一般的插值算法运算速度不在一个量级。
3. 低降噪时锐利度较低，速度慢效果还不是那么显著，很大程度上不如一般插值算法放大+锐化+降噪。
另外在片源欠码时Waifu2x的效果较差。
如果在不考虑压制耗时（及设备要求）时，使用Waifu2x可以有一般插值算法没有的效果。

◈Real-CUGAN
相比之下CUGAN就比较接近核武器了。

CUGAN有普通版和pro两个版本，还有alpha参数供调节效果。
这里先看一下普通版+alpha=1时的效果：

目视的差距都非常大，锐利度远远高于片源。
线条出现了振铃和杂色，收线程度非常高，几乎所有线条都出现了白色像素，杂色严重的例如角色的发丝末端有严重变红。
降噪已经是最低了但降噪效果依然非常高，角色脸上的红晕基本就被涂抹成一条线了。

CUGAN有一个重要的参数alpha，默认值为1，这个值决定了模型的推理强度。
这个值在一般使用和在VapourSynth中使用是相反的，在VapourSynth中alpha越高锐化越高（其它情况则反之），后文以VapourSynth中的alpha做介绍。
官方推荐的取值范围在0.7-1.3，但实际为了不改变画风不可能取那么高的值。
这里观察一下普通版+alpha=0.3的效果：

画面就柔和许多了。
但CUGAN的锐化是比较奇怪的，有一些线条锐化得很过有一些又很弱，总体锐化程度还是非常高的。
alpha过低之后线条表现也不是那么好，可能需要额外的处理如收线。
还是出现了错误推理，头发发尖还是偏红。
CUGAN会大幅降低片源的许多线条问题，诸如锯齿、振铃，但是可能会又添加一些振铃。
降噪程度还是略高，有一些水珠被模糊掉了轮廓。

然后再是pro版，pro的效果非常怪，这里就只看alpha=0.5的效果：

因为alpha提高，画面对比上面是更加锐利的。
pro在alpha低的时候效果非常非常差，线条有很高的模糊但是线条中心仍然是一两个像素的黑色，非常非常别扭所以这里用了alpha=0.5。
振铃非常严重，头发倒是没有出现普通版的推理错误变红的情况（但出现其它推理错误的地方）。
pro的总体效果差很多，alpha高一点就非常容易过度锐化并且也有很严重的振铃，低一点会出现非常难看的模糊并且会添加噪点、破坏颜色。pro的收线效果也重得多，线条会变得非常细并且容易有锯齿。

《異世界ハーレム物語》的效果（普通版+alpha=0.5）：

人物的线条表现还是不错的。
从放大区域可以看到唾液的分界线被涂抹了，背景帐篷的噪点被消灭完了。
另外中间女性角色的部分红晕线条被涂抹了，而Waifu2x将这些保留了下来。
对于这张图，CUGAN将原本的振铃基本消除完了，并且没有原本严重的锯齿问题。

另外，CUGAN还有一些问题：亮度偏高（尤其原本的白色区域）、纹理涂抹、改变风格（水彩画）等。

对比Waifu2x，CUGAN有着非常明显的不同。
与保守的Waifu2x相比，CUGAN的效果算是非常粗暴了，并且同时带来了各种复杂琐碎的问题。
可是耐不住CUGAN在锐化上远比Waifu2x的目视效果优秀，并且CUGAN还能解决不少原有的线条问题。

◈Real-ESRGAN
RealESRGAN的效果是比较魔幻的。

RealESRGAN并没有多少可调整的东西，效果为：

个人认为其在目视上最明显的不同是：背景的门太过清晰了。
锐化固然是容易讨好眼睛的，但有时候不需要讨好眼睛，因为类似这种浴室场景背景本身就该是模糊的。
一个画面总该需要一个焦点，背景太过“清晰”或者“清楚”难免喧宾夺主。
并且过高的锐化会让画面失去很多原本要表达出的信息，例如这一幕在浴室整体画面却无比“清晰”，越细看越违和。
此外RealESRGAN还有相当程度的振铃、涂抹，角色身上的水珠也如同CUGAN没掉了。
有一处发尖也像CUGAN一样因为几个像素偏红而变红，整体颜色偏差也非常严重。
另外RealESRGAN的杂色问题极为严重：

线条周围出现了非常多不该有的、奇怪颜色的像素。
《異世界ハーレム物語》的效果：

部分地方的线条表现比CUGAN好不少，但问题明显更多。
CUGAN有的涂抹都有并且更严重，角色脸上红晕基本都涂掉了，背景帐篷也是非常干净。
另外部分线条加深过于明显，例如主要女角色的发尖，与帐篷交界的线条周围明显变深。
偏色严重，最后面女角色的耳朵明显偏白了。另外杂色肯定也是如同上面一样严重的。

RealESRGAN还有非常魔幻的一点，速度极慢无比。

◈结束语
这里往后就写得随意一点（不负责一点），如果有您不喜欢的文字就请不要继续阅读，不必同意我个人的观点但同时请不要评价我的观点。

首先说点别的，关于片源。

这是《異世界ハーレム物語》的WEB-DL，分辨率为960*540。

这应该是绝大多数人看的片源（亦或是以此加工的），hikiko123放流的DVDRip，分辨率为720*480（使用nnedi3拉伸到960*540供对比）。
后者明显线条更脏，头发被压得烂完了，振铃也更加严重，乳晕区域基本就能体现出来这些问题。
角色的红晕就更是重灾区了。

这是《OVA母乳ちゃんは射したい。》的WEB-DL，分辨率为1920*1080。

这是hikiko123放流的DVDRip，分辨率为720*480（使用nnedi3拉伸到1920*1080供对比）。
480P到1080P而且是Rip对比DL，差距就非常非常大了。

hikiko123一直以来为全球阿宅提供了非常多的里番DVDRip，但DVD本身480P的限制始终是很让人难受的。
就算WEB最低的一档分辨率960*540也远远凌驾其上，更别说720P和1080P的WEB。

总体的片源质量上，BD>WEB>>DVD。另外DL是指下载（解密）得到的片源，Rip指DL经过处理重编码后的。
里番固然期待不了新番有BD，但是WEB还是多少能期待一下的。

动画在制作时会有一个原生分辨率。
例如对于805P的原生分辨率，制作DVD时需要降到480P进行编码，制作720PWEB时需要降到720P进行编码，而制作1080PWEB时需要升到1080P进行编码。
且目标分辨率越高会需要分配更高的码率，让高分辨率下的片源不会太差。
降到480P就是画面信息的大削弱，而升到1080P后编码只会降低部分信息。
在480P的分辨率下凭空补全失去的信息并提升到1080P无异于痴心妄想，正常情况下低分辨率怎么也比不过高分辨率。

——好了这上面基本上都是稍微了解一点就知道的，没多少主观看法。

早年压制非常关注带宽，也经常会有片源是某个奇怪的分辨率（如576P）最终就压成那个分辨率的情况。
当时有的一种看法是，压制者自行拉伸到720P或者多少并不能提升画质，只是帮用户播放器拉伸一下毫无意义地增加文件体积而已。
但到近年，我们大多数人的设备都是1080P起步，也不少人追求着2K、4K甚至更高的分辨率。
屏幕的尺寸变大一点，对于视觉体验的提升是非常显著的。
可是拿着4K屏幕看480P的视频难免会让人觉得不自在。
不止里番，表番也有少数人追求着更高的分辨率。

以部分压制者的观点来说，就算把480P的视频拉伸成1080P，也提升不了画质反而可能影响原有信息。
并且就算是AI超分也不例外，没有哪个模型能真正补全那原本就不曾存在的1080P减480P的差（信息）。
这其实跟马赛克有点“类似”，马赛克本身就已经是把原有信息全部摧毁了，又怎么能从0到100呢。
此时应该拿出来反驳的观点是，神经网络模型会通过学习到的数据分析，不是只用乘法而还会用加法加到0上，编造出接近100的值。
例如马赛克，对于成人视频的私处的马赛克就有相关的技术编造出非学习数据非源数据的信息。
可是转念一想，这样的说法漏洞非常多。
首先对于里番去码，现有的模型均是基于真人视频进行学习，又怎么应用到动画这个载体上呢？
然后是编造出的信息——说到底，在前面比较各个模型超分的时候有哪个地方是编造出来原本没有的细节呢？
可以说近乎所有看着像增加/加强了的细节，都是能简单通过锐化滤镜实现的。

那么这张，从540P升到1080P，锐度比源略高，水珠、红晕保留非常不错，背景保持模糊，没有偏色和目视杂色，没有涂抹……
这是什么模型呢？
这是nnedi3拉伸到1080P后获取线条遮罩，进行收线、加深、抗锯齿、锐化，用遮罩限制一下得到的。
对真正处理来说这些步骤并不复杂，但是可以以快得多的速度实现比模型超分更好的效果——如果嫌锐化不够高那就硬往上拉，锐到像素画都不成问题。
降噪或者杂色肯定不是编造的有效值，收线加深锐化也全都可以不是。
在这样一个无比暧昧的情况下，模型更像是一个提高分辨率加一堆处理的包裹，而我们可以选择更加快捷、有效的常规方式进行处理。

可是站在一般人的角度，模型超分可能就是比插值拉伸看着好看——并且好看就够了。
RealESRGAN的杂色那么严重，可说白了不放大十多倍很难看出来，有点振铃也是可以突出线条的。
至少在现在，分辨率作为画质的一部分所占的比重应该被考虑得更高。

一个较为理想但非常耗时的过程：1.选更好的片源=>2.选自己更偏好的模型进行超分辨率=>3.用遮罩等手段对结果进行限制=>4.对锯齿、振铃、色带等瑕疵另做处理=>5.压制。
站在一般人角度：
1. 片源选择上，除了优先BD、WEB外还有DL和Rip的比较。
DL基本注定了只有自己花钱买才能拿到，里番的WEB-DL有不能在公网传播的潜规则。BD的BD-Remux或者BDMV倒是能找到一些。
Rip如果是裸压自然是比不过DL的，而如果是处理过的可以减少后续操作。
2. 除了本文介绍的三个模型外还有非常多动画超分模型，总之是从效果和速度上选自己能接受的。
以本文三个模型举例，如果想要更突出的效果就是RealESRGAN，更保守的效果就是Waifu2x，折中就是CUGAN。
3. 多数模型有严重的降噪和平面涂抹，本文中这些问题最轻的就是Waifu2x了。
用遮罩限制，主要线条使用模型拉伸，而平面使用常规插值算法，结合两者能得到更好的效果。
就算在常规插值算法中，也有一些算法是适合平面、有一些算法是适合线条的，往往结合不同算法才能得到更好的效果。
4. 具体而言，Waifu2x一般不能除掉片源所有的振铃、锯齿，需要另做处理，Waifu2x不会处理色带。
CUGAN能处理掉很多振铃、锯齿，降噪可能处理掉一些色带（但要限制平面处理所以相当于没有处理掉色带），不过也同时可能新加一些振铃、锯齿，视情况需要额外处理。
RealESRGAN不怎么用不那么熟，但其振铃是非常明显的，杂色也可以后续控制一下。

最后再提一点攻击性。
根本没有最好的插值算法或者超分模型，每一个算法或者模型都必定有自己适合的区域也必定有自己不适合的——一定程度上这句就是个废话，但是我个人相信很多人并没有理解到这一点。
一方面绝对会有人看不出那些所谓的区别（这要是对比区别更小的插值算法就更看不出来了），一方面也绝对会有人看得出一些区别——但是前者不用憋着自己眼睛找不同，后者不必觉得自己火眼金睛。
如果只是做自己喜欢做的事，绝大部分情况下轮不到其他人说三道四。

本文并没有什么营养，也是一个周里隔几天写点拼凑出来的。
原本可能还会额外做一些细节对比，但确实就内容上不是那么喜欢，能憋到写这么多已经尽力了。

顶端

秋名居士

B1F 2023-11-15 13:56

只看该作者 | | 小中大

学术水平拉满

顶端

MindControl

B2F 2023-11-15 14:08

只看该作者 | | 小中大

图片看不了，网站要翻墙（对不起，您已被屏蔽）

顶端

LuCursor

B3F 2023-11-15 14:15

只看该作者 | | 小中大

好帖，很细致

顶端

小帆

B4F 2023-11-15 14:21

只看该作者 | | 小中大

摸摸

完全看不懂

顶端

尊贵的米偷游玩家

B5F 2023-11-15 14:28

（烧鸡尸块米偷游忠犬护卫米孝子）

只看该作者 | | 小中大

顶

顶端

極彩花夢

B6F 2023-11-15 14:29

（字幕とか儲からないし、翻訳とか適当でもいいよ）

只看该作者 | | 小中大

回 2楼(MindControl) 的帖子

字幕组官网，屏蔽了中国大陆及港澳台ip，另外还屏蔽了一些地区。

顶端

hhlsp

B7F 2023-11-15 14:40

只看该作者 | | 小中大

就从观感来说提升是有的，但是也带来了一点线条锐化和过度清雾的副作用，在某些极稀缺的单版留存视频中应用的话，也许会意外除掉氛围特效，总体还是不错的

顶端

宣景

B8F 2023-11-15 14:52

只看该作者 | | 小中大

加油

顶端

北岛爱见

B9F 2023-11-15 15:17

只看该作者 | | 小中大

超分啊，有意思

顶端

91919

B10F 2023-11-15 19:52

| ▼展开

只看该作者 | | 小中大

非洲鸟厨

B11F 2023-11-15 19:59

只看该作者 | | 小中大

厉害啊，专业是CV方向的吗

顶端

司见才不会被永久

B12F 2023-11-15 20:02

（啊呜～你怎么能相信男人的嘴巴呢？）

只看该作者 | | 小中大

标记一下

顶端

闲鱼咸鱼闲

B13F 2023-11-15 20:02

只看该作者 | | 小中大

大佬NB

顶端

Y先生

B14F 2023-11-15 20:16

（https://www.wnacg.com/）

只看该作者 | | 小中大

有没有直接点的结果。

顶端

dmxlord

B15F 2023-11-15 20:53

只看该作者 | | 小中大

dcn做sr是有点年代感的

顶端

reka

B16F 2023-11-15 21:33

（i can't live, without rose.）

只看该作者 | | 小中大

RealESRGAN 那个我觉得非常棒

顶端

低调做人

B17F 2023-11-15 22:02

（低调低调）

只看该作者 | | 小中大

帮顶

顶端

mskkr

B18F 2023-11-15 22:19

只看该作者 | | 小中大

Xintao wang大佬搞的那些个论文都挺牛逼的，毕业后就没再看过SR相关的东西了，挺怀念的

顶端

e88f6be5

B19F 2023-11-15 23:08

只看该作者 | | 小中大

秀

顶端

Sakyori

B20F 2023-11-15 23:31

只看该作者 | | 小中大

硬着头皮把字大概看完了，没做过压制所以知识很难入脑，最后得出来的结论就是用模型跑超分和算法放大视频其实各有优劣并没有完美方案

只是模型的效果更抓眼些？

就我个人而言里番看得很少，因为总觉得重复镜头太多太长了。
看表番就特别喜欢的会特意找字幕组放出的1080双语源，其他的就随便流媒体应付了，所以也只能感受出自己下载的确实比叔叔巴哈上的清晰，其他不太能感受出来了（potplayer配置也是抄来的，上面也整过一些画面上的设置，变量这么多已经没啥可比性了）。

顶端

rakubi

B21F 2023-11-16 00:18

只看该作者 | | 小中大

发给在做SR的盆友了

顶端

極彩花夢

B22F 2023-11-16 00:34

（字幕とか儲からないし、翻訳とか適当でもいいよ）

只看该作者 | | 小中大

回 20楼(Sakyori) 的帖子

难为了，毕竟是些没什么用处的知识经验。
模型超分和插值拉伸的大方向差距，前者有锐化效果后者速度相对而言非常快，就算抛开速度问题也基本是各有优劣。
对于表番而言，字幕组一般会使用CR源，CR源本身码率非常高（一话24分钟大小超过1G），baha源的码率一般就只有CR的一半，B站源就更低了。
一些字幕组是CR源裸压，一些会做一定处理。

顶端

1656

B23F 2023-11-16 01:06

（个性签名）

只看该作者 | | 小中大

只要画面没变色，拿放大镜看我才容易看出不同

顶端

忍不住手冲

B24F 2023-11-16 01:44

| ▼展开

只看该作者 | | 小中大

不愿透露deXXX

B25F 2023-11-16 01:46

只看该作者 | | 小中大

这种超分模型还是跑图片吧，跑视频太吃力了……视频还是交给专业的来，像Topaz Video Enhance AI之类的

顶端

sp_bot

B26F 2023-11-16 01:51

只看该作者 | | 小中大

好帖绑定

顶端

極彩花夢

B27F 2023-11-16 02:26

（字幕とか儲からないし、翻訳とか適当でもいいよ）

只看该作者 | | 小中大

回 25楼(不愿透露deXXX) 的帖子

VEAI不同于Waifu2x等模型，是针对多帧进行训练的。
但其实时域上的问题并未在本文提及，文中所有对比均是空域上的。
“专业”这个词亦有不妥，毕竟常规插值算法也是不会有时域优化的。
在耗时上我个人不清楚VEAI的情况，但文中介绍的三个模型确实非常非常吃时间。
nnedi3的耗时已经比常规插值算法高了不少，而模型的耗时就根本不在一个数量级了。
用与不用就看自己取舍了，姑且1-2fps就算成功。

顶端

XwX

B28F 2023-11-16 05:03

| ▼展开

只看该作者 | | 小中大

cb915504

B29F 2023-11-16 07:42

只看该作者 | | 小中大

建议投 CCF-A 会议

顶端

yuyi

B30F 2023-11-18 17:53

只看该作者 | | 小中大

逆天，nb

顶端

漫区特设

蜜柑计划

综合交流

人民囧府

关于深度卷积神经网络超分辨率模型应用在里番上的效果

回 2楼(MindControl) 的帖子

回 20楼(Sakyori) 的帖子

回 25楼(不愿透露deXXX) 的帖子