Group_conv_and_DW 一、常规卷积操作 在图中,输入的特征图大小为 H * W * 4 卷积核个数为 2 个,每个卷积核的大小为 K * K * 4 输出的特征图大小为 H' * W' * 2 二、分组卷积 !!!! 常规卷积就是组数为 1 的分组卷积 将输入的特征图分为两组,每组的大小为 H * W * 2 那么每组中就只需要一个卷积核,且这个卷积核的大小为 K * K * 2 但是输出的特征图 2023-05-10 论文 #Group Conv #DW
GhostNet 一、轻量化网络结构 目的就是减少网络的计算量 1. 分组卷积 将输入特征图按通道均分为 g 组,然后对每一组进行常规卷积 由于分组后,每组输入特征图的通道数为 \(\frac{C_{in}}{g}\) ,所以每个卷积核的通道数也降低到 \(\frac{C_{in}}{g}\) 由于每组内进行的是常规卷积,所以每组至少需要一个卷积核,即分组卷积输出通道数至少为 g,如果每组有 n 个卷 2023-04-17 论文 #Deep Learning #轻量化网络结构 #GhostNet
KPN 一、研究背景 相比起基于 FCN 网络的文本边缘检测网络,KPN网络可以更好地处理文本之间的间隔。 二、方法流程 1. 特征提取 FCN 和 FPN FCN(全卷积神经网络) 介绍 FPN(特征金字塔神经网络) 介绍 特征提取网络有两个输入:图片和位置信息 位置信息怎么来的? 对图片中每一个像素点进行处理,从而生成两个通道的特征图。 每个像素点具有关于 x 轴 2023-03-05 论文 #CV #文本边缘检测 #KPN
Unprojecting_text_with_ellipses算法分析 原文链接 https://mzucker.github.io/2016/10/11/unprojecting-text-with-ellipses.html 一、单应性 1. 图片实例 将普通 2D 文本图片转换成类似 3D 文本图片的映射过程叫做单应性。 借用原文中星球大战的图片, 这就是转换之后的图片. 2. 数学表达式 对每个像素点而言, 在 2D 到 3D 转换过程中满足下 2022-12-22 代码 > OCR #图像增强
Document-Dewarping 基于文本行优化的文档去皱 原文地址:http://ispl.snu.ac.kr/bskim/DocumentDewarping/ 基本原理: 通过找到文档图片中文本行的位置信息来对整个文档图片进行调整处理 原文效果图: 测试 误找文本行 未找到文本行 找到文本行 ???明明找到文本行但是仍旧不能对图片进行处理 这里将使用原文中的图片进行测试, 得到如下效果图 2022-12-09 代码 > OCR #图像增强
通过DewarpNet解决图片扭曲问题 一、论文 DewarpNet:使用堆叠的三维和二维回归网络进行单幅图像文件纠正 论文地址: https://paperswithcode.com/paper/dewarpnet-single-image-document-unwarping 代码地址: https://github.com/cvlab-stonybrook/DewarpNet 二、效果展示 2.1 论文图片效果展示 从 2022-11-23 代码 > OCR #cv #Image Force
文档图片阴影去除 一、前言 在 OCR 的预处理中需要对文档图片中有阴影的部分进行消除, 在此之前使用过图像增强的算法对其进行处理, 本质就是二值化的处理. 在这篇文章中使用了新的方法进行处理, 并且将新方法和老方法之间进行了对比. 在文章最后还有使用模型对图片进行处理的效果. 二、通过 Gamma 校正来去除阴影 (旧方法) 这是之前使用的旧方法, 但是在移植到安卓的时候的时候出现了问题. 2. 2022-11-10 代码 > OCR