计算机视觉入门路线，开源视觉算法 – 创业网-尊龙凯时登录首页

从雷锋字幕组改变双语写作

译文：推荐！最适合初学者的18个经典开源计算机视觉项目

英文原文： 18all-timeclassicopensourcecomputervisionprojectsforbeginners

雷锋字幕组(小哲)

概述

开源计算机视觉项目是在深度学习领域获得一席之地的绝佳渠道，我开始学习这18个非常受欢迎的经典开源计算机视觉项目( 010 ) 老实说，我不记得上次一整天都没有和计算机视觉使用案例交互，或者至少没有和类似的计算机视觉使用案例交互。 (通过手机进行脸部识别) )。

但是有一件事是陷入想要学习计算机视觉的人的倾向和理论的概念，这是可取的最坏的途径。为了真正学习计算机视觉，理论和实践需要结合。

而且这就是开源计算机视觉项目存在的地方。练习计算机视觉技术——不需要付钱。你可以坐在现在的位置上完成这些工作。

所以，本文建立了基于计算机视觉不同app位置的开源计算机视觉项目列表。有很多事情要做。这是一个相当全面的列表，我们深入研究吧。

如果您是完全计算机视觉和深度学习的初学者，并且想通过视频学习，请参阅：

使用深度学习2.0的计算机视觉

引言

图像分类使用人脸识别gan的自然样式变换使用字符检测detr的目标检测语义分割自动驾驶的道路交通线检测图像标记人的姿态估计表情的情感识别

18个开源的计算机视觉项目分为下边的这些类：

图像分类是计算机目标是通过为每个图像分配标签来区分图像。对人类来说，理解区分我们看到的图像很简单。仅仅对机器来说是非常不同的。对机器来说，区分大象和汽车是一项艰巨的工作。

以下是几个最突出的图像分类开源项目：

cifar10cifar-10是训练机器学习和计算机视觉算法的常用数据集，是机器学习最热门的数据集。包括60000张图像，分为10种，各图像的尺寸为32×32。类别包括飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

imagenetimagenet数据集是用于计算机视觉研究的巨大图像数据集，该数据集手工标记了140多万幅图像，这些标记表明图像中包含这些物体。然后，多余的1万张图像标记了物品的边界框。 imagenet中包含了多余的20000种物品。

作为初学者，可以使用keras和pytorch从头开始学习神经网络。为了更有效地提高学习水平，建议使用cgg-16、resnet-50、googlenet等迁移学习培训模式。

top4图片分类的python码建议阅读以下文章以更好地理解图片分类：

利用深度神经网络进行imagenet图像分类卷积层数深化( vgg )图像识别的深度残差网络( resnet )人脸识别开源计算机视觉代码人脸识别是计算机视觉应用最广泛的。人脸识别应用于安全、监控或解锁。这是一种提前存在的数据集中在图像或视频上确认你的脸的方法。我们可以学习这些脸部特征，识别他们。

这是一个多步骤的过程，该过程由以下步骤组成：

面部检测(用于定位图像和视频中的一个或多个面部)。对齐用于归一化面部在集合上与数据集匹配的特征提取。然后提取特征用于识别任务。特征识别)与数据库特征匹配的以下开源数据集提供了良好的面部识别机会：

megafacemegaface是一个大规模的公共人脸识别训练数据集，是商业人脸识别问题最重要的标准之一。 4753320人的脸，包括672057人的身份

2 .“labeledfacesinwildhome”( http://vis-www.cs.umass.edu/lfw/) lfw )是脸部照片数据库，不受约束

另外，为了更好地利用这些项目，可以使用facenet这样的预培训模式。

facenet是一种深度学习模型，为人脸识别、验证和聚类任务提供统一的嵌入。网络将所有人的脸映射到一个欧几里得网络中，每个图像之间的距离相似。

资源

还可以使用keras和pytorch的预训练模型构建自己的人脸识别系统。

还有更高级的面部识别模型。 deepface是由facebook的研究者开发的基于cnn的deep网络。这是在脸部识别任务中使用深度学习的重要里程碑。

为了更好地理解近30年来人脸识别技术的发展，我建议你阅读一些有趣的论文。主题如下。

deep face recognition :使用a survey开源计算机视觉项目gan进行自然样式转换的自然样式转换是一种使用一幅图像的样式重建另一幅图像内容的计算机视觉技术它生成了一个对抗网络( gan )的app，您可以在其中输入两张图像、一张内容图像和另一张时的样式参考图像，然后将它们混合并输出

这是通过优化输出图像和内容图像一致的内容统计和模式参考图像的模式统计来实现的。

资源

以下数据集用于非常惊人的练习。

coco数据集coco是一个大型对象发现、分割和标记数据集。数据集中的图像是从日常场景中捕获的日常对象。它还提供多对象标记、拆分蒙版标记、图像标记和关键点检测，共有81个类别，是一个非常通用、多功能的数据集。

imagenet如上所述，imagenet的使用非常灵活。如果你不知道如何应用样式转换模型，这里tensorflow教程可以帮助你。而且，如果你升学去更了解这个技术的话，我建议你读下一篇论文。

艺术形式的学术表现采用循环匹配进行网络无配对的图像到图像变换采用卷积神经网络进行图像分割变换

图像分类的开源计算机视觉项目

检测一个场景是另一个非常有趣的问题。场景文字是指在室外拍摄的图像中出现的文字。例如，道路牌照、道路告示牌等。

场景图像中的文字在形状、字体、颜色和位置上发生变化。由于照明和焦点的不均匀性，进一步增加了场景文本识别的复杂度。

下的这些流行数据集丰富了分析场景字符检测的技能：

svhn街景地址( svhn )数据集是其中最受欢迎的开源数据集之一。它用于通过谷歌制作的神经网络读取地址，使之与地理位置一致。这是一套优秀的基准数据集，可用于练习、学习和训练。该数据集包含从谷歌街景获取的60多万张带有标签的实际门图像。

scenetext数据集场景文本数据集包含在不同环境下拍摄的3000张图像，包括室外和室内不同照明条件的场景，图像由高分辨率数码相机或低分辨率手机相机拍摄，且所有图像均为640480

另外，场景文本检测是包括图像中文本检测和文本识别的两个阶段的过程。关于文本检测，发现了先进的深度学习方法east (高效准确的场景文本检测器)。可以找到水平和旋转边界框。可以将这与任何文本识别方法组合。

这是关于场景文本检测的其他有趣的论文：

利用链接主义文本提出网络检测自然图像中的文本coco-text :自然图像中文本检测的数据集和标准

用于场景文本检测的开源计算机视觉项目

目标检测是根据边框和图像上合适的标签预测图像中每个感兴趣对象的任务。

几个月前，facebook对目标检测框架detectiontransformer(detr )进行了开源。 detr是针对目标检测问题的高效创新尊龙凯时ag旗舰厅的解决方案。通过将对象检测视为直接设定的预测问题，简化了训练流水线。此外，采用了基于变压器的编码器-解码器架构。

:有关dert的详细信息，请参阅论文和colab notebook。

通过处理用于对象发现的下一个开源数据集来多样化数据

open imagesopen image是一组约900万幅图像的数据集，带有图像级标签、对象边界框、对象分割遮罩、视觉关系和本地化说明。数据集包括训练集( 9，011，219张图像)、验证集( 41，620张图像)、测试集( 125，436张图像)。

mscocoms-coco是广泛应用于目标检测问题的大数据集。由33万幅图像组成，其中包含80个对象类别，每幅图像有5个标记，有25万个关键点。

有关对象检测的详细信息，请参见以下资源：

对于基本目标检测算法的每一步，使用热门yolo框架进行目标检测的实用指南facebook ai都会推出检测转换器( detr )。一种基于transformer的对象检测方法！

使用detr进行目标检测的开源计算机视觉项目

谈计算机视觉技术中对场景的全面理解，出现语义分割。任务是将图像中的所有像素分类到相关的对象类别中。

以下是实践此主题的开放源代码数据集的列表。

camvid此数据库是第一个开放源代码语义数据集之一。它通常用于“实时”语义分割研究。数据集包括以下内容

367训练对101个验证对233个测试对cityscapes此数据集是原始城市景观的处理子样本。数据集有原始视频的静态图像，语义分割标签显示在原始图像旁边的图像上。这是最适合语义分割任务的数据集之一。有2975个训练图像文件和500个验证图像文件，分别为256512像素

要了解更多关于语义碎片的信息，请推荐以下文章。

语义分割：介绍谷歌pixel摄像头背后的深度学习技术！可用于语义分割的代码论文如下所示。

可分腔卷积编码器-解码器用于语义图像分割deeplab :基于深度卷积网络、腔体卷积和全连接crf的语义图像分割

用于语义分割的开源计算机视觉项目

自主式轿车是一种可感知环境、无人机干预的交通工具。他们根据适合车辆不同部分的各种传感器绘制和维护周围环境的地图。

这些车辆都有监视附近车辆位置的雷达传感器。摄像头检测红绿灯，读取路标，跟踪其他车辆，激光雷达(光检测和测距)传感器从汽车周围反射光脉冲测量距离，检测道路边缘，识别车道标记

车道检测是这些车辆的重要组成部分。在道路运输中，车道是行车道的一部分，被指定为单一车辆以控制和引导驾驶员，减少交通冲突。

在数据科学家的简历中添加激动人心的项目。以下是可用于实验的数据集-

tusimple该数据集是tusimple通道检测挑战的一部分，并且包含3626个视频剪辑，每个剪辑为一秒。这些视频剪辑中分别包含20帧，包含有注释的最后一帧。包含3626个视频剪辑，训练数据集中的3626个附有注释的帧，2782个测试视频剪辑。

如果您正在寻找一些开发项目教程，请参阅以下文章-

使用opencv进行实时车道检测的手部教程(无人汽车项目！

用于自动驾驶车辆道路车道检测的开源计算机视觉项目

你有没有想过可以在社交媒体图片中添加标注的技术？因为你和朋友都不能提交很酷的加价吗？为了图像标注的深度学习会为您提供帮助。

图像标注是生成图像文本描述的过程，是计算机视觉与自然语言处理( nlp )的组合任务。

计算机视觉方法有助于从输入图像中理解和提取特征，并且nlp以正确的单词顺序将图像转换为文本描述。

以下是有助于使用图像标记的有用数据集。

coco captioncoco是一种大规模的对象检测、数据集分割和标记。由330万张图像(表示为200k )组成，拥有150万个对象实例和80个对象类别，每个图像有5个标题。

ficker 8k数据集这是图像注释语料库，由158，915个众包字幕构成，记述了31，783张图像。这是flickr 8k数据集的扩展。新的图像和注释集中在进行日常活动和活动的人们身上。

如果您正在寻找项目的实现，我们建议您查看以下内容。

除了在pytorch上使用深度学习( cnn和lstm )进行自动图像字幕之外，还建议阅读有关图像标记的知名论文。

用于图像标注的开源计算机视觉项目

人体姿态估计是计算机视觉的有趣应用。 posenet已经听说过了吧。这是一个用于人体姿态估计的开源模型。简而言之，姿态估计是一种计算机视觉技术，能够估计存在于图像/视频中的人或物体的姿态。

在讨论姿态估计工作之前，让我们先了解一下“人体姿态骨架”。这是定义人的姿势的一系列坐标。一对坐标是肢体。它还通过识别图像和视频中人的姿态骨架的关键点，定位和跟踪来执行姿态估计。

资源

开发姿态估计模型时，有以下数据集：

mpiimpii human pose数据集是评估关节式姿态估计的最新标准。该数据集包含约25k的图像，其中包括4万多名带注释的人体关节的人。总体上，数据集涵盖了410种人类活动，每个图像都有活动标签。

humanevahumaneva-i数据集包括七个与三维人体姿态同步的校准视频序列。该数据库包含执行六种常见行为(例如，步行、慢跑、手势等)的四个主题，这些行为分为训练、验证和测试集。

我们发现google的deeppose是使用深度学习模型进行姿势推断非常有趣的研究论文。另外，可以访问多个关于姿势推断的研究论文，更好地理解。

用于人体姿势估计的开源计算机视觉项目

表情在非语言交流和认识人的过程中起着重要的作用。这些对认识人的感情非常重要。因此，关于表情的信息常用于情感识别的自动系统。

感情识别是一项很难的任务。因为感情根据环境、外观、文化、脸部的反应而不同，数据有可能不明确。

表情识别系统是一个包括人脸图像处理、特征提取和分类的多阶段过程。

资源

以下是可用于练习的数据集。

real-worldaffectivefacesdatabase现实世界的感情脸部数据库( raf-db )是包含约3万张各种各样的脸部图像的大规模脸部表情数据库。它由29672个现实世界的图像和各图像的7维表情分布向量构成。

阅读这些资源以了解更多内容-

视频中表情识别框架注意力网络遮挡姿态和稳健表情识别的区域注意网络

通过面部表情进行情感识别的开源计算机视觉项目

总之，本文讨论了作为初学者可以实现的10个有趣的计算机视觉项目。这不是详细的列表。因此，如果我们觉得错过了什么，请随时添加到以下评论中。

此外，这里列举了一些简历资源，有助于探索深度学习和计算机视觉世界：

这是一个计算机视觉认证计划，使用学习路线深度学习2.0课程，在2020年学习计算机视觉。初学者计算机视觉神经网络入门(免费)从零开始的卷积神经网络( cnn )免费)我们在课程和自我练习中学到的数据科学与我们在行业工作的数据科学有很多不同。我们建议您参加这些非常清晰、宝贵的免费课程，了解所有关于分析、机器学习和人工智能的信息：

机器学习/人工智能免费课程介绍|移动app机器学习人工智能商界领袖移动app介绍商务分析免费课程介绍|移动app希望你觉得这次讨论对你有意义。现在轮到你自己应用计算机视觉了。

计算机视觉入门路线，开源视觉算法 – 创业网-尊龙凯时登录首页

概述

引言

18个开源的计算机视觉项目分为下边的这些类：

图像分类的开源计算机视觉项目

用于场景文本检测的开源计算机视觉项目

使用detr进行目标检测的开源计算机视觉项目

用于语义分割的开源计算机视觉项目

用于自动驾驶车辆道路车道检测的开源计算机视觉项目

用于图像标注的开源计算机视觉项目

用于人体姿势估计的开源计算机视觉项目

通过面部表情进行情感识别的开源计算机视觉项目

关于作者:

发表回复取消回复

概述

引言

18个开源的计算机视觉项目分为下边的这些类：

图像分类的开源计算机视觉项目

用于场景文本检测的开源计算机视觉项目

使用detr进行目标检测的开源计算机视觉项目

用于语义分割的开源计算机视觉项目

用于自动驾驶车辆道路车道检测的开源计算机视觉项目

用于图像标注的开源计算机视觉项目

用于人体姿势估计的开源计算机视觉项目

通过面部表情进行情感识别的开源计算机视觉项目

给这篇文章的作者打赏

关于作者:

为您推荐

转行运营不练好这3个内功，看再多干货也没有用！

开网店怎么开详细步骤是什么如何开网店

对接全球万亿企业需求！跨境商业采购在2023年成为下一个“战略级”商机

阿迪达斯38码是什么意思(阿迪达斯有没有38码)

男士皮带品牌排行榜前十名是哪些(最新男士皮带十大名牌)

高跟鞋和运动鞋尺码一样吗(高跟鞋尺码表图片)

发表回复 取消回复

发表回复取消回复