视觉理解机 V0.3.0:7 个图像分类和物体检测示例


视觉理解机V0.3.0是基于理解机框架的计算机视觉解决方案。

视觉理解机提供了面向图像的UDF和UDT,可以很方便的处理大规模的图像数据。视觉理解机本身是一个框架,具体的机器学习能力由理解机的PyTorch插件实现。

本次发布提供的PyPI包

  • ligavision==0.3.0
  • liga-pytorch==0.3.0
  • liga-tv==0.3.0

本次发布提供的七个可执行的Notebook

可以直接在Gitee预览这七个Notebook。 https://gitee.com/komprenilo/liga-pytorch

主要分为两类,由于Gitee无法渲染Google Colab的链接,这里直接给出链接:

  • 图像分类(convnext为例):点我在Gitee预览 / 点我前往Google Colab执行
  • 物体检测(ssd为例):点我在Gitee预览 / 点我前往Google Colab执行

图像分类:使用SQL识别波斯猫

创建一个用于图像分类的模型

直接用SQL就可以知道该图像里面的猫是波斯猫


相關推薦

2023-03-16

图像分类:  图像分类是指给定一张图像,通过计算机视觉技术来判断它属于哪一类别。图像分类是一种有监督学习任务,需要通过训练样本和标签来建立分类模型。在图像分类中,算法需要提取图像的特征,然后将其分类为

2022-09-08

谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常

2023-03-30

; 本次发布涉及以下PyPI包 liga==0.3.0 liga-sklearn==0.3.0: 理解机插件示例实现 liga-mlflow==0.3.0: 理解机模型注册系统示例集成 理解机是一个框架,如果想使用理解机,可以参考使用理解机Sklearn插件的Jupyter笔记本: https://gitee.c

2023-10-26

最佳性能。在通用人工智能的研究领域,教导计算机深度理解三维世界是当前重要研究目标之一,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/s

2023-06-29

el (SAM) 进行个性化定制,以在照片相册中自动分割特定的视觉概念,例如你的宠物狗狗。 论文页面: https://hf.co/papers/2305.03048 Space 应用: https://hf.co/spaces/justin-zk/Personalize-SAM Notebooks 链接: https://github.com/NielsRogge/Transformers-Tutorials/tre

2023-12-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.9.0 版本的主要更新内容如下: Core Module: #23965 添加cv::broadcast DNN module patches: Experimental transformers 支持 #24476 

2023-11-03

供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。 借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具

2023-07-08

模型系列,包括“5+N+X”三层架构: L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模

2022-09-10

高分辨率的帧。 FSR 技术是一项允许游戏同时提高性能和视觉效果输出的技术。以往在电脑配置的限制下,游戏通常无法同时兼顾游戏性能和视觉效果,尤其是大型的 3A 游戏,玩家需要根据自己的偏好在两者之间相互权衡,而

2023-03-16

开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强大,甚至可以用来写小说写论文,但目前也仅限于文字交流。但表情包早已

2023-10-22

遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一,一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。

2023-06-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.8 版本的主要更新内容如下: DNN module patches: #23161、#23409 TFLite 模型支持,包括 int8 量化模型。 #23604 启用 DNN 模

2023-09-07

场景识别能力很强。 在模型侧,在模型设计上团队将视觉模型和大语言模型完全冻结,保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征,模型