视觉理解机 V0.3.0:7 个图像分类和物体检测示例


视觉理解机V0.3.0是基于理解机框架的计算机视觉解决方案。

视觉理解机提供了面向图像的UDF和UDT,可以很方便的处理大规模的图像数据。视觉理解机本身是一个框架,具体的机器学习能力由理解机的PyTorch插件实现。

本次发布提供的PyPI包

  • ligavision==0.3.0
  • liga-pytorch==0.3.0
  • liga-tv==0.3.0

本次发布提供的七个可执行的Notebook

可以直接在Gitee预览这七个Notebook。 https://gitee.com/komprenilo/liga-pytorch

主要分为两类,由于Gitee无法渲染Google Colab的链接,这里直接给出链接:

  • 图像分类(convnext为例):点我在Gitee预览 / 点我前往Google Colab执行
  • 物体检测(ssd为例):点我在Gitee预览 / 点我前往Google Colab执行

图像分类:使用SQL识别波斯猫

创建一个用于图像分类的模型

直接用SQL就可以知道该图像里面的猫是波斯猫


相關推薦

2023-03-16

图像分类:  图像分类是指给定一张图像,通过计算机视觉技术来判断它属于哪一类别。图像分类是一种有监督学习任务,需要通过训练样本和标签来建立分类模型。在图像分类中,算法需要提取图像的特征,然后将其分类为

2022-09-08

谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常

2023-03-30

; 本次发布涉及以下PyPI包 liga==0.3.0 liga-sklearn==0.3.0: 理解机插件示例实现 liga-mlflow==0.3.0: 理解机模型注册系统示例集成 理解机是一个框架,如果想使用理解机,可以参考使用理解机Sklearn插件的Jupyter笔记本: https://gitee.c

2024-07-02

别FastYolo效果展示 使用EasyAi实现图像结算自动贩卖机视觉内核 sayOrder人工智能客服 sayOrder是依赖EasyAi进行封装的人工智能客服系统。 它可以分析用户输入的语义,来识别用户的行为,并通过typeID来区分用户意图ID。

2023-10-26

最佳性能。在通用人工智能的研究领域,教导计算机深度理解三维世界是当前重要研究目标之一,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应

2023-06-29

el (SAM) 进行个性化定制,以在照片相册中自动分割特定的视觉概念,例如你的宠物狗狗。 论文页面: https://hf.co/papers/2305.03048 Space 应用: https://hf.co/spaces/justin-zk/Personalize-SAM Notebooks 链接: https://github.com/NielsRogge/Transformers-Tutorials/tre

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/s

2023-12-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.9.0 版本的主要更新内容如下: Core Module: #23965 添加cv::broadcast DNN module patches: Experimental transformers 支持 #24476 

2023-11-03

供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。 借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具

2023-07-08

模型系列,包括“5+N+X”三层架构: L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模

2024-09-27

今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生成

2022-09-10

高分辨率的帧。 FSR 技术是一项允许游戏同时提高性能和视觉效果输出的技术。以往在电脑配置的限制下,游戏通常无法同时兼顾游戏性能和视觉效果,尤其是大型的 3A 游戏,玩家需要根据自己的偏好在两者之间相互权衡,而

2024-07-30

性能。 此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。 VisualRWKV 论文名称:VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models 论文链接:https://arxiv.org/abs/2406.13362 VisualRWKV-6 是基于 RWKV 的可视化

2024-10-23

键技术和模型。 公告称,Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。 Emu3提供了一个强大