视觉理解机 V0.3.0：7 个图像分类和物体检测示例

2023-03-30 發表於开源资讯

视觉理解机V0.3.0是基于理解机框架的计算机视觉解决方案。

视觉理解机提供了面向图像的UDF和UDT，可以很方便的处理大规模的图像数据。视觉理解机本身是一个框架，具体的机器学习能力由理解机的PyTorch插件实现。

本次发布提供的PyPI包

ligavision==0.3.0
liga-pytorch==0.3.0
liga-tv==0.3.0

本次发布提供的七个可执行的Notebook

可以直接在Gitee预览这七个Notebook。 https://gitee.com/komprenilo/liga-pytorch

主要分为两类，由于Gitee无法渲染Google Colab的链接，这里直接给出链接：

图像分类（convnext为例）：点我在Gitee预览 / 点我前往Google Colab执行
物体检测（ssd为例）：点我在Gitee预览 / 点我前往Google Colab执行

图像分类：使用SQL识别波斯猫

创建一个用于图像分类的模型

直接用SQL就可以知道该图像里面的猫是波斯猫

相關推薦

One-YOLOv5 v1.2.0 发布：支持分类、检测、实例分割

2023-03-16

图像分类: 图像分类是指给定一张图像，通过计算机视觉技术来判断它属于哪一类别。图像分类是一种有监督学习任务，需要通过训练样本和标签来建立分类模型。在图像分类中，算法需要提取图像的特征，然后将其分类为

EasyCV 开源｜开箱即用的视觉自监督+Transformer算法库

2022-09-08

谦言、临在一导读近年来，自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作，节省大量人力成本，而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常

理解机 V0.3.0：重新设计模型创建语法

2023-03-30

; 本次发布涉及以下PyPI包 liga==0.3.0 liga-sklearn==0.3.0: 理解机插件示例实现 liga-mlflow==0.3.0: 理解机模型注册系统示例集成理解机是一个框架，如果想使用理解机，可以参考使用理解机Sklearn插件的Jupyter笔记本： https://gitee.c

智元机器人开源具身世界模型EVAC与评测基准EWMBench

2025-05-23

创新型引入多级动作条件注入机制，实现 “物理动作 - 视觉动态” 的端到端生成，其核心能力体现在以下几个方面：机器人动作与像素的高精度对齐：将机械臂 6D 位姿（x,y,z,roll,pitch,yaw）与末端执行器行程投影为action map

字节跳动发布通用机器人模型 GR-3

2025-07-23

核心突破在于采用Mixture-of-Transformers（MoT）网络结构，将视觉-语言模块与动作生成模块整合为40亿参数的端到端模型。其中，动作生成模块通过Diffusion Transformer(DiT)结合Flow-Matching技术生成动作，并引入归一化的RMSNorm设计，显著

通义千问发布多模态统一理解与生成模型 Qwen VLo

2025-07-01

而确保最终结果更加和谐一致。这种生成机制不仅提升了视觉效果，还为用户带来了更灵活、更可控的创作体验。 Qwen VLo 在原始多模态理解与生成能力上进行了全面升级，显著增强了对图像内容的理解深度，并在此基础上实现

我国科学家研究揭示多模态大模型概念表征机制

2025-06-10

优。此外，研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断，而大模型则倾向于依赖语义标签和抽象概念。本研究表明大语言模型并非“随机鹦鹉”，其内部存在着类似人类对现实世界概念的理解。

苹果设备端和服务器端基础语言模型的更新

2025-06-11

存大小，并在长上下文推理中保持模型质量。为了启用视觉能力，我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个用于提取丰富特征的视觉主干网络和一个将特征与LLM的标记表示对齐的视觉-语言适配器组成。

原生 Java 人工智能算法框架 easyAI v1.1.9 版本发布

2024-07-02

别FastYolo效果展示使用EasyAi实现图像结算自动贩卖机视觉内核 sayOrder人工智能客服 sayOrder是依赖EasyAi进行封装的人工智能客服系统。它可以分析用户输入的语义，来识别用户的行为，并通过typeID来区分用户意图ID。

RWKV 社区七月动态：RWKV7-G0 7.2B 模型发布，8 篇高质量论文

2025-08-01

ion-RWKV Model with Improved Knowledge Distillation（基于 RWKV 的高效视觉模型，已入选 ICIC 2025）新论文：EvRWKV: A RWKV Framework for Effective Event-guided Low-Light Image Enhancement（基于 RWKV 低光增强）新论文：Scaling Context Requires Rethinking Attention（

上海 AI 实验室联合多所高校推出 PonderV2 预训练方法与模型

2023-10-26

最佳性能。在通用人工智能的研究领域，教导计算机深度理解三维世界是当前重要研究目标之一，并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力，并为广泛的三维应

智元机器人开源 EVAC 框架与 EWMBench 评测基准

2025-05-21

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型

2023-06-29

el (SAM) 进行个性化定制，以在照片相册中自动分割特定的视觉概念，例如你的宠物狗狗。论文页面: https://hf.co/papers/2305.03048 Space 应用: https://hf.co/spaces/justin-zk/Personalize-SAM Notebooks 链接: https://github.com/NielsRogge/Transformers-Tutorials/tre

阿里云开源通义千问多模态大模型 Qwen-VL

2023-08-26

京站，聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL，并宣布直接开源。开源地址 ModelScope魔搭社区： Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat：https://modelscope.cn/models/qwen/Qwen-VL-Chat/s