欢迎光临~瑞泰新时代(北京)科技有限公司
语言选择: 中文版 ∷  英文版

公司动态

生成式AI在边缘端的新篇章:ViT与RTSS-X304设备高效适配运行

关注我们的小伙伴应该通过上次的文章了解到飞云智盒RTSS-X102开创性的完成了大模型LLM和Stable Diffussion适配。以大模型为基础的生成式AI在边缘端的落地部署为边缘计算提供了前所未有的新视角。

通过学习大量数据,生成式AI能够模拟人类行为,生成新的、有意义的信息,在边缘端设备上的运行,我们可以直接从数据中提取有价值的信息,而无需将所有数据都传输到云端处理,为我们提供了更高效、更实时、更隐私保护的解决方案。未来将会引领边缘计算进入一个全新的时代。


在X102适配运行LLM和stable diffusion之后,被Jetson Orin带来的性能表现所惊艳。我们又抓紧在瑞泰自主设计研发的基于Jetson Orin Nano核心的飞云智盒RTSS-X304上做了测试。Orin Nano 核心以明信片大小的外形,却可提供高达 40 TOPS 的 AI 性能,功率可在 5 瓦到 15 瓦之间进行选择带来高效的能耗比。与 NVIDIA Jetson Nano 相比,它提供了高达 80 倍的性能提升,并为入门级边缘 AI 设定了新的标准。飞云智盒RTSS-X304对ViT的适配运行同样让我们惊艳。
VIT

Transforms 到Vision Transforms(ViT),Transforms是针对文字,而ViTs则是针对图片,也是多头注意力机制multihead attention blocks,也有tokenizer,不过对象由文本变成了图片。

ViTs相比Transformers更需要监督学习,而不是非监督学习。ViTs相比Transformers也最好用已经训练好的模型进行微调,而非重头开始在数据集训练。
以下是ViT和Transformer的主要区别:


1. 输入数据结构:Transformer主要应用于自然语言处理领域,输入是一串序列数据,如单词序列。而ViT主要应用于计算机视觉领域,输入是二维图像数据。


2. 输入编码:Transformer使用位置编码来捕捉输入序列中单词之间的相对位置关系。而ViT通过将图像划分为一系列的图像块,并将每个图像块展平为向量,然后通过位置编码和嵌入向量来表示图像块的位置信息和特征信息。
3. 注意力机制:Transformer使用自注意力机制来建立单词之间的依赖关系。ViT在Transformer的基础上引入了多头自注意力机制,用于处理图像块之间的关系。
4. 应用领域:Transformer广泛应用于自然语言处理任务,如机器翻译、文本生成等。ViT主要应用于图像分类任务,如目标识别、图像分割等。
RTSS-X304适配ViT的运行表现

ViT在许多视觉任务中都取得了卓越的性能。EfficientViT是一种用于高分辨率低计算视觉识别的高效ViT架构。用线性注意力代替softmax注意力,同时通过深度卷积增强其局部特征提取能力。在保持全局和局部特征提取能力,同时享受线性计算复杂度。

接下来我们来看EfficientViT的使用

官方的 EfficientViT 存储库显示了完整的使用信息。

https://github.com/mit-han-lab/efficientvit#usage

运行示例/基准测试

在容器内部,jetson-container 构建过程会在目录下添加一个小的基准测试脚本。benchmark.py /opt/efficientvit

是在边界框模式下测试 EfficientViT-L2-SAM,因此我们可以以此为例,验证输出。

下载模型l2.pt


  1. mkdir -p
  2. /data/models/efficientvit/sam/
  3. cd
  4. /data/models/efficientvit/sam/
  5. wget
  6. https://huggingface.co/han-cai/efficientvit-sam/resolve/main/l2.pt


下载的检查点文件存储在从 Docker 主机挂载的目录中。/data/

运行基准测试脚本


  1. cd /opt/efficientvit
  2. python3 ./benchmark.py


检查输出/结果

输出图像文件(最后一个推理结果的)存储为


  1. ./data/benchmarks/efficientvit_sam_demo.png


它存储在从 Docker 主机挂载的目录下。

因此,您可以返回主机并检查目录


  1. ./data/./jetson-containers/data/benchmark/


您可以找到这样的输出。具体输出视频如下:

RTSS-X304
飞云智盒RTSS-X304是一款针对Orin Nano/NX自主研发设计的产品。该飞云智盒具有耐高温、接口丰富、扩展性强等特点,能够将核心的强大接口资源充分的使用,适用于自主引导小车、自主机器人和工业自动化、视觉AI等应用场景。
文章的最后关于最新的GTC2024大会将于 2024 年 3 月18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,立即注册 GTC 大会。期待大家的参与、关注及支持。




联系我们

联系人:Realtimes

服务热线: 400-100-8358

邮箱:info@realtimes.cn

地址: 北京市朝阳区和平西街和平西苑20号B座11层


关闭
用手机扫描二维码关闭
二维码