关注我们的小伙伴应该通过上次的文章了解到飞云智盒RTSS-X102开创性的完成了大模型LLM和Stable Diffussion适配。以大模型为基础的生成式AI在边缘端的落地部署为边缘计算提供了前所未有的新视角。
通过学习大量数据,生成式AI能够模拟人类行为,生成新的、有意义的信息,在边缘端设备上的运行,我们可以直接从数据中提取有价值的信息,而无需将所有数据都传输到云端处理,为我们提供了更高效、更实时、更隐私保护的解决方案。未来将会引领边缘计算进入一个全新的时代。
Transforms 到Vision Transforms(ViT),Transforms是针对文字,而ViTs则是针对图片,也是多头注意力机制multihead attention blocks,也有tokenizer,不过对象由文本变成了图片。
ViTs相比Transformers更需要监督学习,而不是非监督学习。ViTs相比Transformers也最好用已经训练好的模型进行微调,而非重头开始在数据集训练。
以下是ViT和Transformer的主要区别:
1. 输入数据结构:Transformer主要应用于自然语言处理领域,输入是一串序列数据,如单词序列。而ViT主要应用于计算机视觉领域,输入是二维图像数据。
ViT在许多视觉任务中都取得了卓越的性能。EfficientViT是一种用于高分辨率低计算视觉识别的高效ViT架构。用线性注意力代替softmax注意力,同时通过深度卷积增强其局部特征提取能力。在保持全局和局部特征提取能力,同时享受线性计算复杂度。
接下来我们来看EfficientViT的使用
官方的 EfficientViT 存储库显示了完整的使用信息。
https://github.com/mit-han-lab/efficientvit#usage
运行示例/基准测试
在容器内部,jetson-container 构建过程会在目录下添加一个小的基准测试脚本。benchmark.py /opt/efficientvit
它是在边界框模式下测试 EfficientViT-L2-SAM,因此我们可以以此为例,验证输出。
下载模型l2.pt
下载的检查点文件存储在从 Docker 主机挂载的目录中。/data/
检查输出/结果
输出图像文件(最后一个推理结果的)存储为
因此,您可以返回主机并检查目录
联系人:Realtimes
服务热线: 400-100-8358
邮箱:info@realtimes.cn
地址: 北京市朝阳区和平西街和平西苑20号B座11层