O Radxa Fogwise® AirBox portou com sucesso os modelos DeepSeek-R1-Distill-Qwen-7B/1.5B.
Detalhes de Desempenho:
- Deepseek-R1-Distill-Qwen-7B atinge 11 tokens/s
- Deepseek-R1-Distill-Qwen-1.5B atinge 30 tokens/s
A equipe de desenvolvimento do Radxa portou os modelos destilados DeepSeek-R1-Distill-Qwen-7B/1.5B para o Fogwise® AirBox. Utilizando a cadeia de ferramentas TPU-MLIR para quantização INT4 e compilação de modelos, habilitamos com sucesso o modelo destilado DeepSeek-R1 para execução no AirBox, que possui 32 TOPS de poder computacional.
Resultados de desempenho
DeepSeek-R1-Distill-Qwen-7B atinge 11 tokens/s, é realmente um monstro da computação de ponta, clique para assistir ao vídeo
| Modelo | Quantização | Comprimento da sequência | Primeira Latência(ões) do Token | Tokens por segundo (tokens/s) |
|---|---|---|---|---|
| deepseek-r1-destill-qwen-1.5b | INT4 | 8192 | 5.159 | 30.448 |
| deepseek-r1-destill-qwen-7b | INT4 | 2048 | 2.843 | 11.008 |
Implantação e uso de modelos
O método de portabilidade do modelo DeepSeek-R1-Distill-Qwen-7B/1.5B e a documentação detalhada foram divulgados no site oficial da Radxa. Os modelos e o código são totalmente de código aberto e convidam todos a tentar implantá-los.
Visão geral do Fogwise® AirBox
O Radxa Fogwise® AirBox é um microsservedor de IA incorporado com um poder computacional de até 32 TOPS. Ele suporta várias precisões (INT8, FP16/BF16, FP32) e implantação local de grandes modelos convencionais, como LLM, geração de texto para imagem e vários modelos CV. Apresenta alto desempenho, baixo consumo de energia e forte adaptabilidade ambiental. Com uma variedade de algoritmos de aprendizado profundo, ele pode alcançar aplicações como reconhecimento facial, estruturação de vídeo, análise de comportamento e monitoramento de status, capacitando a transformação digital em cidades inteligentes, transporte inteligente, energia inteligente, finanças inteligentes, telecomunicações inteligentes e indústrias inteligentes.

Além disso, o Radxa Fogwise® AirBox é totalmente compatível com modelos grandes de ponta, como ChatGLM3, Llama3.1, Qwen2.5, Stable Diffusion3, FLUX.1, MiniCPM-V2.6, CLIP, Whisper e muito mais. Para mais detalhes, consulte a documentação oficial do Radxa e sinta-se à vontade para experimentá-la.

