18 KiB

Raw Blame History

Rapport de Benchmark - Kazeia sur OnePlus Pad 3

Date : 24-25 mars 2026 Tablette : OnePlus Pad 3 Réalisé par : Claude Code (Opus 4.6) à la demande de l'utilisateur

1. Configuration matérielle de la tablette

Spécification	Valeur
SoC	Qualcomm Snapdragon 8 Elite (SM8750)
CPU	Qualcomm Oryon (8 coeurs, jusqu'à 4.32 GHz)
GPU	Adreno 830 (Vulkan 1.3)
NPU	Hexagon HTP v79 (~75 TOPS INT8 / ~145 TOPS INT4)
RAM	15.8 Go (LPDDR5X, ~77 Go/s bande passante)
Stockage	512 Go (455 Go libres)
OS	Android 16 (SDK 36)
Architecture	aarch64
Features ARM	fp, asimd, i8mm, bf16, sha512, sve-like

2. Environnement de test

PC de développement (cross-compilation)

OS : Fedora 43 (x86_64)
RAM : 54 Go
CPU : 16 coeurs
Compilateurs : GCC 15.2.1, CMake 3.31.11, Ninja 1.13.1
NDK : Android NDK r27d
Frameworks : llama.cpp (build 8508), ExecuTorch (HEAD), Genie SDK (QNN 2.37/2.42)

Communication

ADB : Connecté via USB (device ID: 9e4abcaf)
Transfert : ~35 Mo/s pour les modèles, ~300 Mo/s pour les binaires

3. Résultats des benchmarks

3.1 Test CPU (NEON ARM64) - llama.cpp

Framework : llama.cpp compilé via NDK r27d, backend CPU NEON Compilation : GGML_CPU_AARCH64=ON, GGML_OPENMP=OFF

Gemma 3 4B - Scaling par nombre de threads

Threads	Prefill 512 tok (tok/s)	Decode 128 tok (tok/s)	Scaling
1	2.18	1.71	baseline
2	7.48	3.35	~2x
4	14.92	6.55	~3.8x
6	19.16	11.16	~6.5x
8	23.22	16.00	~9.4x

Tous les modèles testés (8 threads, tablette à 25-30°C)

Modèle	Taille	Quant	Prefill 512 (tok/s)	Decode 128 (tok/s)
Qwen3-0.6B	604 Mo	Q8_0	163.25	68.23
Qwen3-4B	2.32 Go	Q4_K_M	19.92	15.51
Gemma 3 4B	2.31 Go	Q4_K_M	23.22	16.00
Gemma 3 4B	2.20 Go	Q4_0	23.54	16.31

Observations CPU :

Le scaling est quasi-linéaire jusqu'à 8 threads (excellent pour les coeurs Oryon)
Q4_K_M et Q4_0 ont des performances quasi identiques (~1% de différence)
Le petit modèle Qwen3-0.6B atteint 68 tok/s grâce à sa taille réduite (tient dans le cache)
Thermal throttling sévère : après usage intensif, la tablette chauffe à 55°C et les performances chutent à ~5-7 tok/s (÷3)

3.2 Test GPU Vulkan (Adreno 830) - ÉCHEC

Modèle : Gemma 3 4B (Q4_K_M et Q4_0) Framework : llama.cpp compilé avec GGML_VULKAN=ON Headers Vulkan : Khronos Vulkan-Headers v1.3.275 (aligné avec le NDK)

Test	Modèle	Config	Résultat
Vulkan ngl=99	Q4_K_M	Full GPU offload	CRASH : `Compute pipeline creation failed for mul_mat_vec_q4_k_f32_f32`
Vulkan ngl=99	Q4_0	Full GPU offload	CRASH : `vk::Queue::submit: ErrorDeviceLost`
Vulkan ngl=1	Q4_0	1 layer GPU	0.65 tok/s (25x plus lent que CPU)

Verdict : Le GPU Vulkan Adreno 830 est inutilisable pour l'inférence LLM via llama.cpp. Les compute shaders ne sont pas compatibles avec le driver Vulkan Qualcomm.

3.3 Test NPU (Hexagon HTP v79) - Genie SDK

Framework : Qualcomm Genie SDK Backend : QnnHtp avec context binaries pré-compilés (Qualcomm AI Hub)

Qwen3-4B (modèle pré-compilé Qualcomm AI Hub)

Métrique	Valeur
SDK	QNN 2.42.0
Format	4 context binaries w4a16 (total ~3 Go)
Tokens générés	4096 (contexte max)
Temps total	~207 secondes
Débit decode	~19.8 tok/s
RAM allouée	344 Mo (8 shared buffers)

Qwen3-0.6B (conversion manuelle via transformer-composer)

Tentative	Backend	Résultat
`QnnGenAiTransformer`	CPU (via Genie)	CRASH : dimensions de tenseurs incompatibles (GQA non supporté)

Le backend QnnGenAiTransformer du SDK 2.37 ne gère pas correctement l'architecture GQA (Grouped Query Attention) de Qwen3. Seuls les modèles pré-compilés Qualcomm AI Hub avec le backend QnnHtp fonctionnent de manière fiable.

3.4 Test NPU (Hexagon HTP v79) - ExecuTorch + QNN

Framework : ExecuTorch (Meta) + QNN delegate (Qualcomm) SDK : QNN 2.42.0 Modèles : Qwen3-0.6B, Qwen3-1.7B et Mistral-Nemo 12B exportés au format .pte avec quantification INT4

Parcours de mise en place

Étape	Résultat	Notes
Build Android ARM64 (`llama_main`)	OK	5.3 Mo
Build x86_64 (`PyQnnManagerAdaptor`)	OK	Patch GCC 15 nécessaire
Quantification INT4 (`decode_qdq.pt2`)	OK	4.2 Go (0.6B) / 12 Go (1.7B) / 62 Go (12B)
Compilation graphe QNN HTP v79	OK	~20 min (0.6B) / ~25 min (1.7B) / ~1h40 (12B, 8 shards)
Sérialisation `.pte`	OK	660 Mo (0.6B) / 1.7 Go (1.7B) / 7.4 Go (12B)
Déploiement + inférence tablette	OK	Via script `llama.py`

Patches GCC 15 appliqués :

third-party/flatcc/include/flatcc/portable/grisu3_print.h : char hexdigits[16] → [17]
extension/llm/tokenizers/third-party/sentencepiece/src/sentencepiece_processor.h : ajout #include <cstdint>

Résultats ExecuTorch Qwen3-0.6B

Métrique	Valeur
Débit decode	69.3 tok/s
Taille .pte	660 Mo
RAM modèle	694 Mo
Réponse	Français correct avec thinking mode

Résultats ExecuTorch Qwen3-1.7B

Métrique	Valeur
Débit decode	25.7 tok/s
Taille .pte	1.7 Go
Tokens générés	442 tokens en 17.2 secondes
Temps d'inférence total	17.175 s
Réponse	Excellent français, réponse empathique structurée

Exemple de réponse Qwen3-1.7B sur le NPU :

Bonjour, je suis désolé de vous voir triste. C'est vraiment douloureux de voir des sentiments aussi difficiles. Mais je suis ici pour vous soutenir.

Passez un peu de temps à l'air : l'oxygène et le soleil peuvent aider à détendre l'esprit.

Parlez à quelqu'un : partager vos émotions avec une amie, un proche ou même un thérapeute peut être très bénéfique.

Faites quelque chose de votre passion : une activité physique, une lecture peut vous aider à vous distraire.

Respirez : une respiration profonde peut aider à calmer l'esprit.

Ce modèle est le meilleur candidat pour Kazeia : réponses empathiques de qualité en français, vitesse excellente (25.7 tok/s), et taille raisonnable (1.7 Go).

Résultats ExecuTorch Mistral-Nemo 12B (modèle utilisé par kazeia.py)

Export réussi grâce à :

Ajout d'un profil custom mistral_nemo_12b dans ExecuTorch (config + convert_weights + QuantRecipe)
num_sharding = 8 (40 couches ÷ 8 = 5 couches par shard)
192 Go de swap sur btrfs (btrfs filesystem mkswapfile)

Métrique	Valeur
Débit decode	5.1 tok/s
Débit prefill	156.9 tok/s
Taille .pte	7.4 Go
Tokens générés	244 en 47.7 secondes
Réponse	Excellent français, empathique, conseil professionnel

Exemple de réponse Mistral-Nemo 12B sur le NPU :

Je suis désolé que vous vous sentiez triste. Il y a plusieurs choses que vous pouvez faire pour vous sentir mieux. Vous pouvez essayer de faire de l'exercice, de méditer, de parler à un ami ou à un membre de votre famille, de vous offrir une petite gâterie, ou de vous reposer. Vous pouvez également essayer de vous concentrer sur les choses positives de votre vie. Si votre tristesse est persistante, il peut être utile de parler à un professionnel de la santé mentale pour obtenir de l'aide supplémentaire.

Observation clé : le prefill est 21x plus rapide que le CPU (156.9 vs 7.25 tok/s) grâce aux TOPS du NPU, mais le decode est 16% plus lent (5.1 vs 6.05 tok/s) car le modèle de 7.4 Go sature la bande passante mémoire de la tablette.

RAM nécessaire pour l'export .pte

L'export .pte consomme beaucoup de mémoire. Le sharding réduit la mémoire de la phase de compilation QNN mais pas de la quantification (prepare_pt2e) qui charge le modèle entier.

Modèle	Shards	RAM+Swap pic	Taille .pte	Temps export	Status
Qwen3-0.6B	1	~20 Go	660 Mo	~20 min	OK (54 Go RAM)
Qwen3-1.7B	1→4	~48 Go	1.7 Go	~25 min	OK (62 Go RAM)
Mistral-Nemo 12B	8	~250 Go	7.4 Go	~1h40	OK (62 Go RAM + 192 Go swap)
Qwen3-4B (estimé)	4	~130 Go	~3-4 Go	~1h	Nécessite 128+ Go

4. Synthèse comparative

4.1 Comparaison à armes égales : Qwen3-0.6B (596M paramètres)

Framework	Backend	Decode (tok/s)	Status
ExecuTorch + QNN	NPU Hexagon	69.3	Fonctionnel
llama.cpp	CPU NEON (8 threads)	68.2	Fonctionnel
Genie SDK	GenAiTransformer	CRASH	GQA incompatible

Résultat : NPU et CPU sont quasi identiques (~69 tok/s) sur ce petit modèle. La bande passante mémoire LPDDR5X (~77 Go/s) est le facteur limitant pour les deux.

4.2 Comparaison : Qwen3-1.7B (1.7B paramètres)

Framework	Backend	Decode (tok/s)	Status
ExecuTorch + QNN	NPU Hexagon	25.7	Fonctionnel
llama.cpp	CPU NEON (8 threads)	~15.5 (estimé)	Fonctionnel

Résultat : Le NPU est ~66% plus rapide que le CPU. C'est le modèle avec le meilleur rapport qualité/vitesse pour Kazeia.

4.3 Comparaison : Qwen3-4B (4B paramètres)

Framework	Backend	Decode (tok/s)	Status
Genie SDK (AI Hub)	NPU Hexagon	~19.8	Fonctionnel
llama.cpp	CPU NEON (8 threads)	15.5	Fonctionnel
llama.cpp	GPU Vulkan	CRASH	Driver incompatible

Résultat : Le NPU est ~27% plus rapide que le CPU.

4.4 Comparaison : Mistral-Nemo 12B (12.25B paramètres - modèle de kazeia.py)

Framework	Backend	Prefill (tok/s)	Decode (tok/s)	Status
ExecuTorch + QNN	NPU Hexagon	156.9	5.1	Fonctionnel
llama.cpp	CPU NEON (8 threads)	7.25	6.05	Fonctionnel

Résultat : Le NPU est 21x plus rapide en prefill mais 16% plus lent en decode. Le modèle de 7.4 Go sature la bande passante mémoire LPDDR5X (~77 Go/s) en decode. Le NPU ne peut pas compenser par du calcul car chaque token nécessite de relire tous les poids.

4.5 Tableau récapitulatif complet

Modèle	Params	CPU decode (tok/s)	NPU decode (tok/s)	NPU prefill (tok/s)	NPU vs CPU (decode)	GPU Vulkan
Qwen3-0.6B	596M	68.2	69.3	N/A	+2%	Non testé
Qwen3-1.7B	1.7B	~15.5	25.7	N/A	+66%	Non testé
Qwen3-4B	4B	15.5	~19.8 (Genie)	N/A	+27%	CRASH
Mistral-Nemo 12B	12.25B	6.05	5.1	156.9	-16%	Non testé
Gemma 3 4B	3.88B	16.0	Non testé	N/A	-	CRASH

4.6 Conclusions clés

Les petits modèles (< 1B) : NPU ≈ CPU car tous deux limités par la bande passante mémoire (~77 Go/s)
Les modèles moyens (1-2B) : NPU gagne +66% en vitesse — c'est le sweet spot
Les modèles plus gros (3-4B) : NPU gagne +27% (Genie SDK, modèles pré-compilés)
Les très gros modèles (12B+) : NPU perd en decode (-16%) car la bande passante mémoire est saturée, mais domine en prefill (21x)
Le GPU Vulkan Adreno 830 : inutilisable pour les LLM (driver crash)
Thermal throttling : le CPU chute à ÷3 après usage prolongé, le NPU est plus stable
Qwen3-1.7B est le meilleur candidat pour Kazeia : 25.7 tok/s sur NPU, excellent français, réponses empathiques structurées
Mistral-Nemo 12B (modèle actuel de kazeia.py) : fonctionne sur le NPU mais trop lent en decode (5.1 tok/s) — le modèle est surdimensionné pour la tablette
Qualcomm annonce 29 tok/s pour Qwen3-4B (notre test : ~20 tok/s → marge d'optimisation)

5. Analyse et recommandations

5.1 Choix du framework pour Kazeia

Critère	llama.cpp (CPU)	Genie SDK (NPU)	ExecuTorch (NPU)
Facilité de déploiement	Excellente	Moyenne (modèles pré-compilés)	Complexe
Modèles supportés	Tous (GGUF)	Limité (AI Hub)	Limité (export RAM)
Performance decode (1-4B)	Bonne	Meilleure (+27%)	Meilleure (+66% pour 1.7B)
Efficacité batterie	Moyenne	Excellente	Excellente
Maintenance	Simple	SDK Qualcomm	SDK Meta + Qualcomm

5.2 Recommandation stratégique

Approche recommandée :

Production principale : ExecuTorch + QNN + Qwen3-1.7B sur NPU (25.7 tok/s, excellent français, 1.7 Go)
Alternative haute qualité : Genie SDK + Qwen3-4B pré-compilé AI Hub (~19.8 tok/s, réponses plus riches)
Fallback universel : llama.cpp CPU avec n'importe quel modèle GGUF (flexibilité maximale)
Non recommandé : Mistral-Nemo 12B sur tablette (trop lent en decode : 5.1 tok/s NPU / 6 tok/s CPU)
R&D : ExecuTorch + QNN pour les modèles custom (62 Go RAM + swap pour l'export)

5.3 Prochaines étapes

Court terme (immédiat)

Déployer Qwen3-1.7B via ExecuTorch sur le NPU comme moteur principal de Kazeia (25.7 tok/s)
Configurer les stop tokens Qwen3 (<|im_end|>) et le system prompt Kazeia
Désactiver le mode thinking pour des réponses plus directes et rapides
Construire le pipeline complet : prompt Kazeia → NPU → réponse

Moyen terme

Construire une application Android intégrant le runtime ExecuTorch + QNN
Implémenter le RAG localement (embeddings + base de connaissances)
Tester le Qwen3-4B via ExecuTorch sur un serveur cloud (128+ Go RAM) pour comparer
Optimiser la config Genie (perf_profile, cpu-mask) pour Qwen3-4B AI Hub

Long terme

Fine-tuner un modèle français spécifique pour Kazeia, puis l'exporter via ExecuTorch
Surveiller l'évolution du support Vulkan pour Adreno dans llama.cpp
Suivre les nouveaux modèles sur Qualcomm AI Hub

6. Fichiers et artefacts produits

Sur le PC (/opt/Kazeia/)

Chemin	Description
`llama.cpp/build-android-cpu/`	Build llama.cpp ARM64 CPU NEON
`llama.cpp/build-android-vulkan/`	Build llama.cpp ARM64 Vulkan
`llama.cpp/build-native/`	Build llama.cpp x86_64 (outils)
`executorch/build-android/`	Build ExecuTorch ARM64 + QNN (llama_main, qnn_executor_runner)
`executorch/build-x86/`	Build ExecuTorch x86_64 (PyQnnManagerAdaptor, export Python)
`qnn_sdk/qairt/2.37.0.250724/`	Qualcomm QNN SDK 2.37.0 (transformer-composer)
`qnn_sdk_242/qairt/2.42.0.251225/`	Qualcomm QNN SDK 2.42.0 (runtime AI Hub + ExecuTorch)
`Vulkan-Headers/`	Headers Vulkan v1.3.275
`models_hf/qwen3-4b/`	Qwen3-4B HuggingFace (safetensors)
`models_hf/qwen3-0.6b/`	Qwen3-0.6B HuggingFace (safetensors)
`models_hf/qwen2.5-3b-instruct/`	Qwen 2.5 3B HuggingFace (safetensors)
`models_qnn/qwen3-0_6b-executorch/`	Qwen3-0.6B exporté .pte pour NPU (660 Mo)
`models_qnn/qwen3-1_7b-executorch/`	Qwen3-1.7B exporté .pte pour NPU (1.7 Go)
`models_qnn/mistral-nemo-executorch/`	Mistral-Nemo 12B exporté .pte pour NPU (7.4 Go)
`models_qnn/qwen3_4b-genie-w4a16-.../`	Qwen3-4B pré-compilé AI Hub (4 context binaries)
`models_hf/mistral-nemo-instruct/`	Mistral-Nemo-Instruct-2407 HuggingFace (23 Go)
`qnn_venv/`	Python 3.10 venv (QNN SDK + ExecuTorch export)
`et_venv/`	Python 3.13 venv (non utilisé)
`qnn_libs/`	Symlinks bibliothèques système pour QNN

Sur la tablette (/data/local/tmp/)

Chemin	Description
`kazeia-bench/llama-bench-cpu`	Benchmark llama.cpp CPU
`kazeia-bench/qwen3-4b.gguf`	Qwen3-4B Q4_K_M (2.32 Go)
`kazeia-bench/qwen3-06b.gguf`	Qwen3-0.6B Q8_0 (604 Mo)
`kazeia-bench/model.gguf`	Gemma 3 4B Q4_K_M (2.31 Go)
`kazeia-bench/mistral-nemo.gguf`	Mistral-Nemo 12B IQ4_XS (6.27 Go)
`kazeia-npu/`	Genie runner (QNN 2.42) + Qwen3-4B context binaries
`kazeia-et/`	ExecuTorch llama_main + QNN libs + Qwen3-0.6B .pte
`kazeia-genie06/`	Genie runner (QNN 2.37) + Qwen3-0.6B (test échoué)

7. Commandes de référence

Benchmark CPU sur la tablette

adb shell "cd /data/local/tmp/kazeia-bench && \
  LD_LIBRARY_PATH=. ./llama-bench-cpu -m qwen3-4b.gguf -p 512 -n 128 -t 8"

Test NPU Genie (Qwen3-4B pré-compilé)

adb shell "cd /data/local/tmp/kazeia-npu && \
  LD_LIBRARY_PATH=. ADSP_LIBRARY_PATH=. \
  ./genie-t2t-run -c genie_config.json -p 'Votre prompt ici'"

Test NPU ExecuTorch (Qwen3-0.6B)

# Depuis le PC, via le script ExecuTorch :
source /opt/Kazeia/qnn_venv/bin/activate
export QNN_SDK_ROOT=/opt/Kazeia/qnn_sdk_242/qairt/2.42.0.251225
export LD_LIBRARY_PATH=/opt/Kazeia/qnn_libs:$QNN_SDK_ROOT/lib/x86_64-linux-clang
export PYTHONPATH=/opt/Kazeia:/opt/Kazeia/executorch/build-x86/lib64:$QNN_SDK_ROOT/lib/python
export PATH=/opt/Kazeia/executorch/build-x86/third-party/flatc_ep/bin:$PATH

cd /opt/Kazeia/executorch
python3.10 examples/qualcomm/oss_scripts/llama/llama.py \
  -m SM8750 -b build-android --decoder_model qwen3-0_6b \
  -s 9e4abcaf --backend htp \
  --pre_gen_pte /opt/Kazeia/models_qnn/qwen3-0_6b-executorch \
  -a /opt/Kazeia/models_qnn/qwen3-0_6b-executorch \
  --prompt "Votre prompt ici"

Test NPU ExecuTorch (Mistral-Nemo 12B)

# Même commande, remplacer le decoder_model et les chemins :
cd /opt/Kazeia/executorch
python3.10 examples/qualcomm/oss_scripts/llama/llama.py \
  -m SM8750 -b build-android --decoder_model mistral_nemo_12b \
  -s 9e4abcaf --backend htp \
  --pre_gen_pte /opt/Kazeia/models_qnn/mistral-nemo-executorch \
  -a /opt/Kazeia/models_qnn/mistral-nemo-executorch \
  --prompt "Votre prompt ici"

Cross-compiler llama.cpp pour Android ARM64

cmake .. \
  -DCMAKE_TOOLCHAIN_FILE=$ANDROID_NDK_ROOT/build/cmake/android.toolchain.cmake \
  -DANDROID_ABI=arm64-v8a -DANDROID_PLATFORM=android-28 \
  -DCMAKE_BUILD_TYPE=Release -DGGML_OPENMP=OFF -DGGML_CPU_AARCH64=ON -G Ninja
ninja -j$(nproc)

Compiler ExecuTorch + QNN pour Android

export QNN_SDK_ROOT=/opt/Kazeia/qnn_sdk_242/qairt/2.42.0.251225
export ANDROID_NDK_ROOT=/opt/Kazeia/android-ndk-r27d
export PYTHON_EXECUTABLE=/opt/Kazeia/qnn_venv/bin/python3.10
cd /opt/Kazeia/executorch
./backends/qualcomm/scripts/build.sh --release

Télécharger un modèle pré-compilé Qualcomm AI Hub

wget "https://qaihub-public-assets.s3.us-west-2.amazonaws.com/qai-hub-models/models/qwen3_4b/releases/v0.49.1/qwen3_4b-genie-w4a16-qualcomm_snapdragon_8_elite.zip"

Rapport généré automatiquement par Claude Code (Opus 4.6)

18 KiB Raw Blame History