docs: add post-mortem to no-root report — issue resolved

The root cause was process-credential loss across fork+exec, not the QNN SDK version mismatch I had hypothesized. Switching the LLM to in-process ExecuTorch LlmModule (Zygote-forked context, accepted by adsprpcd's FastRPC credential check) eliminated the su requirement. The original investigation sections are kept verbatim for reference; the new section 10 documents the actual fix, the patches applied to ExecuTorch, the metrics validated end-to-end, and pointers to the project memory entry. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-14 11:19:27 +02:00 · 2026-04-14 11:19:27 +02:00 · 6c7746c5d0
parent b57719fa5e
commit 6c7746c5d0
1 changed files with 111 additions and 1 deletions
--- a/kazeia-no-root-report.md
+++ b/kazeia-no-root-report.md
@ -1,4 +1,4 @@
-# Kazeia Android — Problème d'élimination de root pour le LLM
+# Kazeia Android — Élimination du root pour le LLM (résolu)
 **Date :** 2026-04-14
 **Device :** OnePlus Pad 3 (OPD2415, Snapdragon 8 Elite, SoC `sun`), Android 16 (OxygenOS), Magisk root
@ -6,6 +6,13 @@
 ---
 > **🟢 Statut : RÉSOLU.** Pipeline complet STT + LLM + TTS tourne in-process sans
 > aucun appel à `su`. Voir la section **Résolution** en bas du document pour le
 > détail du fix. Le reste du document décrit l'investigation initiale et garde
 > sa valeur historique.
 ---
 ## 1. Contexte général
 L'app Kazeia (Android / Kotlin + Jetpack Compose) orchestre un pipeline **STT → LLM → TTS** entièrement on-device sur le Hexagon HTP (V79) du Snapdragon 8 Elite.
@ -224,3 +231,106 @@ Je cherche soit :
 - Soit **la confirmation** que l'approche actuelle (root + Magisk remember) est le meilleur compromis accessible, avec éventuellement des suggestions pour minimiser les prompts
 Merci.
 ---
 ## 10. Résolution (post-mortem)
 Une seconde opinion technique a identifié la **vraie cause racine** que
 l'investigation locale avait mal diagnostiquée.
 ### 10.1 Vraie cause
 Les processus Android forkés par Zygote (l'app elle-même, ses Services
 `android:process=":xxx"`, etc.) héritent des **GIDs supplémentaires**
 configurés à l'init pour `untrusted_app`. Ces GIDs incluent l'autorisation
 `/dev/cdsprpc-smd` et d'autres canaux fastrpc.
 Quand `Runtime.exec("su"…)` ou `ProcessBuilder` font un `fork()` + `exec()`
 classique, le `exec()` ne préserve pas tous les credentials utilisés par le
 driver fastrpc Qualcomm pour authentifier le client. Le driver retourne
 **error 4000 "Failed to load skel"** car il refuse de créer une session DSP
 pour ce process.
 C'est pour ça que :
 - ORT-QNN (Whisper) marchait in-process : chargé via `System.loadLibrary` dans
  l'app, qui est Zygote-forked → credentials valides.
 - `su -c qnn_llama_runner` marchait : root bypasse les checks fastrpc.
 - `ProcessBuilder` du même runner échouait : ni Zygote-forked, ni root.
 Le "conflit de version QNN v2.31 vs v2.37" que j'avais soupçonné n'était
 **pas le vrai problème**. Les libs étaient déjà unifiées en v2.42 dans jniLibs.
 ### 10.2 La solution : `LlmModule` JNI in-process
 ExecuTorch fournit `org.pytorch.executorch.extension.llm.LlmModule`, un
 wrapper JNI autour du même C++ `example::Runner` que le binaire
 `qnn_llama_runner`. En l'invoquant depuis l'app (process Zygote-forked), le
 DSP fastrpc accepte la session — pas de root nécessaire.
 ### 10.3 Étapes réelles du fix
 1. **Build ExecuTorch Android** avec `EXECUTORCH_BUILD_LLAMA_JNI=ON`,
   `EXECUTORCH_BUILD_QNN=ON`, `QNN_SDK_ROOT=/opt/Kazeia/qnn_sdk_242/qairt/2.42.0.251225` →
   produit `libexecutorch_jni.so` 192 MB qui inclut le runner LLM + le backend QNN.
 2. **Patches sources** dans `/opt/Kazeia/executorch-patches/llm_in_process_jni.patch` :
   - `backends/qualcomm/CMakeLists.txt` : gate `PyQnnManagerAdaptor` sur `NOT ANDROID`
     (le guard original sur `CMAKE_SYSTEM_PROCESSOR MATCHES x86_64` se déclenche
     dans des sous-scopes du cross-compile Android).
   - `extension/android/jni/jni_layer_llama.cpp`, branche `MODEL_TYPE_QNN_LLAMA` :
     - `decoder_model = "qwen3"` (au lieu de `"llama3"` hardcodé)
     - `temperature = 0.0f`, `eval_mode = 0` (kKVCached), `shared_buffer = true`
     - **Crucial** : choisir `Runner<uint8_t>` ou `Runner<uint16_t>` selon
       `module->get("get_kv_io_bit_width")` (mirror du `qnn_llama_runner.cpp main()`).
       Hardcoder la mauvaise largeur produit du gibberish déterministe
       comme `blocked罩ug darkestSOLEQuotes作者本人 humanity` — la KV cache
       est lue/écrite à la mauvaise largeur de byte.
 3. **Bundling jniLibs** :
   - `libexecutorch.so` / `libexecutorch_jni.so` (build du 13-april avec LlmModule)
   - `libqnn_executorch_backend.so` (assorti)
   - `libQnnHtp.so`, `libQnnHtpPrepare.so`, `libQnnHtpV79Stub.so`, `libQnnSystem.so`,
     `libQnnHtpV79Skel.so` (tous v2.42 depuis `/opt/Kazeia/qnn_sdk_242/`)
 4. **JAR avec `LlmModule.class`** : compilation manuelle via `javac` (le build
   gradle de l'AAR demandait android-34 platform non installée).
 5. **Réécriture `ExecuTorchLlmEngine.kt`** :
   - Constructeur : `LlmModule(MODEL_TYPE_QNN_LLAMA=4, ptePath, tokPath, 0.7f)` puis `.load()`
   - `generate(prompt, seqLen, callback, echo=false)` — sinon le callback échoue à
     stripper les tokens du prompt
   - Template ChatML Qwen3 buildé en Kotlin, mirror exact de
     `qnn_llama_runner.cpp::get_formatted_prompt()` pour `kQwen3` (user-first puis
     system optionnel puis `<|im_start|>assistant`)
   - Filtre inline `<think>…</think>` dans le callback avec lookahead pour les tags
     fragmentés sur plusieurs pieces
 ### 10.4 Métriques validées
 | Métrique | Valeur |
 |---|---|
 | LlmModule.load() | 4.2 s (one-time à l'init de l'app) |
 | LLM gen | ~17 tok/s (kv-only) |
 | LLM TTFT | ~4 s pour 77 tokens prompt (prefill séquentiel kKVCached) |
 | TTS Talker(PTE) | 37 ms/step (vs 45-65 avant) |
 | TTS CP(PTE) | 73 ms/step |
 | Pipeline e2e | "Bonjour, comment vas-tu ?" → audio en ~7 s |
 | Magisk prompts | **0** |
 ### 10.5 Optimisations restantes (non bloquantes)
 - **TTFT** : ré-exporter le `.pte` en `--model_mode hybrid` pour avoir un
  `prefill_forward` parallèle → TTFT passerait de ~4 s à <1 s. Pas nécessaire
  pour le use case conversationnel actuel.
 - **Cosmétique** : le statusbar de l'app affiche encore "Hexagon NPU" pour le
  TTS alors que c'est désormais le chemin .pte (label hérité du temps où c'était
  ggml-hexagon).
 ### 10.6 Mémoire projet
 État complet documenté dans
 `/home/alf/.claude/projects/-opt-Kazeia/memory/project_llm_npu_plan.md`.
 Backup git : branche `backup/pre-no-root-migration` + commit `6e6a2d9`.
 Backup disk : `/home/alf/kazeia_backup_20260414/`.
 ### 10.7 Commits clés
 - `f32b5dd` (LLM no-root: validate end-to-end pipeline, fix kv_io_bit_width detection)
 - `b57719f` (LLM: filter <think> tokens out of the streaming TTS path)