VibeVox — Termékdokumentum
Feature Roadmap · UX Döntések · Platform Stratégia
Kapcsolódó:
01_Strategy.md·10_Tech_Architecture.mdStátusz: Élő dokumentum — sprint feladatok:ROADMAP.mdAccessibility integráció: ✅ GAP-1 beépítve (2026-04-10) — Flathub AT metadata + keyboard-only requisite | forrás:accessibility_market_analysis.mdPost-CTA funnel integráció: ✅ GAP-3 (AppImage chmod UX) + GAP-4 (SHA-256 hash) beépítve (2026-04-18) | forrás:post_cta_funnel_analysis.md
1. Termékvízió és pozicionálás
A VibeVox egy privacy-first, hold-to-talk diktáló alkalmazás — nem AI asszisztens, nem ambient listener.
"Mondd el. Megjelenik. Nem figyel."
• Hold-to-talk: csak amikor nyomod a gombot
• Natív OS integráció: nem Electron, nem browser extension
• EU-hostolt infrastruktúra
• CEE filler word szűrés (HU/SK/PL/CS)
Developer persona pozícionálás
A developer közösség szemében a VibeVox NEM „diktáló szoftver" — hanem voice-first developer workflow tool. Ez kösös kommunikációs alapelv: affiliate outreach, landing page, blog, social — mindenhol.
Developer-specific value props:
• RSI prevention (napi 8-12 óra typing → voice-szal kímélt csuklol)
• AI coding workflow: Cursor/Claude prompt diktálása, README, PR description
• <100MB RAM: nem harcol az IDE-vel
• BYOK: saját API kulcs, nincs SaaS lock-in
• Native PySide6: nem Electron, nem browser extension
Differenciáló tényezők
| Dimenzió | VibeVox | Wispr Flow | Typeless | Newton Dictate |
|---|---|---|---|---|
| Privacy modell | Hold-to-talk, SCC | Ambient + screenshot | Clipboard scraping | On-premise |
| Linux natív | ✅ | ❌ | ❌ | ❌ |
| BYOK | ✅ €3,50/hó | ❌ | ❌ | ❌ |
| CEE lokalizáció | ✅ HU/SK/PL/CS | ⚠️ Széles, nem mély | ⚠️ 100+ nyelv | ⚠️ SK fókusz |
| Filler word removal | ✅ opt-in | ❌ | ❌ | ❌ |
| Literal Mode (default) | ✅ — soha nem ír át | ❌ AI ghostwriter | ❌ AI ghostwriter | N/A |
| Geográfiai profilozás | ❌ Nincs | ❌ Nincs | 🔴 IP-alapú szleng | N/A |
| Offline mód | ✅ Fázis 2 (16+ GB RAM, BYOK LTD benne) | ❌ | ❌ | ❌ |
| Ár | €3,50–9,99/hó | $12–15/hó | $12/hó | €600+/szék |
1b. Szemantikai Autonómia — „Literal Mode" vs. „Smart Mode"
Alapelv: A VibeVox SOHA nem írja át a felhasználó szándékolt szövegét. A filler word removal az egyetlen „smart" funkció — és ez is opcionális.
Ez a VibeVox legerősebb differenciátora a Wispr Flow és Typeless ellen. A kutatás (2026-04) szerint a szemantikai inverzió (az AI átírja, rövidíti, „javítja" a szöveget) az AI diktáló appok #1 churn triggerének bizonyult — jogászoknál, orvosoknál és fejlesztőknél egyaránt.
A két mód:
| Mód | Viselkedés | Célcsoport |
|---|---|---|
| Literal Mode (default) | 1:1 transzkripció, filler words megtartva | Fejlesztők, jogászok, orvosok |
| Smart Mode (opt-in) | Filler words eltávolítva (ööö, hát, szóval…) | Tartalomkészítők, emailezők |
Kritikus különbség a versenytársakhoz képest:
A VibeVox Smart Mode KIZÁRÓLAG filler szavakat távolít el — nem ír át mondatokat, nem változtat szórendet, nem „javít" stilisztikailag.
Példa:
Felhasználó mondja: "Ez a dolog nagyon nem tetszik nekem."
VibeVox Literal Mode: "Ez a dolog nagyon nem tetszik nekem."
VibeVox Smart Mode: "Ez a dolog nagyon nem tetszik nekem." ← változatlan!
Wispr Flow Smart: "Ez nem megfelelő." ← ÁTÍRJA!
Typeless Smart: "Nem tetszik ez." ← ÁTÍRJA!
Miért alapértelmezett a Literal Mode?
A kutatás (2026-04) szerint az AI diktáló appok leggyakoribb churn-oka a szemantikai inverzió — amikor az AI „okosabb akar lenni" a felhasználónál. A VibeVox ezt designból kerüli el: a default mindig a hűséges átirat, a user dönt, nem az AI.
B2B relevancia:
Egy jogász vagy orvos, akinek dokumentumait az AI látens módon „átírja", azonnali és irreverzibilis bizalomvesztéssel reagál. Zárójelentésbe, szerződésbe kerülő félreírt szó jogi és egészségügyi következményekkel járhat.
2. Platform prioritások és állapot
Döntött sorrend: Windows → Linux → Android → iOS → macOS
| Platform | Állapot | Csomag | Megjegyzés |
|---|---|---|---|
| Windows | ✅ Production | .exe installer |
Fő platform |
| Linux | ✅ MVP | AppImage (GitHub) | Flatpak Fázis 1 |
| Android | 🚧 Félkész | Custom IME / Play Store | Fázis 1 — launch platformja |
| iOS | 📋 Tervezett | Keyboard Extension | Fázis 5 — waitlist a launch honlapon |
| macOS | 📋 Tervezett | PySide6 | Fázis 5 |
Linux disztribúciós stratégia
Most (MVP): AppImage ✅ GitHub Releases
Fázis 1: 🌟 Flatpak (Flathub) — ELSŐDLEGES (discovery + auto-frissítés)
P1: AUR PKGBUILD — Arch/Manjaro, tiling WM közösség (CEE dev cea. 10-15%)
P1: .deb — Ubuntu/Debian, Win10 EOL migránsok belépési pontja
P2: .rpm — Fedora/openSUSE (PipeWire-úttörők, erős CEE dev jelenlét)
| **summary** | Privacy-first hold-to-talk voice typing for Linux |
| **description** | CEE filler word removal, BYOK, EU SCC, natív integráció |
| **Kulcsszavak** | `dictation;speech;voice;typing;transcription;privacy;diktálás;dyktowanie;dikce;diktovanie;rozpoznávání;speech-to-text;voice-typing;byok;eu-hosted;accessibility;rsi;carpal-tunnel;assistive;dyslexia;motor-disability` |
| **Kategória** | **Accessibility** (elsőd.) · Utility (másod.) |
| **Screenshotok** | Min. 5 — **sötét téma kötelező**, 16:9, HiDPI (hold-to-talk, BYOK wizard, filler removal, GNOME integráció, CEE lokalizáció) |
| **Release notes** | Angol + magyar changelog minden verziófrissítésnél |
| **Sandbox** | `--socket=pulseaudio` `--socket=x11` `--socket=wayland` `--share=network` `--talk-name=org.freedesktop.secrets` |
> [!WARNING]
> **AppImage chmod UX Gap — Launch Blocker kockázat (GAP-3 — post_cta_funnel_analysis.md):**
> Az AppImage letöltés után alapértelmezetten **nem futtatható** — a felhasználónak manuálisan kell execution
> permission-t adni. Ez közel **100% abandonment-et okoz** az átlagfelhasználóknál.
> Ha a Flathub review elhúzódik, a launch napon csak az AppImage érhető el Linux-on.
>
> **Mitigáció:** A Linux AppImage letöltési oldalon (`/download/linux/success` interstitial) kötelező:
> 1. **Animált GIF/WebM** (~3 mp) — `chmod +x` lépés vizualizálva:
> Jobb klikk → Properties → Permissions → "Allow executing file as program" → dupla klikk
> 2. **CLI alternatíva** (tech usereknek): `chmod +x vibevox-*.AppImage && ./vibevox-*.AppImage`
> 3. **Flatpak fallback badge**: "Get it on Flathub" — ha már live
>
> **Implementációs cost:** ~0.5 nap | **Roadmap:** P1 — D-7-ig (lásd: `15_Launch_Playbook.md §2.3a.2`)
> [!IMPORTANT]
> A CEE nyelvű kulcsszavak (`diktálás`, `dyktowanie`, `dikce`, `diktovanie`) kritikusak — ha nem szerepelnek, a helyi felhasználók nem találnak ránk a GNOME Software / KDE Discover keresőben. Ellenőrizendő minden Flathub verziófrissítésnél.
> [!IMPORTANT]
> **Accessibility kulcsszavak (GAP-1) ✅:** `carpal-tunnel;rsi;assistive;dyslexia;motor-disability` hozzáadva a Flathub metadatához az AT keresési forgalom megszerzéséhez. Az **Accessibility** Flathub elsődleges kategória csökkenti a versenyt és növeli a GNOME akadálymentesítési panelon való organikus felfedezést.
> [!IMPORTANT]
> A Flathub benyújtáshoz teljes AppStream XML specifikáció szükséges — a `appstreamcli` linter dokumentálatlan szabályokat kényszerít ki.
> Részletes technikai spec: [`17_Flathub_Metadata.md`](17_Flathub_Metadata.md)
> Kötelező elemek: OARS 1.1, branding color tag (light+dark hex), drop shadow screenshot (GNOME session),
> BCP47 language tag minden screenshot-hoz, max 35 karakteres summary (app név nem ismételhető).
> [!NOTE]
> **Keyboard-only Accessibility Audit (P0 — EAA/EN 301 549):** A VibeVox minden UI interakciójának elérhetőnek kell lennie billentyűzettel — tab order, space/enter aktivizálás, escape menedzselés, etc. Ez az EAA 2025/EN 301 549 compliance előfeltétele. Részletek: [`17_Accessibility_Compliance.md`](17_Accessibility_Compliance.md)
ófrissítésnél.
> [!IMPORTANT]
> A Flathub benyújtáshoz teljes AppStream XML specifikáció szükséges — a `appstreamcli` linter dokumentálatlan szabályokat kényszerít ki.
> Részletes technikai spec: [`17_Flathub_Metadata.md`](17_Flathub_Metadata.md)
> Kötelező elemek: OARS 1.1, branding color tag (light+dark hex), drop shadow screenshot (GNOME session),
> BCP47 language tag minden screenshot-hoz, max 35 karakteres summary (app név nem ismételhető).
### Flathub Benyújtási Checklist (K5 — P0, launch D-14-én indítandó)
> [!WARNING]
> A Flathub benyújtás **1-2 hetes review ciklust** igényel. A benyújtást **D-14-én** kell elvégezni, hogy launch napra live legyen a Flatpak verzió. Ha ez késik, a Linux userek nem találják az appot a launch napon.
Benyújtási checklist: [] com.voicetypingbyjoe.VoiceTypingByJoe.yaml manifest elkészítve (Flatpak builder) [] .appdata.xml (AppStream metadata) — CEE kulcsszavakkal, lokalizált leírással (EN + HU) [] Sandbox jogosultságok minimalizálva (principle of least privilege): --socket=pulseaudio (vagy --socket=pipewire ha PipeWire natív) --socket=x11 / --socket=wayland --share=network (csak proxy kommunikációhoz) --talk-name=org.freedesktop.secrets (keyring) [] Flathub CI build sikeresen lefut (PySide6 + Python függőségek) [] Kategória: Accessibility (elsődleges), Utility (másodlagos) [] Min. 5 screenshot — sötét téma, 16:9, HiDPI [] Release notes: aktuális verzió changelog EN + HU [] Review visszajelzések kezelése (átl. 2-3 round) [] appstreamcli lint fut 0 hibával lokálisan (OARS, branding color, BCP47 screenshot tag) [] OARS 1.1 blokk jelen van (hiánya = fatal linter error → részlet: 17_Flathub_Metadata.md) [] branding color tag (light + dark hex, nem pure white/black) [] Min. 3 screenshot: GNOME session, drop shadow, BCP47 tagged (hu/pl/cs/sk) [] domain verification token: voicetypingbyjoe.com/.well-known/org.flathub.VerifiedApps.txt [] SHA-256 hash a release-hez generálva és a download oldalon megjelenítve (ld. lentebb)
Flathub Featured státusz eligibility (D-30 checklist): ✅ Legalább 3 lokalizált screenshot (hu/pl/cs/sk BCP47 tagged) ✅ Branding color tag (light + dark, vibrant hex — nem szürke!) ✅ Summary < 35 karakter, nem ismétli az app nevet ✅ OARS 1.1 blokk jelen van ✅ Ikon: nincs beégetett drop shadow / glow □ Launch után: Flathub developer portal figyelése (editor rating) □ Ha bármely editor flag jelenik meg → azonnal javítás + re-review request
Flathub launch szinkronizáció: D-30: Featured eligibility checklist elvégzése (egyszer nyílik az ablak!) D-14: PR megnyitása a flathub/flathub GitHub repóba D-7: First review feedback -> javítások D-3: Merge és publikálás jóváhagyása D-0: Launch nap — Flatpak live a Flathub-on + launch poszt
### SHA-256 Hash Követelmény a Release Pipeline-ban (GAP-4)
> [!NOTE]
> A SHA-256 hash megadása a letöltési oldalon erős **trust signalt** küld a privacy-tudatos, technikai CEE
> szegmensnek (cybersec szakemberek, Linux power userek). Bitwarden és ProtonMail ezt standard practice-ként alkalmazza.
**Release pipeline követelmény (P2 — CI/CD automatizálható):**
```bash
# Minden release előtt futtatandó a build pipeline-ban:
sha256sum vibevox-*.exe vibevox-*.AppImage > SHA256SUMS.txt
# GitHub Release assets-hez csatolandó:
# vibevox-1.x.x-win64.exe
# vibevox-1.x.x.AppImage
# SHA256SUMS.txt
Megjelenítés a download interstitial-on:
vibevox-1.5.x-win64.exe SHA-256: a3f9b2c...
vibevox-1.5.x.AppImage SHA-256: 7c2d4e8...
Implementációs cost: ~2 óra (CI script + UI elem) | Roadmap: P2 — D+7-ig
3. Feature roadmap fázisonként
Fázis 0 — Alapok (KÉSZ)
| Feature | Státusz |
|---|---|
| Hold-to-talk diktálás | ✅ |
| Filler word removal (HU) | ✅ opt-in, default be |
| Magyar UI (98/98 string) | ✅ |
Írásjel-kezelés (post_process.py) |
✅ v1.4.13 |
| Session hard cap (6 perc) | ✅ v1.5.0 |
| AppImage build | ✅ GitHub Releases |
| Supabase sync kód | ✅ dashboard konfig hátra |
Fázis 1 — CEE Launch
| Feature | Prioritás | Leírás |
|---|---|---|
| Flatpak / Flathub | P0 | Elsődleges Linux csatorna |
| SaaS onboarding wizard | P0 | 2 út: Managed Cloud + BYOK. Lépések: (1) Üdvözlő + platform detektálás, (2) Nyelvválasztás — OS locale alapján előre kitöltve, de a user változtathatja (preferredLanguage), (3) Privacy/Telemetria opt-in, (4) Hangeszköz beállítás |
| Localization Architecture — Two-Signal Model | P0 | preferredLanguage (email nyelve): OS locale auto-detektálás + onboarding wizard megerősítés. pricingCountry (deviza): IP geolokáció szerver oldalon regisztrációkor. A kettő FÜGGETLEN — egy varsói expat angol emailt + PLN árat kap. Mindkét property a contact.created eventtel kerül Loops.so-ba. Forrás: 01_Onboarding_Drip_EN.md § Localization Architecture |
| Supabase live konfig | P0 | Szinkronizáció élesbe |
| Stripe integráció | P0 | Checkout, subscription |
| Landing page | P0 | Geo-IP árazás, platform detektálás |
| PipeWire/PulseAudio auto-detektálás | P0 | Auto audio stack detektálás onboarding első lépésén — PipeWire → PulseAudio fallback |
| Win10 EOL migrációs landing | P1 | "Coming from Windows?" szekció + migration_source event |
| Session Summary Toast | P1 | „127 szó → ~3 perc megtakarítva" — all-clear állapot. Ha alacsony confidence: „⚠️ Ellenőrizd az injektált szöveget" variáns. Spec lent (Live Bubble UX States). |
| Post-injection Confidence Toast (GAP-C3) | P1 | Batch STT után: ha avg_logprob < -0.5 → ⚠️ toast (3 mp, auto-dismiss). Groq Whisper szegmens-szintű confidence alapú. Forrás: strategic_ux_architecture_analysis.md §GAP-C3. |
| Live Bubble — dupla bubble összevonás | P1 | A bal oldali önálló timer bubble törlendő. Timer a jobb oldali kontroll bubble-be kerül (✕ mellé). Spec lent. |
| Kumulatív milestone rendszer | P1 | Badge-ek: 1K / 10K / 50K / 100K szó — retention anchor (AI churn ellenszer) |
| Value-delivered havi email | P1 | „Ebben a hónapban X szót diktáltál, ~Y percet spóroltál" — vizuális ROI |
| Win-back kampány — HÁROMFÁZISÚ | P1 | D1: Graceful Exit email (72% open rate, nulla sales pitch) · D14: Feature update (ha releváns) · D45: CEE persona case study · Fix összegű kedvezmény (PLN/HUF/CZK) — NEM percentage |
| Streak gamification | P1 | Session Summary Toast: "Napi sorozatod: 3 nap 🔥" — endowed progress effect, Duolingo pattern; napi streak counter + milestone_reached event függőség |
| Churn exit survey | P1 | subscription_cancelled → kötelező 1 kérdés (reason field) |
| Onboarding Micro UX | P1 | Permission priming, kvóta UI |
| Linux autostart | P1 | .desktop XDG autostart + systemd user service (opcionális) |
| Szlovák UI | P1 | Qt Linguist SK |
| NPS protokoll | P1 | Day 14 email → kattintható 0–10 számok → vibevox.app/nps?score=X&uid=… landing page (köszönőüzenet + opcionális szöveg). Score azonnali mentés → Supabase nps_responses tábla. Dev feladat: /nps endpoint + landing page. |
Live Bubble UX States — Teljes Specifikáció (GAP-C3 integráció, 2026-04-19)
Forrás:
strategic_ux_architecture_analysis.md §GAP-C3+ felhasználói visszajelzés (2026-04-18)
Jelenlegi állapot (bug): 2 önálló floating widget él egymás mellett:
[🎙 0:28] [✕ ▇▇▇ ⏹]
bal oldal (törlendő) jobb oldal (megtartandó, bővítendő)
Cél: 1 bubble, 3 állapot:
ÁLLAPOT 1 — AKTÍV DIKTÁLÁS (gomb tartva):
┌──────────────────────────────────┐
│ ✕ 0:28 ▇▇▇▇▇▇▇ ⏹ │
└──────────────────────────────────┘
→ Timer a bubble BELSEJÉBE kerül (✕ jobb oldalán)
→ NEM kerül confidence color-coding diktálás közben — flickering distraction
ÁLLAPOT 2 — POST-INJECTION, ALACSONY CONFIDENCE (avg_logprob < -0.5):
→ Bubble eltűnik
→ Toast a kurzor közelében, 3 mp, auto-dismiss:
⚠️ Ellenőrizd az injektált szöveget
ÁLLAPOT 3 — POST-INJECTION, ALL-CLEAR (avg_logprob ≥ -0.5):
→ Session Summary Toast, 3 mp, auto-dismiss:
✅ 127 szó → ~3 perc megtakarítva 🔥 3 napos sorozat
Implementáció:
CONFIDENCE_THRESHOLD = -0.5 # Groq Whisper avg_logprob (szegmens-szintű)
def show_post_injection_feedback(result):
if result.avg_logprob < CONFIDENCE_THRESHOLD:
show_toast("⚠️ Ellenőrizd az injektált szöveget", duration=3)
else:
show_session_summary_toast(word_count=result.word_count)
# Dupla bubble fix: TimerBubble widget törlendő
# Timer label → ControlBubble-be, ✕ gomb mellé
AI retention deficit (P0): A milestone rendszer és value-delivered email Fázis 2-ről Fázis 1-re lett előrehozva. Indok: az AI appok 30%-kal magasabb churn-nel rendelkeznek — az első 1000 szó badge + havi ROI email nélkül a subscription fatigue ~€9,99/hó árnál kritikus.
Fázis 2 — Feature Depth
| Feature | Leírás |
|---|---|
| Offline mód — Turbo (BYOK LTD tartalmazza) | faster-whisper alapú lokális Whisper large-v3-turbo. RAM-detekció automatikus (psutil). Modell letöltő UI + kapacitás figyelmeztetés. Cloud fallback ha RAM < 8 GB. Multi-device: account-alapú licenc, per-device mód beállítás. |
| Offline mód — large-v3 prémium (opt-in) | 32 GB RAM + dedikált GPU (≥10 GB VRAM) esetén engedélyezett. Max pontosság CEE szakmai szókincsre (jogi/orvosi). Külön modell letöltés (~3.1 GB). |
| Style Personas — Stílus-személyiség (FREE, Fázis 1.5) | Beépített + Custom stílusok. Ld. lentebb részletes spec. |
| AI post-processing | Tone control, template alkalmazás |
| Custom vocabulary UI | Felhasználói szótár szerkesztő |
| Newton .dic/.xml import | Szótár migrációs eszköz — CZ/SK B2B critical path |
| B2B admin dashboard | Centralizált user mgmt, számlázás |
| Audit log | Diktálási napló (törvényi elvárás) |
| Azure OpenAI BYOK | 100% EU Data Residency opció |
| Rewardful affiliate tracking | 20+ affiliate felett |
| Chrome Extension — Native Messaging Companion | Low-CAC acquisition funnel a Chrome Web Store-on keresztül |
Chrome Extension Native Messaging (Fázis 2 / P1 — Linux GTM Playbook):
A Linux desktop Chrome/Chromium dominancia ~69%. A Chrome Web Store high-intent keresési csatorna
(Dictation, Voice Typing, Speech to Text kulcsszavak). Architektúra:
- Extension = csak UI (Start/Stop toggle, language selector, quota view)
- Native Messaging API: extension → JSON payload → VibeVox Flatpak
- Host registration:
~/.config/google-chrome/NativeMessagingHosts/io.voicetypingbyjoe.json - Extension NEM processzál audio-t, NEM injektál szöveget — ez a natív app feladata
voicetypingbyjoe.com/chrome (dekstop engine letöltés + CWS link)Style tab — UI specifikáció (implementálva: 2026-04-18)
Implementáció:
app/ui/tabs/style_tab.py| Menüpont: 🎨 Style (Ctrl+5) Kapcsolódó:app/ui/history_window.py— 7. sidebar tab
Menüpont helye a sidebar-ban:
🏠 History
📊 Statistics
📚 Vocabulary
⌨️ Hotkeys
🎨 Style ← ÚJ (7. nézet)
⚙️ Settings
🔧 Developer
Style tab szekciói:
| Szekció | Tartalom | Státusz |
|---|---|---|
| 🔤 Alap mód | Literal Mode master toggle | ✅ Implementálva |
| 🎩 Megszólítás stílusa | Formality Conversion — language-aware toggle | ✅ Implementálva |
| 🌍 Kimenet nyelve | Output Language — diktálás egyik, output másik nyelven | ⏳ Coming Soon (Fázis 1.5) |
| 🎭 Stílus-személyiségek | 14 beépített + Custom Persona | ⏳ Coming Soon (Fázis 1.5) |
| ⚙️ Speciális post-processing | App-kontextus adaptív, template, vibe coding | ⏳ Coming Soon (Fázis 2) |
Literal Mode — master toggle logika:
Ha Literal Mode = ON:
→ MINDEN más Style toggle LE VAN TILTVA (disabled + dimmed)
→ LLM post-processing NEM fut (fordítás sem!)
→ Filler word removal és auto-punctuation szintén ki (Settings tab tükrözi)
→ Ideál: kód, jogi szöveg, orvosi feljegyzés
Ha Literal Mode = OFF:
→ Formality Conversion, Output Language, Personas — mindegyik önállóan kapcsolható
→ Egymással kombinálhatók:
✅ Output Language + Standard persona → tiszta fordítás, stílus nélkül
✅ Output Language + Professzionális → fordítás + formális átírás
✅ Output Language + LinkedIn Lunatic → magyarul diktált → angol LinkedIn poszt
KIVÉVE: Persona ≠ Standard → kizárja a Formality Conversion-t (Fázis 1.5 spec)
KIVÉVE: Output Language aktív → Formality Conversion automatikusan KI (célnyelvi
formality-t az LLM a fordítási promptban kezeli)
Style Personas — Stílus-személyiség rendszer (Fázis 1.5 — FREE tier)
Tier döntés (2026-04-18): MINDEN Style Persona ingyenes — beleértve a Custom Persona-t. A free user 20 000 szavas kvótája lesz a konverziós trigger, nem a feature elérhetősége. Ha valaki kialakítja a saját digitális hangját → a stílus-horgony tartja meg → kvóta löki fizető tier felé.
A feature lényege: A felhasználó kiválasztja, hogyan írja át a VibeVox a diktált szöveget az LLM post-processing lépésben. Standard módban az LLM nem fut. Bármilyen más persona kiválasztásakor az LLM egy prompt alapján stílusban átírja a transzkripciót — ugyanabban az API hívásban mint a vocabulary correction.
Beépített stílusok:
| Kategória | Persona | Leírás |
|---|---|---|
| Alap | Standard | Nincs átírás (alapértelmezett) — LLM nem fut |
| Alap | Tömör | Max. 30% tömörítés, lényegre törő |
| Alap | Professzionális | Formális, önöző, strukturált |
| Alap | Barátságos | Közvetlen, tegeződő, meleg |
| Alap | Vezetői összefoglaló | Bullet points, kulcspontok kiemelve |
| Megszólítás | Tegeződő → Önöző | Language-aware konverzió (HU: Ön, DE: Sie, FR: vous…) |
| Fun / Viral | 🧙 Yoda | Megfordított mondatrend, archaikus stílus |
| Fun / Viral | 👑 Viktoriánus úr | Angol arisztokrata stílus |
| Fun / Viral | 🏴☠️ Kalóz | Ahoy!, Arr!, tengerész szleng |
| Fun / Viral | 📺 Hírolvasó | Formális, tárgyilagos tónus |
| Fun / Viral | 🤖 HAL 9000 | Hideg, precíz, kissé fenyegető |
| Fun / Viral | 💼🚀 LinkedIn Lunatic | Irodai zsargon, single-sentence para, 🔥 emoji |
| Fun / Viral | 📻 1950s Híradó | Mid-century newsreel, „gee whiz", breaking news |
| CEE / PL | 🥒 Typowy Janusz | Grażyna, Kiedyś to było…, fonetikus misspelling |
| CEE / CZ | 🍺 Morva (su/su) | Morva dialektus-exaggeration |
| CEE / CZ | 🏙️ Pražák (seš) | Prágai utcai szleng |
| CEE / HU | 📺 Tabloid Vendég | Mónika Show energia — dráma, nagybetűk (profanitás nélkül) |
Formality Conversion — multi-language architektúra (implementálva: 2026-04-18)
Döntés (2026-04-18): A tegeződő→magázódó konverzió NEM csak HU-specifikus — az összes releváns európai nyelvben elérhető. A Formality Conversion a Style tab önálló szekciója, az elsődleges nyelv beállításától automatikusan veszi a nyelv-specifikus szabályokat.
Magyar (HU) — kritikus szabály:
Kizárólag „Ön" alakokat szabad használni.
A „maga" / „magának" / „magát" formák TILTOTTAK — régiesek, lekezelőek, kerülendők.
Preferred: Ön • Önnek • Önt • Önnel • Önhöz
Forbidden: maga • magának • magát • magával • magáé
Multi-language szabálytábla (app/ui/tabs/style_tab.py — _FORMALITY_LANG_MAP):
| Nyelv | Toggle label | Preferred forms | Gender-aware? |
|---|---|---|---|
| Magyar (HU) | Tegeződő → Önöző | Ön, Önnek, Önt | Nem |
| Német (DE) | Duzen → Siezen | Sie, Ihnen, Ihr, Ihre | Nem |
| Francia (FR) | Tutoyer → Vouvoyer | vous, votre, vos | Nem |
| Spanyol (ES) | Tuteo → Ustedeo | usted, su, sus | Nem |
| Olasz (IT) | Tu → Lei formale | Lei, La, Le, Suo | Nem |
| Lengyel (PL) | Ty → Pan/Pani | Pan / Pani | Igen |
| Cseh (CS) | Ty → Vykání | Vy, Vám, Vás | Nem |
| Szlovák (SK) | Ty → Vykanie | Vy, Vám, Vás | Nem |
| Orosz (RU) | Ты → Вы | Вы, Вас, Вам | Nem |
| Holland (NL) | Jij → U | u, uw | Nem |
| Román (RO) | Tu → Dumneavoastră | Dumneavoastră | Nem |
| Portugál (PT) | Tu → Senhor/Senhora | o senhor / a senhora | Igen |
Nem releváns: angol, svéd, norvég, dán — ezekben az informális/formális különbség eltűnt. Gender-aware nyelvek (PL, PT): az LLM inferálhatja a nemet, vagy opcionális user beállítás.
Custom Style Persona (FREE):
Felhasználó ír egy prompt-ot (max. 500 karakter):
„Írj úgy, mint egy 18. századi levélíró..."
„Minden mondatot kezdj igével..."
„Speak as an English aristocrat would..."
Tárolás: settings.db (lokális) + Supabase szinkron → multi-device
Sandbox: user prompt rendszer-promptba kerül, NEM user-üzenetbe (injection védelem)
Marketing érv:
„Diktáld úgy, ahogy kényelmes — kapod úgy, ahogy illik." A HU tegeződő/magázódó konverzió egyedülálló CEE piacon. Egyetlen más diktáló app sem kínál ilyet. A Yoda mód megosztható termékélmény — organikus TikTok/Twitter demo anyag.
Technikai referencia: 10_Tech_Architecture.md §2.3b
Output Language — Beépített fordítás (Fázis 1.5 — FREE tier)
Döntés (2026-04-18): A diktálás nyelve és az output nyelve elválik egymástól. Ez a feature a Style tab önálló szekciója — nem kötődik konkrét personához.
Piaci egyediség: Egyetlen közvetlen CEE diktáló konkurens (Wispr Flow, Typeless, Newton Dictate) sem kínál beépített Output Language fordítást. A célcsoport: a keleti CEE szegmens szakemberei (orvosok, jogászok, mérnökök), akik a saját anyanyelvükön diktálnak, de az outputot angol vagy más munkanyelvű dokumentumba kell beilleszteniük. Jelenlegi workflow (3 lépés):
1. Diktál magyarul / csehül / lengyelül (természetes)
2. Kimásol egy fordítóba (DeepL / Google)
3. Visszamásolja a fordítást a célba
VibeVox Output Language (1 lépés):
1. Diktál anyanyelvén → output a kurzornál megjelenik a célnyelven
UI — Style tab szekció:
🌍 Kimenet nyelve
○ Eredeti (input nyelvén) ← default
○ Angol (EN)
○ Magyar (HU)
○ Lengyel (PL)
○ Cseh (CS)
○ Szlovák (SK)
○ Német (DE)
○ Francia (FR)
○ Spanyol (ES)
○ Olasz (IT)
... (bővíthető)
LLM pipeline logika:
def get_llm_system_prompt(persona_id, output_language=None, primary_language="hu"):
base_prompt = BUILT_IN_PERSONAS.get(persona_id, "")
# Fordítás hozzáadása ha a célnyelv ≠ forrásnyelv
if output_language and output_language != primary_language:
lang_instruction = (
f"Translate the output to {output_language}. "
"Preserve all factual content, numbers, names, and dates exactly."
)
return f"{base_prompt} {lang_instruction}" if base_prompt else lang_instruction
return base_prompt
# LLM trigger kibővített logikája:
# Standard persona + nincs szótár + output_lang == input_lang → LLM NEM fut
# Bármilyen más eset (persona VAGY output_lang ≠ input_lang) → LLM fut
Kombinálhatóság:
| Kombináció | Eredmény | Megjegyzés |
|---|---|---|
output=EN + Standard |
Tiszta fordítás | LLM fut, persona nélkül |
output=EN + Professzionális |
Fordítás + formális átírás | Egyetlen LLM hívásban |
output=EN + LinkedIn Lunatic |
Magyar diktálás → angol LinkedIn poszt | Kombinált prompt |
output=EN + Literal Mode |
TILTOTT | Literal = semmilyen átírás |
output=EN + Formality Conversion |
Automatikusan KI | Célnyelvi formality az LLM-re bízva |
Tier döntés: FREE — az Output Language ugyanolyan ingyenes, mint a Style Personas. A 20 000 szavas kvóta a konverziós trigger, nem a fordítás elérhetősége.
Dual-pane Share Modal — automatikus aktiválás:
Ha output_lang ≠ input_lang, a Share Modal automatikusan dual-pane módban jelenik meg:
┌─────────────────────────────────────────────────────┐
│ 📝 Eredeti (HU): │
│ „Holnap van a megbeszélésünk a jogi osztállyal." │
│─────────────────────────────────────────────────────│
│ 🌍 Fordítás (EN): │
│ "Tomorrow we have a meeting with the legal dept." │
│─────────────────────────────────────────────────────│
│ [📋 Beillesztés] [𝕏 Tweet] [in LinkedIn] [✕] │
└─────────────────────────────────────────────────────┘
Nyitott kutatási kérdés (D+30-ig döntendő): Melyik modell fordítson managed cloud esetén? Az LLM-alapú fordítás (Groq Llama 3 / GPT-4o-mini) egyszerű, mert a meglévő pipeline-ba illeszkedik. Azonban dedikált fordítóeszközök (pl. DeepL API, Google Translate v3, ModernMT) bizonyos nyelvpárokra szignifikánsan jobb minőséget és alacsonyabb latenciát adnak — különösen az agglutináló CEE nyelvekre (HU, FI) ahol a morfológiai komplexitás az általános LLM-eket megzavarhatja. Vizsgálandó dimenziók:
- Minőség: WER / BLEU score CEE nyelvpárokon (HU→EN, PL→EN, CS→EN) — tesztelendő
- Latencia: Dedikált fordítóeszköz vs. LLM egy hívásban — melyik gyorsabb?
- Ár: DeepL Pro API vs. Groq Llama 3 (token-alapú) managed cloud esetén
- Nyelv-specifikus routing: Különböző eszköz különböző nyelvpárokra?
- HU/FI → EN: DeepL EU erős (agglutináló morfológia)
- PL/CS/SK → EN: DeepL EU vs. GPT-4o-mini — tesztelendő
- Általános európai nyelvek (DE, FR, ES, IT): LLM valószínűleg elegendő
translation_provider_benchmark — Fázis 1.5 előttMarketing érv:
„Diktálj anyanyelveden — kapd angolul. Egy lépés, nem három." A feature közvetlen értékajánlatot nyújt a CEE keleti régió szakembereinek (orvos, jogász, mérnök), akiknek napi munkájában kritikus az anyanyelvi diktálás + idegen nyelvű dokumentáció kombináció.
Technikai referencia: 10_Tech_Architecture.md §2.3b (meglévő LLM pipeline kiterjesztése)
Agentic Voice UI elemek (P1 — iparági trend válasz)
Az iparág az „agentic voice UI" felé mozdul — ahol a diktáló szoftver nem passzív írnok, hanem intelligens parancsgenerátor. A VibeVox-nek Fázis 2-re legalább minimális agentic képességeket kell demonstrálnia, különben a Typeless „Intelligent Dictation" és Otter.ai „AI Meeting Agent" pozíciója megerősödik.
| Feature | Prioritás | Leírás |
|---|---|---|
| App-kontextus adaptív formázás | P1 | Slack = casual, email = formal, IDE = kód |
| AI post-processing tone control | P1 | Meglévő terv → előrehozás |
| Template alkalmazás (jogi/orvosi) | P1 | Szektoriális sablonok B2B vertikálokhoz |
| Vibe coding integráció | P2 | Cursor/Claude prompt diktálás strukturálása |
Stratégiai pozíció: A VibeVox NEM versenyez az Otter.ai-típusú meeting agent területen. A VibeVox agentic fókusza: OS-szintű, alkalmazás-adaptív szövegformázás. Ez konzisztens a Hold-to-Talk privacy modellel (nincs ambient listening).
Fázis 3 — Platform Lock-in
| Feature | Leírás |
|---|---|
| Wayland natív | XDG Portal mikrofon hozzáférés + wtype/wl-clipboard |
| Clip-to-dictate | Clipboard tartalom hangba |
| Philips SpeechMike HID | Lábpedál integráció |
| CEE fine-tuned offline modell (HU + PL elsőként) | large-v3-turbo fine-tuning HunSpeech + CLARIN-PL korpuszon. Baseline WER mérés, majd iteratív fine-tuning. Cél: lokális modell veri a base Turbo-t CEE nyelveken. „CEE Edition" — egyedi, nem másolható versenyelőny. |
Fázis 1b — Android (Launch platformja)
Döntés (2026-04-17): Az Android app launch dátumra kész lesz — a Fázis 4-ból Fázis 1b-re lett előrehozva. Az Android IME kód félig kész. iOS launch után jön (Fázis 5).
| Feature | Architektúra |
|---|---|
| Transparent IME | InputMethodService — „Hold-to-Talk" overlay UI |
| FCM push-to-wake szinkron | WorkManager (nem persistent WS) |
| Android BYOK | Deepgram Nova-3 (default) · Groq large-v3 (low-cost alt.) |
| Wireless mic mód | Android = mic, PC = paste cél |
Android IME UX koncepció — „Transparent IME":
A VibeVox Android verziója NEM hagyományos QWERTY billentyűzet.
Ehelyett egy minimális, brandelt „Hold-to-Talk" felületet renderel.
Felhasználói élmény:
1. User megérint bármilyen szövegmezőt az OS-ben
2. A VibeVox IME felcsúszik a képernyő aljára
→ Kis, márkázott panel: [🎙️ Tartsd nyomva a diktáláshoz]
3. User nyomva tartja a gombot → mikrofon aktív
4. Hang → EU Frankfurt szerver → Whisper v3
5. Szöveg → InputConnection.commitText() → az aktív mező kurzoránál
UX elvek:
• NEM QWERTY → minimális méret, nem fedi el a tartalmat
• Hold-to-talk → explicit intent (privacy USP meg van erősítve)
• Brandelt design → VibeVox logó + animált waveform
• Visszaváltás billentyűzetre: standard Android input switcher
Fázis 5 — iOS + macOS
iOS waitlist stratégia (honlap): Az iOS app nem lesz kész a launch dátumra. Az iOS látogatókat a landing page egy dedikált "Coming Soon" szekcióval fogadja — e-mail waitlist gyűjtéssel. Kutatandó: hogyan optimalizáljuk ezt a szekciót a konverzióra. Lásd: honlap Deep Research gaps.
| Feature | Leírás |
|---|---|
| iOS Keyboard Extension | App Store |
| macOS natív | PySide6, Ventura+ |
| Apple Silicon offline | Whisper large-v3 feltételesen |
Fázis 6 → Fázis 2 — MCP Server (Előrehozva — GAP-2 stratégiai javítás)
Döntés (2026-04-11): Az MCP szerver Fázis 6-ból Fázis 2-re előrehozva. Stratégiai hiba volt halasztani — a developer közösség a VibeVox természetes early adopter bázisa, és az MCP a 2026-os standard developer AI tooling protokoll. Implementációs cost: ~1 hét. Akkvizíciós érték: passszív, alacsony-CAC developer channel.
Mi az MCP és miért most?
Az MCP (Anthropic Model Context Protocol) egy nyílt standard, amely lehetővé teszi, hogy AI modellek (Claude, GPT, Cursor, Windsurf) külső eszközöket hívjanak meg. 2026-ra az MCP directory az új App Store a developer toolingban — ha VibeVox nem szerepel benne, Fázis 2-tól láthatatlan a developer szegmensben.
A stratégiai érv az előrehozásra:
Developer user = legjobb early adopter:
✅ magasan fizetőképes (BYOK LTD €79 nem jelentős)
✅ opinion leader — ha nekik tetszik, megosztják
✅ toleráns a "rough edges"-szel szemben
✅ MCP-n keresztül organikusan találja meg a VibeVox-t
✅ solo founder számára: passzív akkvizíció = alacsony CAC
Alacsony implementációs cost:
FastMCP Python library + 4 endpoint = ~1 hét munka
Semmi infrastruktúra nem kell — local socket, opt-in
VibeVox MCP Server v1 — Fázis 2 scope:
# vtj_mcp_server.py — FastMCP alapú, loopback interfészen fut
from fastmcp import FastMCP
mcp = FastMCP("VibeVox MCP Server")
@mcp.tool()
def dictate_to_active_window(text: str) -> str:
"""Szöveget illeszt be az aktív ablakba (OS keyboard injection)"""
@mcp.tool()
def get_transcription_history(n: int = 10) -> list:
"""Utolsó n transzkripció lekérése a lokális SQLite-ból"""
@mcp.tool()
def set_language(primary: str, secondary: str = None) -> str:
"""Futás közbeni nyelvváltás (pl. 'hu', 'en')"""
@mcp.tool()
def trigger_recording(seconds: int = 30) -> str:
"""Hangfelvétel indítása programból — Cursor/Claude agent hívhatja"""
Integráció: Cursor, Claude Desktop, Windsurf (D+32 release)
Telepítési módszer: uvx — kötelező. A python -m vtj_mcp_server CSAK helyi fejlesztéshez acceptable. Production distribution és minden MCP directory (Smithery, Cursor Directory, Glama) kizárólag uvx-et fogad el — ez az MCP ökoszisztéma 2026-os de-facto standard csomagkezelője. Az uvx ephemeral, izolált futtatást biztosít, nem szennyezi a globális Python-környezetet.
Transport: stdio — kötelező. A loopback stdio architektúra matematikailag garantálja a True Zero Access-t: a hang soha nem transzitál külső AI provider szervereken. SSE/HTTP transport TILOS — privacy breach.
Port: 51089 — rögzített. Ez a dedikált loopback port. Rögzített port = reprodukálható konfig = nulla support ticket.
1. Cursor IDE (.cursor/mcp.json — Project-level, vagy ~/.cursor/mcp.json — Global)
Cursor tool limit: max 40 tool az összes MCP szerveren átívelően. VibeVox 4 toolja: ✅ kompatibilis — „4 precision tools — zero quota overhead."
{
"mcpServers": {
"vibevox-dictation": {
"command": "uvx",
"args": ["vibevox-mcp"],
"env": {
"VIBEVOX_LOCAL_PORT": "51089",
"VIBEVOX_LANGUAGE": "hu"
}
}
}
}
2. Claude Desktop (%APPDATA%\Claude\claude_desktop_config.json — Windows)
{
"mcpServers": {
"vibevox-dictation": {
"command": "uvx",
"args": ["vibevox-mcp"],
"env": {
"VIBEVOX_LOCAL_PORT": "51089"
}
}
}
}
3. Windsurf (~/.codeium/windsurf/mcp_config.json)
Windsurf tool limit: max 100 tool — nagyobb headroom mint Cursor. A Windsurf Cascade agent interpolációs motort tartalmaz: a
${env:VAR}szintaxis biztonságosan referálja a rendszer environment változókat, anélkül hogy API kulcsokat hardcode-olnánk.
{
"mcpServers": {
"vibevox-dictation": {
"command": "uvx",
"args": ["vibevox-mcp"],
"env": {
"VIBEVOX_API_KEY": "${env:VIBEVOX_API_KEY}",
"VIBEVOX_LOCAL_PORT": "51089"
}
}
}
}
Latency tolerancia — MCP protokoll szintjén
A trigger_recording() tool max 2 másodperces mikrofon-inicializálási ideje teljesen elfogadható:
- Cursor elicitation timeout: ~60s
- Általános tool execution timeout: 30–200s (background operációkhoz)
- 2s delay: transzparens a protokoll szintjén — a user nem érzékeli
Developer changelog marketing (D+32 release note):
„Works with Cursor, Claude Desktop, Windsurf — natively via MCP. Dictate your prompts, get your history, switch languages — all from your AI assistant."
Stratégiai pozíció: A VibeVox NEM másolja a Spokenly agent-first megközelítését. A Hold-to-Talk privacy modell elsőbbséget élvez. Az MCP integráció opt-in, developer-only feature — alapértelmezetten ki, loopback interfészen. A hang soha nem megy a Claude/Cursor szervereire.
Versenytárs: Spokenly az egyetlen ismert diktáló app MCP-vel. A VibeVox Fázis 2-ben eléri ugyanezt — és Linux-on is működik, ami Spokenly-nél nincs. Riport-validáció: „Spokenly restricts its ecosystem entirely to macOS and iOS, completely abandoning the Windows and Linux developer populations."
4. UX és onboarding döntések
SaaS előtérben, BYOK a háttérben
Onboarding megjelenítési sorrend:
1. ✅ Managed Cloud (AJÁNLOTT) — nagy, zöld CTA
2. 〰 BYOK / Saját API kulcs — "Haladó beállítások" alatt
Contextual Privacy Priming
Mielőtt az OS mikrofon-jóváhagyás megjelenik, az app egy saját képernyőt mutat:
- Miért kell a mikrofon (hold-to-talk, NEM ambient)
- Hova megy a hang (Groq Frankfurt SCC + Supabase Zürich)
- Inaktív állapot vizuális jelzése (szürke lakat ikon)
~40%-kal javítja a permission jóváhagyási arányt CEE privacy-tudatos fejlesztőknél.
Zero-Blank-Screen First Task — "Guided First Dictation"
Az onboarding után irányított első diktálás:
Kimondott: "Ööö, szóval, holnap van a meeting."
Megjeleninő: "Holnap van a meeting."
Ez az „aha-pillanat" — a 15 másodperc, ami eldönti a jövőt.
Aha-pillanat optimalizálás (user psychology kutatás, 2026-04-06): Az előfizésési konverzió szignifikánsan nő, ha az aha-pillanat <60 másodpercen belül esik. Ez azt jelenti, hogy az első diktálás eredményét nem szabad blank page elein (üres szövegmező) megjelennie.
Guided First Dictation script (onboarding 3. lépés):
UI szekrenciá:
1. Toast: „Nyomd le és tartsd nyomva a mikrofon gombot—”
2. Felhasználó diktál
3. Szöveg megjelenik (filler words eltávolítva ha Smart Mode aktiv)
4. Toast: „127 szó ≈ 3 perc megtakarítva— ez minden alkalmommal megtörténik.”
5. Kvotá UI: „12 524 szobból 127-et diktáltál” (nem countdown — value framing)
Demo fókuszterületek — sorrendben:
| Demo | Mit demonstrál | Idő |
|---|---|---|
| 1. Filler word szűrés | Smart Mode: „Ööö szoval” → tiszta szöveg | 15 mp |
| 2. Gyorsaság | Diktálás vs. gépelés ROI | 15 mp |
| 3. Literal Mode preciszió | Pontos jogi/technikai szakkifejezés — nm javitás | 15 mp |
Implementációs szabály: Az első diktálás eredményét bold kiemeléssel kell megjelenni a szövegmezőben, nem plain textként.
Accuracy Expectation Kalibrálás — Pszichológiai Script (GAP-C1 ✅ — 2026-04-18)
Day-1 churn megelőzés (P0): Ez a 46 szó a legolcsóbb retention intézkedés az egész product roadmapban.
A riport szerint az accuracy expectation kalibrálás hiánya a leggyakoribb Day-1 churn trigger AI diktáló appokban —
a user az első tévesen átírt szónál elveszíti a bizalmát és azonnal eltávolítja az appot.
Dev cost: ~0 (copy szerkesztés) — az onboarding wizard már létezik. | Forrás: strategic_ux_architecture_analysis.md §GAP-C1
Elhelyezés: Onboarding wizard 2. képernyő — az audio/mikrofon setup UTÁN, az első diktálás ELŐTT. Nem az onboarding végén — hanem közvetlenül a diktálás előtt, amikor a user már várja az első eredményt.
46 szavas EN script (kutatás-alapú, szó szerint):
"The system types 3x faster than your hands, but AI isn't perfect.
Expect 95% accuracy. Speak naturally, ignore minor typos while
dictating, and fix them with your keyboard afterward. Add recurring
industry terms to your Custom Dictionary to teach the system your
specific vocabulary over time."
Magyar lokalizáció (HU — elsődleges CEE piac):
[🎙️ Mikrofon ✅]
"A VibeVox 3× gyorsabban gépel, mint a kezed — de az AI nem tökéletes.
Elvárható pontosság: ~95%. Diktálj természetesen, a kisebb hibákat hagyd
figyelmen kívül, és utána javítsd a billentyűzettel. Az iparági
szakkifejezéseket add hozzá az Egyéni Szótárhoz — és a rendszer
megtanulja a te szavaidat."
[Megértettem → Első diktálás indítása]
Lokalizációs mátrix (Fázis 1 — CEE piacok):
| Piac | Nyelvi kód | Lokalizálandó | Fordítás státusza |
|---|---|---|---|
| Magyar | hu |
Fent | ✅ Kész |
| Lengyel | pl |
Fordítandó | ⬜ |
| Cseh | cs |
Fordítandó | ⬜ |
| Szlovák | sk |
Fordítandó | ⬜ |
| Angol (EN expat) | en |
Forrás script | ✅ Kész |
A lokalizált szövegeket a Qt Linguist .ts fájlokba kell integrálni, az onboarding_accuracy_calibration kulcs alatt.
Ugyanaz a localization pipeline mint a többi UI string — nincs extra fejlesztési overhead.
BYOK Wizard — IKEA Effect framing
❌ NE: "Másold be az API kulcsot a működéshez"
✅ IGEN: "Teljes adatszuverenitás: a te kulcsod, a te szervered,
a te számlád — zero middleman"
3 lépéses wizard:
- Provider választás → deep link a provider billing oldalára
- API kulcs bemásolása → vizuális útmutató
- Kötelező „Test Connection" gomb → ✅ Működik / ❌ Invalid
BYOK Post-Processing Provider Routing — Döntés (2026-04-18): A felhasználó egyetlen API kulcsa fedi az STT-t ÉS az LLM post-processinget. Az ETS LLC NEM kezel más provider kulcsát — a post-processing LLM az STT providert követi.
| STT Provider | STT Modell (user NEM választ) | LLM Post-Processing | Egykulcsos? |
|---|---|---|---|
| Groq (managed/BYOK) | Whisper large-v3 | Groq Llama 3 8B Instant | ✅ |
| OpenAI BYOK | gpt-4o-transcribe | OpenAI gpt-4o-mini | ✅ |
| Google (Gemini) BYOK | Gemini 1.5 Flash | Gemini 1.5 Flash | ✅ |
| Azure BYOK | Azure OpenAI Whisper | Azure OpenAI gpt-4o-mini | ✅ |
10_Tech_Architecture.md §2.1 Szint 2cSystem Tray vizuális adatvédelem
| Állapot | Ikon | Szín |
|---|---|---|
| Inaktív | 🔒 Lakat | Szürke |
| Aktív diktálás | 🎙️ Mikrofon | Piros |
| Processing | ⚙️ Fogaskerék | Narancssárga |
Fontos: Szürke lakat (nem zöld mikrofon) — jelzi, hogy az app inaktív és nem figyel.
Szándékos döntés: Nincs auto-detect nyelv
A VibeVox szándékosan NEM kínál auto-detect opciót a nyelvválasztásban. Ez nem hiányosság — tudatos tervezési döntés.
Miért? A Whisper auto-detect az audio első ~30 másodpercére alapozva dönt az egész szegmens nyelvéről. Kétnyelvű (pl. hu + en) diktálásnál ez pontatlan eredményt ad:
- A modell véletlenszerűen „választ" egyet a 50–100+ lehetséges nyelv közül
- A magyar–finn fonológiai hasonlóság (mindkettő Uralic nyelv) miatt magyar szövegből fin leirat is keletkezhet
- A Wispr Flow ezt kínálja — és a saját tapasztalataink szerint rontja az eredményt
Mit csinálunk helyette:
A primary_language → Whisper language pin (pontosság ↑) + secondary/tertiary → prompt hint (code-switching kontextus). Ez az iparági best practice.
Javasolt UI copy (tooltip / settings magyarázat):
❌ NE (implicit): hiányzó opció magyarázat nélkül
✅ IGEN: "Miért nincs auto-detect? Az automatikus nyelvfelismerés
50+ nyelv között választ — ez kétnyelvű diktálásnál pontatlan.
Válassz egy elsődleges és opcionálisan egy másodlagos nyelvet
a legjobb eredményért."
Landing page / marketing felhasználás: Ezt a döntést aktívan kommunikálhatjuk a Wispr Flow ellen: „Wispr Flow offers auto-detect. We don't — because it doesn't work."
Android-specifikus Onboarding (Fázis 1b — Launch)
Az Android IME onboarding 2 extra navigációs lépést igényel a felhasználótól, amit a Gboard NEM igényel. Emiatt a felhagyási arány ~30-40%-kal magasabb lehet. Deep-linking + in-app útmutató kötelező a konverzió megőrzéséhez.
Lépések:
- App telepítés (Play Store / APK)
- App megnyitás → VibeVox saját onboarding wizard
- OS IME engedélyezés: deep link →
Settings > Language > Keyboards→ VibeVox engedélyezése (toggle ON) - IME átváltás: rendszer input selector → VibeVox kiválasztása
- Első diktálás — „Transparent IME" Hold-to-Talk felület
Súrlódáscsökkentő intézkedések:
• Deep-link: android.settings.INPUT_METHOD_SETTINGS
→ Ne kelljen manuálisan navigálni a beállításokba
• Animált vizuális útmutató (képernyőfotókkal) az onboarding wizardban
• „Visszatértem!" callback: amint a user aktiválja az IME-t és
visszatér az appba → automatikus „Test diktálás" lépés indul
• Fázis 4.1: Samsung DeX + multi-window kezelése
(IME display-kezelés fókuszváltásnál)
5. Felhasználói szegmensek és use case-ek
| Szegmens | OS | Motiváció | Hook |
|---|---|---|---|
| Linux Power User | Linux | BYOK? EU szerver? Natív app? | BYOK €3,50 + EU Frankfurt + natív |
| CEE Knowledge Worker | Windows | Magyar/CZ/PL filler szűrés, privacy | Anti-Surveillance + Managed SaaS |
| BYOK Cost-Optimizer | Win/Linux | Meglévő API kulcs, subscription fatigue | BYOK LTD €79 — vedd meg és felejts |
| B2B Ügyvédi Iroda | Windows | Newton 4× olcsóbb alternatíva | TCO tábla + DPA + iparági szótár |
| VA Hálózat | Windows | Klienseknek ajánlani + saját use case | 25% recurring affiliate |
6. Free tier és kvóta design
Tier-ek összefoglalás
FREE: 180 perc/hó ≈ 20 000 szó | BYOK: 30 napos time-gate
PRO: €9,99/hó | €79/év — korlátlan Managed Cloud
BYOK: €3,50/hó | €79 LTD
B2B: €15–20/szék/hó — admin + DPA + SLA
Kvóta UI — "Generous Endowment" framing (retention_engineering §5 — megerősítve)
| Fázis | Kijelzés |
|---|---|
| 0–80% | "12 500 szót diktáltál — ~4 óra megtakarítva" |
| 80%+ | Narancssárga figyelmeztető sáv: "Lendületben vagy — tartsd meg a lendületet, válts Pro-ra" |
| 100% | Soft gate: "Ebben a hónapban közel 20 000 szót diktáltál. Válts Pro-ra, és tartsd meg a lendületet." |
Kritikus framing szabályok (behavioral economics empirikus evidencia):
- ✅ Mindig növekvő számláló ("X szót diktáltál") — NEM countdown ("Y perc maradt")
- ✅ A 180 perces limit teljesen rejtett a Settings menüben egészen a 80%-os küszöbig
- ✅ A 6 perces session cap framing:
"Mikrofon Auto-Sleep — adatvédelmi védelem"— SOHA nem pénzügyi korlátként kezelve - ❌ Countdown stílus: szorongást okoz és csökkenti a szokásformálást
- A/B test #1 — Eldöntött: Pozitív endowment framing alapértelmezett (13_Analytics.md §8)
Linux-specifikus Onboarding Kiegészítés (Fázis 1)
A Linux power user bázis ~1.58M a CEE-ben — az onboarding nem lehet copy-paste a Windows verzióból. A Linux power user nem "fogyasztó" — hanem építő. Kontroll-érzetet kell adni, nem wizard-élményt.
1. Audio Setup Wizard — PipeWire/PulseAudio auto-detektálás (Linux-only, onboarding 1. lépés):
- Automatikus audio backend detektálás: PipeWire natív → pipewire-pulse → PulseAudio → ALSA fallback
- Detektálás:
pactl info | grep "Server Name"→PipeWire→ PipeWire mód; egyéb → PulseAudio mód - Ha nincs mikrofon → vizuális hibaüzenet + wiki link (PipeWire/PulseAudio troubleshooting)
- Ha több mikrofon → kiválasztó dropdown (USB mic + Bluetooth headset egyidejű kezelés)
- Teszt gomb: "Diktálj egy mondatot" → azonnali feedback
- PipeWire-specifikus hibaüzenetek (2026-ra a CEE Linux userek >70%-a PipeWire-en):
ALSA: Unable to open slave→ "PipeWire audio service újraindítása szükséges" +systemctl --user restart pipewire pipewire-pulsegombDevice or resource busy→ "Más alkalmazás foglalja a mikrofont" + eszközválasztó dropdown- PipeWire-PulseAudio kompatibilitási réteg hiány →
pipewire-alsacsomag telepítési útmutató link
2. CLI-first Onboarding Opció (K3 — Linux power user / tiling WM):
- A GUI wizard mellett elérhető:
VibeVox --setupCLI parancs, amely a teljes onboardingot terminalból végzi el - Flatpak esetén:
flatpak run com.voicetypingbyjoe.VoiceTypingByJoe --setup - CLI lépések: audio backend detektálás → API kulcs megadás → keyring tárolás → teszt diktálás
- Minden GUI wizard lépés rendelkezik "Why?" tooltip-pal — magyarázza az adott jogosultság célját
- Minden lépés opt-in (nem opt-out) — a Linux user explicit kontrollt igényel
3. Input Injection Fallback (Wayland):
- Detektálás:
$XDG_SESSION_TYPE == wayland - Ha XWayland nem működik → clipboard mód (Ctrl+V paste)
- Toast: "Wayland módban vágólap módot használunk — Ctrl+V a szöveg beillesztéséhez"
- Fázis 2: natív
wtype(Sway/Hyprland) →ydotool(GNOME/KDE Wayland fallback)
4. BYOK Keyring Fallback — 4 szintű lánc (K4 — headless Linux / tiling WM):
Szint 1: libsecret (GNOME Keyring / KWallet) — DE-s desktop esetén
Szint 2: pass (standard Unix password manager, GPG-titkosítva)
Detektálás: which pass
Ha elérhető: ajánlott opció tiling WM (i3/Sway/Hyprland) usereknek
A CEE dev közösség ~20-25%-a tiling WM-et használ — ok a véleményformálók
Szint 3: Encrypted config fájl (~/.config/VibeVox/encrypted_keys) — AES-256, jelszóval védve
Opt-in figyelmeztetéssel: "Keyring daemon nem elérhető — titkosított fájl"
Szint 4: Plaintext -> SOHA nem default
Csak explicit "I understand the risk" checkbox után
A pass támogatás alacsony fejlesztési cost (~1 nap), magas trust signal: ha a VibeVox nem támogatja, a tiling WM userek (CEE dev community véleményformálói) nem tudják biztonságosan tárolni az API kulcsot.
7. B2B product features
| Feature | Fázis | Leírás |
|---|---|---|
| DPA + compliance csomag | 1 (doc) | Aláírt DPA, zero retention policy |
| Prioritásos support SLA | 1 | 24h válaszidő, dedikált B2B email |
| Onboarding videóhívás | 1 | 30 perces Azure BYOK setup |
| Admin dashboard | 2 | Centralizált user mgmt |
| Audit log | 2 | Ki, mit, mikor diktált + CSV export |
| Iparági szótárcsomagok (V1: HU jogi + orvosi) | 1.5 — B2B pilot előtt | Jogi/orvosi terminológia, ICD-10, Kbt. |
| Prompt template-ek | 2 | Jogi emlékeztető, orvosi lelet |
Iparági szótárcsomag specifikáció (V1 — B2B pilot prerequisite)
Newton Dictate fő védekező árok: A Newton Dictate legfőbb versenyelőnye a „kuratált iparági szótár" — ha a VibeVox nem ismeri fel az ICD-10 kódokat és jogi terminológiát, a B2B pilot kudarcot vallhat. Ez P1 blocker a B2B launch előtt.
Jogi szótár (HU V1) — ~500 terminus:
- Bírósági terminológia (ítélet, végzés, fellebbezés, jogerő, perköltség)
- Kbt. (közbeszerzési törvény) hivatkozások és szakkifejezések
- Ptk. (Polgári Törvénykönyv) klasszikus terminológia
- Latin jogi rövidítések és kifejezések (res judicata, prima facie, de lege ferenda, in fine)
- Eljárásjogi terminológia (keresetlevél, ellenkérelem, hiánypótlás)
Orvosi szótár (HU V1) — ~500 terminus:
- EESZT mezőnevek és rövidítések (zárójelentés, BNO, fejlap)
- ICD-10 kód leírások és diagnózis terminológia (magyar)
- Leggyakoribb gyógyszer hatóanyag nevek
- Szakmai rövidítések (i.v., p.o., s.c., a.u.c., bid, tid, qid)
- Zárójelentés és konziliumi lelet sablon kifejezések
Implementáció:
- vocabulary.db egyéni bejegyzések (felhasználó is bővítheti)
- CSV importálás funkció (Newton szótár migrációhoz)
- Fázis 2: CZ/SK/PL iparági szótár hozzáadása (B2B CEE terjeszkedéshez)
Effort: ~20-30 óra kutatás és szerkesztés (jogi és orvosi konzultáció ajánlott)
Anti-pattern: Geográfiai profilozás
A VibeVox SOHA nem használja a felhasználó IP-címét, geo-lokációját, vagy rendszernyelvét a transzkripció befolyásolására. A Whisper modell KIZÁRÓLAG a hanganyag és az explicit beállított Primary Language alapján transzkribál.
A Typeless dokumentált hibája (2026-04 kutatás): IP-alapú geo-profilozás, ahol a modell a felhasználó helyszíne alapján szleng-kifejezéseket injektál a transzkripciókba. CEE kontextusban ez különösen veszélyes:
- Lengyel fejlesztő angol technikai dokumentációjába lengyel szleng kerülhet
- Magyar jogász angol szerződésébe magyar szófordulatok jelenhetnek meg
- Cseh orvos cseh/angol klinikai szövegébe hibrid mix keveredhet
A VibeVox pozíciója: A transzkripció nyelve kizárólag a felhasználó által explicit beállított Primary Language alapján működik (settings.py) — nem IP-cím, nem OS locale, nem böngészőnyelv alapján.
7b. Fejlesztői „Vibe Coding" szókincscsomag (Fázis 2)
Kontextus: A „vibe coding" trend (szóbeli utasításokkal AI agent-ek vezérlése, kód diktálása) egyre több fejlesztőt hajt a diktálás felé. A generikus STT modellek azonban rosszul kezelik a programozási terminológiát:
useState→ "use state",kubectl→ "cube cuddle",getByRole→ "get by roll".
A VibeVox Literal Mode + vocabulary prompt injection ezt a problémát designból megoldja.
| Kategória | Példák | Méret (becsült) |
|---|---|---|
| React/JavaScript | useState, useEffect, className, onClick, async/await | ~200 term |
| Python | pandas, numpy, __init__, self.method, @property |
~200 term |
| Git | git rebase, cherry-pick, squash, stash, HEAD~1 |
~50 term |
| SQL | SELECT, JOIN, WHERE, GROUP BY, ALTER TABLE, UPSERT | ~80 term |
| DevOps/Cloud | kubectl, docker-compose, nginx, systemctl, Terraform | ~100 term |
| REST/API | GET, POST, PUT, PATCH, DELETE, 404, 422, 429, JSON | ~80 term |
Marketing hook:
„Diktálj kódot, ne javítsd a diktálót. A VibeVox Literal Mode pontosan azt írja le, amit mondasz —
useState, nem 'use state'."
Implementáció: vocabulary.db dev-csomag CSV importálással; Fázis 2 deliverable
8. CEE lokalizáció
| Nyelv | UI | Filler word removal | Állapot |
|---|---|---|---|
| 🇭🇺 Magyar | ✅ | ✅ (ööö, hát, szóval) | Kész |
| 🇸🇰 Szlovák | ❌ | ❌ | Fázis 1 |
| 🇵🇱 Lengyel | ❌ | ❌ | Fázis 2 |
| 🇨🇿 Cseh | ❌ | ❌ | Fázis 2 |
| 🇬🇧 Angol | ✅ | ✅ (um, uh, like) | Kész |
8b. Post-Processing Prompt Library — Domain Mode
Forrás: Competitive Intelligence Report (2026-04-08) — VibeVox vs. Beey.ai / Newton Dictate Prioritás: Fázis 2 / P1 — B2B launch előtt kötelező Célcsoport: B2B jogi/orvosi szegmens (Newton Dictate displacement)
Miért kell ez?
A Newton Dictate egyetlen megmaradó versenyelőnye a domain-specifikus post-processing (EU jogi hivatkozások formázása, orvosi terminológia). A VibeVox ezt nem akusztikai betanítással, hanem prompt engineeringgel képes replikálni — 100× olcsóbb fejlesztési cost.
„VibeVox can apply deterministic, system-prompt-driven formatting on the fly. By utilizing engineered prompts — for instance, instructing the LLM to 'remove Polish conversational fillers, apply standard EU legal formatting, and capitalize medical taxonomy' — VibeVox can replicate decades of legacy acoustic fine-tuning through modern prompt engineering."
Funkció leírása
A felhasználó a Settings menüből választhat egy „Dictation Mode"-ot:
○ Standard (alapértelmezett — CEE filler removal)
● Jogi mód (HU) — EU jogi hivatkozások, paragrafus formázás, §-jelölés
○ Orvosi mód (HU/SK) — orvosi terminológia, diagnózis formatálás, ICD-10 rövidítések
○ Könyvelői mód (CZ/PL) — NAV/pénzügyi terminológia, számviteli kifejezések
○ Fejlesztői mód — camelCase, snake_case, API nevek megtartása
○ Egyéni (saját prompt — BYOK Power User)
Technikai implementáció
A nyers Whisper transzkripció egy rövid LLM post-processing passzon megy át (Groq LLM, nem STT model), ahol a rendszer prompt tartalmazza a domain szabályait. Az LLM az STT outputot formatálja — nem újragenerálja.
| Paraméter | Érték |
|---|---|
| Extra latencia | ~300-500ms (LLM inference Groq-on) |
| Extra API cost | ~€0.0001/transzkripció (Groq llama3-8b) |
| Fejlesztési effort | 5-8 munkanap (prompt engineering + UI dropdown) |
| B2B hatás | A Newton Dictate „accuracy moat" megtörésének elsődleges eszköze |
Versenyelőny
Replicates Newton Dictate's 15-year domain fine-tuning via prompt engineering. No acoustic retraining required. Maintainable by a solo developer.
A B2B jogi és orvosi értékesítésnél a leggyakoribb champion-szintű kifogás: „De a Newton jobban érti a jogi terminológiát." A Domain Mode közvetlen, termékszintű válasz erre az ellenvetésre.
Objection handling update (11_Sales_B2B.md §8): Ha a Champion megkérdezi, hogy a VibeVox ért-e a jogi terminológiához → Domain Mode demó + „5-8 munkanap alatt bármilyen egyéni terminológiacsomagot konfigurálunk."
9. Nyitott termékdöntések
| # | Kérdés | Határidő |
|---|---|---|
| 1 | Szlovák fordítás elíndítása? | Fázis 1 |
| 2 | Privacy Policy HTML redesign (multi-platform)? | Fázis 1 |
| 3 | Session Summary Toast design (OS-native vs custom)? | Fázis 1 P1 |
✅ Lezárva (2026-04-06): Fázis 2b — Native Messaging companion. Standalone web-only MV3 extension: TILOS (latencia, MV3 korlátok). Részlet: 01_Strategy.md Chrome Extension szekció. |
||
| 5 | Gemini 2.5 Flash CEE benchmark (HU/SK/PL/CS)? | Fázis 2 |
| ✅ Fázis 2 eleje — CZ/SK B2B critical path | ||
✅ Lezárva (2026-04-10): Nem tartunk fenn hivatalos AUR PKGBUILD-et. Passzív Community Bootstrap stratégia: stabil GitHub AppImage URL-ek → közösség önállóan hoz létre VibeVox-bin csomagot. Részlet: AUR szekció lentebb. |
||
| 8 | Szlovák UI fordítás (messages_sk.ts) — CEE launch kritikus path (SK piac) |
Fázis 1 |
Kapcsolódó:
01_Strategy.md·10_Tech_Architecture.md·04_Sales_B2C.md·ROADMAP.md
10. Disztribúció-specifikus Onboarding Útmutatók ✅ [Win10 EoL GTM — GAP-4 beépítve]
A riport distro-specifikus onboarding ajánlása (GAP-4): A Win10 migráns szegmens legtöbbször Linux Mint, Ubuntu, vagy Fedora disztribúciókra migrál (ez lefedi a migránsok ~85%-át). Mindhárom disztribúción a telepítési élmény és a BYOK setup flow különböző — ha az onboarding nem distro-specifikus, az első percek frusztrációja azonnali churnt okoz.
Stratégiai alapelv: A „Telepítsd az AppImage-t és kész" megközelítés NEM elegendő a Win10 migráns szegmensnek. Nekik lépésről-lépésre, az adott disztribúcióhoz igazított útmutatóra van szükségük.
Linux Mint — Onboarding (Win10 migráns primary target)
Miért Mint? A Linux Mint a Win10 migránsok #1 célplatformja — ismerős UI (taskbar lent, Start menü), könnyen telepíthető. A VibeVox legvalószínűbb első Linux home-ja.
Linux Mint Onboarding Flow (Cinnamon DE):
1. LETÖLTÉS:
→ voicetypingbyjoe.com/download → Linux AppImage letöltése
→ Alternatíva: Flathub (Software Manager → "VibeVox")
2. APPIMAGE FUTTATÁS:
→ Jobb klikk a letöltött fájlon → "Properties" → "Permissions"
→ ☑ "Allow executing file as program"
→ Vagy terminálban: chmod +x VoiceTypingByJoe-*.AppImage
3. AUDIO ENGEDÉLY (Mint Cinnamon):
→ System Settings → Sound → Input → Mikrofon ellenőrzés
→ Ha PipeWire: GYÁRIBAN működik
→ Ha PulseAudio (régebbi): automatikusan kompatibilis
4. AUTOSTART BEÁLLÍTÁS (Win10-szerű élmény):
→ Menu → Startup Applications → Add
→ Name: "VibeVox"
→ Command: /home/[user]/path/to/VoiceTypingByJoe.AppImage
→ Vagy Flatpak esetén: flatpak run com.voicetypingbyjoe.App
5. BYOK SETUP (első indítás):
→ Settings → API Key → Deepgram (ajánlott) vagy OpenAI vagy Groq
→ Hotkey: Alapértelmezett = Right Alt (lenyomva tartva)
→ Első tesztelés: nyisd meg a Text Editor-t → tartsd nyomva Right Alt → mondd: "Helló, működik!"
Win10 analógia messaging (Mint usereknek):
„A Right Alt gomb ugyanúgy működik, mint a régi Win+H. Tartsd lenyomva → mondj valamit → engedd el."
Ubuntu — Onboarding (enterprise + SMB migráns)
Miért Ubuntu? Ubuntu a vállalati Linux migráció #1 célplatformja. IT adminok jellemzően Ubuntu LTS-t telepítenek — a VibeVox-t nekik kell megmutatni IT demo kontextusban.
Ubuntu 24.04 LTS Onboarding Flow:
1. TELEPÍTÉS (ajánlott: Flatpak a Flathub-ról):
sudo apt install flatpak
flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo
flatpak install flathub com.voicetypingbyjoe.App
2. WAYLAND KOMPATIBILITÁS (Ubuntu 24.04 default Wayland):
→ VibeVox automatikusan felismeri (Wayland vs X11)
→ Text injection: xdotool fallback → ydotool Wayland-on
→ Ha xdotool hiányzik: sudo apt install xdotool
3. MIKROFON ENGEDÉLY (Snap isolation figyelő):
→ Ha Snap-pel telepíted: NEM ajánlott (sandbox korlátok)
→ Flatpak: automatikus mikrofon engedély kérés első indításkor
→ GNOME Settings → Privacy → Microphone → "VibeVox" ✅
4. GNOME EXTENSIONS kompatibilitás:
→ VibeVox system tray: kompatibilis AppIndicator extension-nel
→ Telepítés: extensions.gnome.org → "AppIndicator and KStatusNotifier"
5. BYOK + IT Audit:
→ Settings → Privacy → "Zero clipboard access" mód
→ Audit log: ~/.config/VibeVox/audit.log (B2B compliance)
→ GDPR DPA: voicetypingbyjoe.com/legal/dpa
IT admin pitch (Ubuntu enterprise kontextus):
„Sandbox-olt Flatpak, GDPR-kompatibilis EU szerver, auditálható log. Az IT veto-t eltávolítja."
Fedora — Onboarding (developer + power user migráns)
Miért Fedora? A Fedora a fejlesztők és tech-savvy Win10 migránsok elsődleges célplatformja — a „vibe coder" persona legtöbbször ide migrál.
Fedora 41 Onboarding Flow:
1. FLATHUB REPO AKTIVÁLÁS (Fedora-n nem alapértelmezett):
flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo
flatpak install flathub com.voicetypingbyjoe.App
2. WAYLAND + PIPEWIRE (Fedora alapértelmezett):
→ PipeWire natív → legjobb audio latencia (< 20ms)
→ VibeVox automatikusan detektálja
→ Nincs külön konfiguráció szükséges
3. DEVELOPER WORKFLOW INTEGRÁCIÓ:
→ Hotkey customizálás: Settings → Hotkey → Custom
→ Ajánlott dev setup: Ctrl+Space vagy Super+D
→ VS Code integráció: VibeVox + VS Code = text injection a szerkesztőbe
→ Cursor AI integráció: hold hotkey → prompt diktálás → Enter
4. SELINUX KOMPATIBILITÁS:
→ Flatpak sandbox: SELinux-kompatibilis (nem kell disabled)
→ AppImage: "chmod +x" után azonnal fut SELinux-on is
5. VIBE CODING SETUP:
→ Vibe Coding Mode aktiválás: Settings → Processing Mode → "Developer"
→ Developer terminológia szótár: Settings → Vocabulary → "Developer"
→ Teszt: Cursor megnyitva → hold hotkey → "create async useEffect hook
that fetches user data from API" → Release → szöveg beillesztve
Developer persona messaging (Fedora usereknek):
„Telepítés 2 percben. Cursor + VibeVox = voice-to-code workflow. Nincs ambient listening, nincs clipboard hozzáférés."
Onboarding sukces metrikák (Win10 migráns szegmens)
| Metrika | Cél | Mérési módszer |
|---|---|---|
| First dictation < 5 perc | ≥ 80% | Onboarding event tracking |
| BYOK setup completion | ≥ 70% | Supabase event log |
| Day-7 retention | ≥ 40% | Cohort analízis |
| Distro-specifikus help page CTR | ≥ 15% | Analytics |
| Support ticket "installation" | ≤ 5% | Helpdesk |
Distro-specifikus landing page: Minden disztribúcióhoz dedikált /install/linux-mint, /install/ubuntu, /install/fedora URL — ezek a SEO-ban külön indexelhetők és distro-specifikus közösségi fórumokon megoszthatók (pl. mint-forum.com, askubuntu.com, ask.fedoraproject.org).
Telemetria Opt-in Policy ✅ [Community Growth Analysis — #7 beépítve] [P0 — Fázis 0 BLOCKER]
Anti-Pattern — Implicit Telemetria (KRITIKUS KOCKÁZAT): A Privacy-first marketing és a hallgatólagos telemetria gyűjtés ütközik. CEE Linux userek aktívan monitorozzák a network traffic-ot (Wireshark, mitmproxy). Ha bármilyen crash reporting (Sentry), usage analytics (PostHog/Mixpanel), vagy Discord tracking nem explicit opt-in → azonnali HN/Root.cz denunciation kockázat. Ez GDPR-kockázat is, nem csak reputációs.
Kötelező telemetria-kezelési szabályok
| Telemetria típus | Default | Helye | Szöveg |
|---|---|---|---|
| Sentry (crash reporting) | OFF | Onboarding utolsó lépése | „Help us fix bugs faster — anonymous crash reports only. Default: off." |
| PostHog (usage analytics) | OFF | Settings → Privacy | „Anonymous feature usage stats help us prioritize. Default: off." |
| Discord szerver analytics | N/A | Discord szabályok | „We do not track Discord activity." |
Implementációs követelmények
- Onboarding toggle: Sentry opt-in az onboarding utolsó képernyőjén — egyedi checkbox, NEM pre-checked.
- Settings → Privacy szekció: PostHog toggle, bármikor visszavonható.
- README.md és
/privacyoldal: Explicit felsorolás: mit gyűjtünk (opt-in crash report) és mit NEM (hang, szöveg, clipboard). - Network audit: Az első public release előtt Wireshark-kal ellenőrizni, hogy opt-in nélkül NULLA külső hívás megy ki.
Roadmap: Azonnali — Fázis 0 előtt, első public release előtt kötelező. Effort: 2-4 óra.