Jste v naprosté tmě. Máte na stole dvě černé a dvě bílé pilulky. Abyste si zachránili život, musíte si vzít jednu bílou a jednu černou pilulku.
Pohmatu, chuťově i jinak jsou pilulky identické. Existuje elegantní řešení, které vám řeknu na konci článku.
Proč vás takto stresuji? Chci, abyste si uvědomili, že věci se mohou zdát stejné, a přitom nejsou. Nebo naopak. Pokud chcete začít s A/B testováním, první, co musíte udělat je:
- zkontrolovat a opravit si analytiku,
- zjistit, zda na to máte dostatek konverzí,
- a zkontrolovat, zda vám AB testovací nástroj neukazuje hausnumera.
A jedním ze způsobů, jak si zkontrolovat správně fungující testovací nástroj, je tzv. A/A testování.
Alespoň já si to myslím. Jako dobrý nápad to považuje Ronny Kohavi a Khalid Saleh. Naopak za ztrátu času to považuje optimalizátor Craig Sullivan a statistik Georgi Georgiev.
Ale abych moc nepřeskakoval…
Co je to A/A test
Je to test porovnávající dvě identické varianty. Což se na první pohled zdá jako nesmysl, ale vydržte. Vysvětlím to.
Představte si A/A test jako A/B test, který by vám ale měl ukázat, že mezi oběma verzemi je minimální rozdíl. A na konci testu by neměl dojít do statistické jistoty s větší mírou, než jste si určili. Takže pokud máte test nastavený správně, tak byste při opakovaných testech neměli mít větší chybovost výsledků než obligátních 5 % (při p-value 0,05 a menší).
Důvody pro A/A test
- Získáte důvěru v testovací nástroj, ať už je to Google Optimize, VWO, Adobe Target, Convert.com nebo jeden z fůry dalších.
- Ověříte si, že chyba typu I (falešně pozitivní) je v normě (do 5 %).
- Zjistíte míru šumu (variance), neboli jak velká je míra náhody a co už se dá považovat za důvěryhodné výsledky.
- Zkontrolujete si, že mezi původní a novou variantou není žádné zkreslení (bias).
- Porovnáte si, zda vám souhlasí čísla v testovacím nástroji a v analytice.
- Zjistíte rozptyl pro citlivost testu (power). To vám pomůže při výpočtech délky následných A/B testů a minimálním detekovatelném efektu (MDE).
To vše za předpokladu, že je vše nastavené správně. Což není samozřejmost. Bohužel.
Kohavi doporučuje jet A/A testy kontinuálně spolu s klasickým A/B testováním. Jelikož A/A test až na výjimky neovlivňuje A/B test. Na tom se shodnou Kohavi s Georgievem.
Nebude vám stačit jeden A/A test. Protože i když dopadne nestandardně, tak to o ničem nesvědčí. Dám vám trochu pochopitelnější příklad. Máte dvacetistěnnou kostku. To, že jedním hodem hodíte dvacítku, vám nic nepotvrdí. Musíte házet vícekrát, abyste zjistili, zda je kostka „cinklá“.
Což je trochu hraběcí rada, protože to znamená vyšší desítky či pár stovek A/A testů. Dá se z toho vybruslit tím, že si vezmete data z minulého testu, a uživatele náhodně rozdistribujete do obou (stejných) variant. Tuto simulaci můžete udělat vícekrát, a pak si v grafu porovnat p-value vašich důležitých metrik. Ale na to už potřebujete datového analytika. Tedy já ano.
Pak už stačí udělat tzv. goodness-of-fit test, abyste se přesvědčili, že v datech nemáte sample ratio mismatch (SRM). Ale to trochu předbíhám.
Důvody proti A/A testu
- Spuštění A/A testů je plýtvání časem a prostředky, které byste mohli použít pro něco, co generuje lepší návratnost investic. Třeba A/B testování nebo uživatelský výzkum.
- To, že vám A/A test dojde to statistické jistoty vám toho moc neřekne.
- Abyste zjistili chybu v testování, musíte těch testů spustit a vyhodnotit hodně, řádově desítky až stovky.
- A/A test potřebuje výrazně více konverzí, protože se snažíte najít rozdíl tam, kde reálně není. Takže potrvá déle, než budete moct udělat rozhodnutí.
Co když zjistím statisticky jistého vítěze?
Otázka není zda, ale kdy. Mats Einarsen z Booking.com dělal simulaci 1000 A/A testů vždy s 200 000 uživateli.
- 771 experimentů z 1 000 dosáhlo 90% jistoty v nějakou chvíli
- 531 experimentů z 1 000 dosáhlo 95% jistoty v nějakou chvíli
Chad Sanderson spustil 10 A/A testů v Adobe Target a po třech týdnech viděl tohle:
A podle Khaleda 50-70 % A/A testů dochází do jistoty 95-99 %.
Co s tím? Podle Matse si stačí spočítat délku testu a výsledek zkontrolovat až na konci. Jinak si 4krát zvyšujete šanci, že zvolíte false positive výsledek. Anebo můžete zkusit sekvenční testování, ale to je trochu vyšší dívčí (a téma na jeden z příštích článků)
Sample Ratio Mismatch
Sample ratio mismatch je odborný termín pro to, když vám do jednotlivých variant padá jiný poměr uživatelů, než máte nastavený v testu. Typicky máte v A/B testu dělení 50/50, ale randomizační algoritmus není vždy úplně přesný.
Dám příklad, pokud náhodně ukazujete uživatelům verzi A nebo B, tak poměr 2 ku 1 je – i selským rozumem – v pořádku. Čím vyšší ale máte čísla, tím by se ten poměr měl blížit nastavení.
Vtip je v tom, že u návštěvností v řádu desítek tisíc už je i malá odchylka známkou toho, že je něco hodně špatně a že můžete výsledky A/B testu ignorovat (a spláchnout do záchodu). A následně zjišťovat, kde je chyba, než se zase pustíte do testování.
Hezky o SRM přednášel Lukas Vermeer z Booking.com. Dokonce naprogramoval šikovný Chrome plugin, který vás na to ve většině známých testovacích programech upozorňuje.
Závěr
Chápu, že jsem teď zasel dost pochybností, zda to celé dává smysl. Mně ano. Nebazírujte tak moc na výsledku jednoho A/A testu.
Udělejte si variační testování, abyste zjistili:
- míru náhodného šumu,
- nastavili benchmark,
- minimální detekovatelný efekt
- a lépe počítali délku A/B testu
- a nutný počet uživatelů na variantu.
A samozřejmě nečuměli na průběžné výsledky A/B testu jak ostříži a při prvním překročení 95 % jistoty nebouchali šampaňské.
Pokud jedete A/B test s více než 2 variantami, tak doporučuji poté udělat A/B test jen stávající verze vs. vítěz, abyste si to potvrdili.
A ta hádanka… ukousněte od každé pilulky půlku.
P.S.: Jsem z dvojčat, táta taky. Tak asi proto ten zájem o A/A testování :).
P.P.S.: Zajímavá diskuse nad A/A testy a SRM na linkedinu.
Zdroje:
https://help.optimizely.com/Analyze_Results/Run_and_interpret_an_AA_test
https://vwo.com/blog/aa-test-before-ab-testing/
https://www.invespcro.com/blog/aa-tests/
https://cxl.com/blog/aa-testing-waste-time/
https://splitmetrics.com/blog/guide-to-a-a-testing/
https://kadavy.net/blog/posts/aa-testing/
https://blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/
https://www.youtube.com/watch?v=OM5Lbb2gZgA
https://exp-platform.com/Documents/2019_KDDFabijanGupchupFuptaOmhoverVermeerDmitriev.pdf
https://conversionhotel.com/session/keynote-2019-run-better-experiments-srm-checks/
https://www.gigacalculator.com/calculators/chi-square-calculator.php
Smysluplná debata