Едно изследване на разпространението на рака на бъбреците в 3141 окръга на Съединените щати разкрива забележителен модел. Окръзите, в които разпространението на рака на бъбреците е най-ниско, са предимно селски, слабо населени и се намират в традиционно републикански щати на американския Северозапад, Юг и Запад. Какъв извод ще направите?
Вашият ум е бил много активен през последните няколко секунди и е оперирала главно Система 2. Съзнателно сте преровили паметта си и сте формулирали хипотези. Приложили сте известно усилие; зениците ви са се разширили, а пулсът ви се е ускорил измеримо. Система 1 обаче не е стояла бездейна: операцията на Система 2 е зависела от фактите и внушенията, изникващи от асоциативната памет. Вероятно сте отхвърлили идеята, че републиканската политика осигурява защита срещу рака на бъбреците. Много вероятно е да сте се фокусирали върху факта, че окръзите с ниско разпространение на рак са предимно селски. Остроумните статистици Хауард Уейнър и Харис Зверлинг, от които научих за този пример, коментират: „И е лесно, и е изкушаващо да се опитаме да заключим, че техните ниски нива на рак се дължат пряко на чистотата, присъща на селския стил на живот – няма замърсяване на въздуха, няма замърсяване на водата, има достъп до прясна храна без добавки.“127 Това е напълно логично. Сега разгледайте окръзите, в които разпространението на рак на бъбреците е най-високо. Тези болни окръзи показват тенденцията да са предимно селски, слабо населени и намиращи се в традиционно републикански щати на американския Среден Запад, Юг и Запад. Уейнър и Зверлинг иронично коментират: „Лесно е да заключим, че техните високи нива на рак може да се дължат пряко на бедността на селския стил на живот – няма достъп до добро здравеопазване, налице е хранене със съдържащи много мазнини храни и консумация на твърде много алкохол, на твърде много тютюн.“ Тук има нещо сбъркано, разбира се. Селският стил на живот не може да обяснява както много високото, така и много ниското разпространение на рак на бъбреците. Ключовият фактор не е, че окръзите са предимно селски или преобладаващо републикански. Той е, че селските окръзи имат малобройно население. И основният урок, който трябва да научим, не е за епидемиологията, а за трудната връзка между нашия ум и статистиката. Система 1 е много умела в една форма на мислене – тя автоматично и без усилие идентифицира причинни връзки между събития, понякога дори когато връзката е фалшива. Когато ви съобщих за окръзите с високо разпространение, моментално сте допуснали, че тези окръзи са различни от други окръзи поради някаква причина, че трябва да има причина, която обяснява тази разлика. Както ще видим обаче, Система 1 е неумела, когато е изправена пред „чисто статистически“ факти, които променят вероятността на резултатите, но не ги причиняват. Едно случайно събитие по дефиниция не може да послужи само за обяснение, обаче натрупванията на случайни събития действително се държат по силно регулярен начин. Представете си голяма урна, пълна с топки. Половината от топките са червени, а другата половина бели. Сега си представете един много търпелив човек (или робот), който изважда наслуки от урната четири топки, записва броя на червените в извадката, връща ги обратно в урната и после прави всичко това отново много пъти. Ако обобщите резултатите, ще откриете, че резултатът „2 червени, 2 бели“ се случва (почти точно) 6 пъти по-често от резултата „4 червени“ или „4 бели“. Тази връзка е математически факт. Можете да предскажете резултата от повтарящото теглене на топки от урна точно толкова сигурно, колкото можете да предскажете какво ще се случи, ако ударите яйце с чук. Не можете да предскажете всяка подробност от начина, по който ще се разбие черупката, но можете да сте сигурни в общата идея. Тук има разлика: удовлетворяващото чувство за причиняване, което изпитвате, когато мислите за чука, удрящ яйцето, напълно липсва, когато мислите за тегленето на топките. Един близък статистически факт е релевантен на примера с рака. При същата урна идват двама много търпеливи броячи на топки. Джак тегли 4 топки при всеки опит, а Джил тегли 7. И двамата записват всеки път, щом наблюдават хомогенни извадки – всички топки да са бели или всички да са червени. Ако правят това достатъчно дълго, Джак ще наблюдава такива крайни резултати по-често от Джил – с коефициент 8 (очакваните проценти са 12,5% и 1,56%). Отново няма чук, няма причиняване, а имаме един математически факт: извадките от 4 топки дават по-често крайни резултати, отколкото извадките от 7 топки. Сега си представете населението на Съединените щати като топки в една гигантска урна. Някои топки са белязани с РВ, рак на бъбреците. Правите извадки от топки и населявате всеки окръг поред. Селските извадки са по-малко от другите извадки. Точно както при играта на Джак и Джил, крайни резултати (много високи и/или много ниски нива на рак) е най-вероятно да се открият в слабо населените окръзи. Това е всичко, което можем да кажем по тази история. Започнахме с един факт, който бе наречен причина: разпространението на рак варира широко в окръзите и разликите са системни. Обяснението, което предложих, е статистическо: крайни резултати (както високи, така и ниски) е по-вероятно да се намерят в малки, отколкото в големи извадки. Това обяснение не е причинно. Малкото население в един окръг нито причинява, нито предпазва от рак; то само позволява разпространението на рак да бъде много по-високо (или много по-ниско), отколкото е при по-голямо население. По-дълбоката истина е, че тук няма нищо за обясняване. Разпространението на рака не е наистина по-ниско или по-високо от нормалното в един окръг с малко население, то просто изглежда такова в определена година заради случайността на извадката. Ако следващата година повторим анализа, ще наблюдаваме същия общ моделна крайни резултати в малките извадки, но окръзите, в които ракът е бил често срещан миналата година, няма да имат непременно високо разпространение тази година. Ако е така, разликите между гъсто населените и селските окръзи реално не се смятат за факти: те са онова, което учените наричат артефакти, наблюдения, които се произвеждат изцяло от някой аспект от метода на изследването – в конкретния случай от разликите в размера на извадките. Историята, която ви разказах, може да ви е изненадала, но тя не е някакво откровение. Отдавна знаете, че резултатите от големите извадки заслужават повече доверие от малките извадки и дори хора, които нямат познания по статистика, знаят този закон на големите числа. Но „знаенето“ не е въпрос на „да“ – „не“ и може да откриете, че изложените по-долу твърдения са приложими към вас:
Характеристиката „слабо населен“ не изпъква моментално като релевантна, когато прочитате епидемиологичната история.
Вие сте поне умерено изненадани от размера на разликата между извадките от 4 и извадките от 7 топки.
Дори и сега ви е необходимо да упражните известно умствено усилие, за да видите, че следните две твърдения означават абсолютно едно и също:
големите извадки са по-точни от малките извадки.
малките извадки дават крайни резултати по-често от големите извадки.
Първото твърдение има ясен пръстен на истинност, но докато вторият вариант има интуитивен смисъл, не разбирате истински първото. Заключението: да, вие сте знаели, че резултатите от големите извадки са по-точни, но може би сега осъзнавате, че не сте го знаели много добре. Не сте единствени. Първото изследване, което направихме Амос и аз, показа, че дори опитните изследователи имат слаби интуиции и несигурно разбиране за ефектите от вземането на извадки.