Има съгласувана история, която обяснява всичко, което знае, и свързаността я кара да се чувства добре. Защо вярва, че е по-умен от пазара ли? Илюзията за умения! Тя е таралеж. Има теория, която обяснява всичко, и тя ѝ дава илюзията, че разбира света.
Въпросът не е дали тези експерти са добре обучени – а дали техният свят е предсказуем.
Глава 21
Интуиции срещу формули
Пол Мийл беше странен и удивителен човек и един от най-многостранните психолози на двадесети век. Сред специалностите, по които преподаваше в Университета на Минесота, бяха психологията, правото, психиатрията, неврологията и философията. Освен това е писал по въпроси на религията, политологията и изучаването на плъхове. Опитен статистик изследовател и страстен критик на празните твърдения в клиничната психология, Мийл беше и практикуващ психоаналитик. Написал е задълбочени есета върху философските основи на психологическото изследване, които почти бях научил наизуст, когато бях студент. Никога не се срещнахме, но той беше един от моите герои от времето, когато прочетох неговата книга „Клиничното спрямо статистическото предсказание: теоретичен анализ и преглед на данните“.
В тънката книжка, която той по-късно нарече „моята всяваща смут малка книжка“, Мийл разглежда резултатите от 20 изследвания, анализирани от него с оглед на това дали клиничните прогнози, базирани на субективните впечатления на обучени професионалисти, са по-точни от статистическите прогнози, направени чрез съчетаване на няколко пункта или класирания според дадено правило. В едно типично изследване опитни възпитатели предсказват оценките на новопостъпили студенти в края на учебната година. Възпитателите провеждат интервю с всеки студент в продължение на четиридесет и пет минути. Освен това те имат достъп до общия успех в гимназията, няколко теста за установяване на способностите и лично изявление от четири страници. Статистическият алгоритъм използва само част от тази информация: общия успех в гимназията и един тест за способностите. Независимо от това формулата е по-точна от 11 от общо 14-те възпитатели. Като цяло Мийл съобщава за сходни резултати в много други прогнозни резултати, включително нарушенията на честната дума при освобождаване от затвор, успеха в обучението за пилоти и криминалния рецидивизъм. Не е изненадващо, че книгата на Мийл предизвика шок и недоверие сред клиничните психолози, а дискусията, която започна от нея, породи поток от изследвания, които продължават и до днес, повече от петдесет години след публикацията ѝ . Броят изследвания, съобщаващи за сравнения на клинични и статистически прогнози, се увеличи до около двеста, но резултатът в състезанието между алгоритмите и хората не се промени. Около 60% от изследванията показват значително по-голяма точност в полза на алгоритмите. Останалите сравнения излизат еднакво точни, но един равен резултат е равносилен на победа за статистическите правила, които в нормалния случай са по-малко скъпи от експертната оценка. Нито едно изключение не е убедително документирано. Диапазонът на предсказаните резултати обхваща медицински променливи величини, като например продължителността на живот на болни от рак пациенти, продължителността на болничен престой, диагнозата на сърдечна болест и податливостта на бебета на синдрома на внезапната детска смърт; икономически мерки, като например перспективите за успех на нови бизнес предприятия, оценката на кредитни рискове от банки и бъдещата удовлетвореност от кариерата на работници; въпроси, представляващи интерес за правителствени агенции, включително оценките за годност за осиновители, шансовете за рецидивизъм сред непълнолетни закононарушители и вероятността за други форми на насилническо поведение; и разнородни резултати, като например оценката на научни изложения, победителите в игри на футбол и бъдещите цени на виното бордо. Всяка една от тези сфери е свързана със значителна степен на несигурност и непредсказуемост. Наричаме ги „среди с ниска вярност“. Във всеки отделен случай точността на експертите съответства или се надминава от прост алгоритъм. Както с оправдана гордост посочва Мийл тридесет години след публикуването на своята книга, „в социалната наука няма спор, който да показва такова голямо количество различни по качество изследвания, постигащи толкова еднозначни резултати в една и съща посока, както този“.217 Икономистът от Принстън и любител на виното Орли Ашънфелтър предлага убедителна демонстрация на силата на простата статистика, за да победи експертите със световна слава. Ашънфелтър иска да предскаже бъдещата стойност на изискани вина бордо на базата на информация, налична в годината на тяхното производство. Въпросът е важен, защото на изисканите вина са им необходими години, за да стигнат до най-високото си качество, и цените на отлежалите вина от едно и също лозе силно варират според различните реколти; бутилките, налети едва след дванадесет месеца, могат да се различават по стойност със степен и нагоре.218 Способността за предсказване на бъдещите цени е от голямо значение, защото инвеститорите купуват вино, подобно на произведения на изкуството, като очакват, че неговата стойност ще се повиши. По принцип има съгласие по това, че ефектът на реколтата може да се дължи само на вариации във времето по време на сезона на отглеждане на гроздето. Най-добрите вина се произвеждат, когато лятото е топло и сухо, което прави винарската промишленост на Бордо вероятно печеливша от глобалното затопляне. Полезни за индустрията са и влажните пролети, които увеличават количеството, без да оказват голям ефект върху качеството. Ашънфелтър превръща това конвенционално знание в статистическа формула, която предсказва цената на дадено вино – за определено стопанство и на определена възраст – чрез три особености на времето: средната температура през летния сезон на отглеждане на гроздето, количеството дъжд по време на гроздобера и общия валеж през предишната зима. Неговата формула осигурява точни прогнози за цените години и дори десетилетия в бъдещето. Всъщност неговата формула предсказва бъдещите цени много по-точно, отколкото го правят актуалните цени на младите вина. Този нов пример на „модел на Мийл“ е предизвикателство към способностите на експертите, чиито мнения помагат за формирането на ранната цена. Освен това той е предизвикателство към икономическата теория, според която цените трябва да отразяват цялата налична информация, включително времето. Формулата на Ашънфелтър е изключително точна – корелацията между неговите предсказания и действителните цени е над 0,90. Защо експертите се справят по-зле от алгоритмите? Една причина, за която подозира Мийл, е, че експертите се опитват да бъдат умни, мислят извън кутията и вземат предвид сложни комбинации от особености, когато правят прогнозите си. Сложността може да работи в отделния случай, но по-често намалява верността. Простите комбинации от особености са по-добри. Няколко изследвания показват, че хората, които вземат решения, се справят по-зле от формулата за предсказване дори когато им се дава резултатът, предложен по формулата! Те чувстват, че могат да отменят формулата, защото имат допълнителна информация за случая, но по-често грешат. Според Мийл има няколко обстоятелства, при които е добра идея да сменим преценката с формула. В един прочут мисловен експеримент той описва една формула, която предсказва дали определен човек ще отиде довечера на кино, и отбелязва, че е уместно формулата да се пренебрегне, ако се получи информация, че днес той си е счупил крака. Изразът „правилото за счупения крак“ се запази. Въпросът, разбира се, е, че счупените крака са много редки – колкото и решаващи. Друга причина за по-лошото качество на експертната оценка е, че хората са некоригируемо непостоянни при сбито оценяване на комплексна информация. Когато бъдат помолени да оценят една и съща информация два пъти, те често дават различни отговори. Степента на непостоянство често е предмет на действителна тревога. Опитни рентгенолози,219 които оценяват гръден кош като „нормален" или „абнормен“, си противоречат в 20% от случаите, когато видят една и съща снимка по отделни поводи. Изследване на 101 независими одитори, които са помолени да оценят надеждността на вътрешни корпоративни одити,220 разкриват сходна степен на непостоянство. Преглед на 41 отделни изследвания221 на надеждността на оценки, направени от одитори, патолози, психолози, ръководители на организации и други професионалисти, внушава, че това ниво на непостоянство е типично дори когато даден случай се оценява повторно в рамките на няколко минути. Ненадеждните оценки не могат да бъдат верни предсказатели на каквото и да било. Широко разпространеното непостоянство вероятно се дължи на крайната зависимост от контекста на Система 1. Знаем от изследвания на зареждането, че незабелязани стимули в нашата среда имат значително влияние върху нашите мисли и чувства. Тези влияния се колебаят в различните моменти. Краткото удоволствие от хладен бриз в горещ ден може да ни направи по-позитивни и по-оптимистични относно онова, което оценяваме в момента. Перспективите от пускането на затворник под честна дума могат да се променят значително с времето, което изминава между почивките за хранене222 в разписанието на съдиите. Тъй като имаме малко непосредствено знание за ставащото в ума ни, никога няма да знаем, че можехме да направим различна оценка или да стигнем до различно решение, ако обстоятелствата бяха малко по-различни. Формулите не страдат от такива проблеми. При подаването на еднакви данни те винаги връщат еднакъв отговор. Когато предсказуемостта е слаба – както е в повечето изследвания, прегледани от Мийл и неговите последователи, – непостоянството унищожава всяка прогностична вярност. Изследването води до изненадващ извод: за да се повиши максимално прогностичната точност, финалните решения би трябвало да бъдат предоставени на формулите, особено в среди с ниска вярност. Например при решенията за прием в медицинските училища финалното решение често се взема от членове на факултета, които провеждат интервю с кандидата. Данните са фрагментарни, но има солидни основания за следното предположение: вероятно провеждането на интервюто намалява точността на процедурата на подбора, ако интервюиращите вземат също и финалните решения за приема. Тъй като интервюиращите са уверени в своите интуиции, те ще придават твърде много тежест на личните си впечатления и твърде малко тежест на други източници на информация, намалявайки верността.223 По подобен начин и експертите, които оценяват качеството на неотлежало вино, за да предскажат бъдещето му имат източник на информация, който почти със сигурност влошава нещата, а не ги подобрява: те могат да вкусят от виното. Освен това, разбира се, дори ако имат добро разбиране за ефектите на времето върху качеството на виното, те няма да са способни да запазят постоянството на една формула. Най-важното развитие в областта след първия труд на Мийл е прочутата статия на Робин Доус „Грубата красота на неправилните линейни модели при вземането на решения“.224 Преобладаващата статистическа практика в социалните науки е да се придава тежест на различните предсказатели, като се следва алгоритъм, наречен множествена регресия, който сега се разви в конвенционален софтуер. Логиката на множествената регресия е неуязвима: тя намира оптималната формула за съставяне на претеглена комбинация от предсказателите. Доус обаче наблюдава, че комплексният статистически алгоритъм добавя малко стойност или изобщо не добавя такава. Човек може да направи същото, като избере набор от мерки, които имат известна обоснованост за предсказване на резултата и за съгласуване на стойностите, за да ги направи сравняеми (като използва стандартизация или класации). Една формула, която съчетава тези предсказатели с равни тежести, вероятно ще бъде също толкова точна в предсказването на нови случаи, колкото формулата на множествената регресия, която е била оптимална в първоначалната извадка. Едно по-ново изследване отива и по-нататък: формулите, които придават равна тежест на всички предсказатели, често са по-добри, защото не са повлияни от случайностите на извадката.225 Изненадващият успех на схемите с равна тежест има важен извод за практиката: възможно е да се развият полезни алгоритми без предварително статистическо проучване. Прости формули с равна тежест, базирани на съществуващата статистика или на здравия разум, често предсказват добре значителни резултати. В един паметен пример Доус показва, че брачната стабилност се предсказва добре чрез следната формула: