Az emberek rengeteg inherens feltételezésre alapozva hozzák meg döntéseiket. Ezek annyira beépítettek a kultúránkba és a döntéshozatali „biológiai algoritmusainkba”, hogy nem feltétlenül tudatosulnak bennünk, ezért amikor a MI döntéshozatali folyamatait kódoljuk, nem feltétlenül kódoljuk beléjük. Egy sarkított és leegyszerűsített példa. Tegyük fel, hogy egy orvosi MI-ra bízunk egy olyan általánosan megfogalmazott célt, hogy csökkentse a kórházi fertőződések számát. Ha nem építünk be megfelelő korlátokat, akkor az MI egy olyan következtetésre juthat, hogy a páciens beérkezését követően kapott halálos adag morfiuminjekció az, ami a leghatékonyabban csökkenti a iatrogén (kórházban összeszedett) fertőződések számát. Ez egy olyan forgatókönyv, ahol nyilvánvalóan kilóg a lóláb, azonban nem mindenhol lehetnek a MI-nak ilyen nyilvánvaló döntéshozatali hibái. Lehetséges, hogy a MI egy olyan összetett következményláncolatot indít el, ahol az első következményszint teljesen ártalmatlannak, sőt, hasznosnak tűnik, és csak a harmadik, negyedik következményszinten bukkan elő a végzetes félrecsúszás, ami abban a szakaszban már nem orvosolható.
Egy jó beszélgetés ebben a témában:
Lex Fridman beszélgetése Sam Harrisszel (https://youtu.be/4dC_nRYIDZU)