Brin, D., Tau, N.
Cost-effectiveness of artificial intelligence tools in radiology: a systematic review.
Eur Radiol (2025).
DOI: 10.1007/s00330-025-12242-4
Bevezetés
A radiológia az elsők között alkalmazta a klinikai mesterséges intelligenciát (AI), egyre több eszközt vetve be a diagnosztikai pontosság javítása és a munkafolyamatok racionalizálása érdekében. 2025-re több mint 270 CE-jelöléssel ellátott radiológiai AI-termék lesz elérhető Európában [1], és több mint 950 FDA-engedélyezett AI-kompatibilis orvostechnikai eszköz tartalmaz radiológiai alkalmazásokat az Egyesült Államokban (USA) [2]. A jelentett felhasználás főként felmérési adatokon alapul, amelyek szerint az Egyesült Államok radiológiai osztályainak körülbelül kétharmada valamilyen formában használja az AI-t [3], míg Európában az alkalmazás aránya alacsonyabbnak tűnik, de fokozatosan növekszik [4,5,6,7].
A gazdasági életképesség kritikus fontosságú a fenntartható bevezetéshez, különösen az erőforrás-igényes egészségügyi rendszerekben, ahol a döntéshozatal a többletköltségektől és -haszonoktól függ [8, 9].
A gazdasági életképesség arra utal, hogy az AI-eszközök bevezetésének egészségügyi előnyei meghaladják-e a szükséges további pénzügyi beruházásokat. Ezek a beruházások általában magukban foglalják a szoftver kezdeti beszerzésével és a folyamatos éves előfizetési költségekkel, a számítástechnikai infrastruktúrával, a karbantartással, a klinikai munkafolyamatba való integrációval és a személyzet képzésével kapcsolatos költségeket [10]. Az AI bevezetésének költségei ritkán nyilvánosak, gyártónként és egészségügyi rendszerenként eltérőek, és gyakran alulbecsült tételeket tartalmaznak (pl. gyártói árképzési modellek, munkafolyamat-integrációs költségek, teljesítményfigyelés, modellfrissítések). Évente több tízezer vagy akár több százezer dollárba is kerülhetnek. A közzétett gazdasági modellek általában a költségeket több tízezer dollárra becsülik a beállítási költségek és az alacsony egy- vagy két számjegyű dollárösszegű tanulmányonkénti díjak alapján, néhány esetben pedig néhány száz dollárra becsülik a betegek számát [7, 11,12,13]. A gazdasági életképességet különböző típusú egészségügyi gazdasági elemzésekkel lehet értékelni, például költségminimalizálási elemzéssel (CMA) vagy költséghatékonysági elemzéssel (CEA).
Míg az AI-alkalmazások fejlesztői a hatékonyság növelését és a radiológiai munkaidő és költségek csökkentését állítják, kevés empirikus, valós bizonyíték van, amely nagymértékű, tartós időmegtakarítást igazolna [14,15,16,17,18,19]. Tudomásunk szerint eddig még nem készült olyan szisztematikus áttekintés, amely összefoglalná az AI radiológiai alkalmazásának költséghatékonyságára vonatkozó bizonyítékokat.
E szisztematikus áttekintés célja az volt, hogy értékelje a radiológiában alkalmazott AI-alapú eszközök költséghatékonyságára vonatkozó meglévő bizonyítékokat, betekintést nyújtson azok gazdasági életképességébe, és meghatározza a további vizsgálatra szoruló területeket.
Anyagok és módszerek
A PRISMA 2020 irányelveknek [20] megfelelően szisztematikus irodalomáttekintést végeztünk. A keresést a PubMed, a Cochrane Library, a Scopus, a Web of Science és az Embase adatbázisokban végeztük. A 2025. január 23-ig megjelent angol nyelvű cikkeket vettük figyelembe. A keresési stratégia magában foglalta a Medical Subject Headings (MeSH) és a „mesterséges intelligencia”, „radiológia” és „költséghatékonyság” kifejezésekkel kapcsolatos cím/absztrakt kifejezéseket. Az összes adatbázis teljes keresési szintaxisa a függelékben található.
A felvétel kritériumai a következőket értékelő tanulmányok voltak:
- radiológiai alapú mesterséges intelligencia beavatkozás képdiagnosztikában és -értelmezésben, valamint
- formális költségelemzés.
A szűrés során nem korlátoztuk az értékelés típusát vagy az egészségügyi eredmények mérőszámát. A megfelelő keretek között szerepelt a CMA, a CEA, a költség-haszon (CUA), a költség-haszon (CBA) és a költségvetési hatások elemzése (BIA). Kizártuk az eredeti költség- vagy eredményadatokkal nem rendelkező kéziratokat, a gazdasági elemzéssel nem rendelkező áttekintéseket, a nem angol nyelvű cikkeket, a kutatási protokollokat, a konferencia-összefoglalókat és a nem publikált (nem lektorált) tanulmányokat, a kizárólag fogászati képalkotásra összpontosító tanulmányokat (mivel azok inkább a fogászati gyakorlatra vonatkoznak, mint az általános diagnosztikai radiológiára), a képalkotó diagnosztikával vagy AI-képértelmezéssel közvetlenül nem kapcsolatos költségek értékelését, valamint a radiológiával nem kapcsolatos vagy AI-t nem tartalmazó kéziratokat.
Két bíráló (N.T. és D.B.) függetlenül vizsgálta a címeket és az absztraktokat a megfelelőség szempontjából. A teljes szövegek átvizsgálását is mindkét bíráló elvégezte, és az eltéréseket megbeszélés útján oldották meg, amíg konszenzusra nem jutottak. Az adatok kinyerését egy bíráló (D.B.) végezte egy szabványosított sablon segítségével, a második bíráló (N.T.) felügyelete alatt. A kinyert adatok között szerepeltek a tanulmány jellemzői (első szerző, folyóirat, év, ország, képalkotási módszer, radiológiai terület, AI szoftver), módszertani jellemzők (fizető perspektíva, modelltípus, kohort populáció, AI felhasználási eset és referencia beavatkozás), a tanulmány legfontosabb gazdasági eredményei és főbb korlátai.
A bevont tanulmányok módszertani minőségét szisztematikusan értékelték a mesterséges intelligencián alapuló beavatkozásokra vonatkozó egységes egészségügyi gazdasági értékelési jelentési szabványok (CHEERS-AI) ellenőrzőlistájának segítségével, amely az eredeti CHEERS 2022 38 tételből álló kiegészítése, és amelynek célja a mesterséges intelligencia beavatkozások gazdasági értékelésének átlátható jelentésének egységesítése [21].
Eredmények
A keresés 360 publikációt talált, amelyek közül tíz [12, 13, 22,23,24,25,26,27,28,29] felelt meg a beválasztási kritériumoknak és tartalmazott formális gazdasági értékeléseket a radiológiában alkalmazott AI eszközökről (1. ábra). Bár a kritériumok bármilyen formális gazdasági értékelést megengedtek, a felvett szakirodalom kilenc, minőségi életévekkel (QALY) és egy, fogyatékossággal korrigált életévekkel (DALY) alapuló CEA-t tartalmazott. CMA, CBA vagy BIA tanulmányokat nem azonosítottak.

Az 1. táblázat összefoglalja a tanulmányok jellemzőit, a 2. táblázat pedig bemutatja a legfontosabb gazdasági eredményeket és a jelentett korlátokat az egyes tanulmányok esetében. A tanulmányok tervezésének, a minta méretének és a modellezési feltételezéseknek a nagyfokú változatossága miatt nem volt lehetséges formális metaanalízis elvégzése. A CHEERS-AI alapú módszertani minőségértékelést a 3. táblázat foglalja össze. A 38 tételre vonatkozó általános megfelelés mérsékelt volt (medián megfelelési arány 0,68, tartomány 0,58–0,79). Az eredeti CHEERS alapvető tételeinek jelentése általában erős volt. Valamennyi tanulmány egyértelműen leírta modelljének indokait és felépítését, az analitikai módszereket és feltételezéseket, a bizonytalanság kezelését, az aktuális és árfolyamadatokat, valamint megfelelő részleteket szolgáltatott a tanulmány populációjáról, környezetéről, perspektívájáról, összehasonlító tényezőiről, eredményeiről, erőforrás-felhasználásáról és költségeiről, valamint főbb megállapításairól. Az egészségügyi gazdasági elemzési tervek és az időhorizont legalább részben minden tanulmányban szerepelt. Ezzel szemben az AI-specifikus jelentések változatosabbak voltak. A felhasználói autonómia, az AI hatásának mérése, a képzési adatok jellemzői, a validációs stratégia, az időbeli tanulás vagy frissítés, a végrehajtási követelmények és a populációs eredmények részletei gyakran csak részben szerepeltek a jelentésekben, vagy teljesen hiányoztak. Az AI teljesítményével kapcsolatos bizonytalanságokat következetesebben kezelték, mint más AI-specifikus területeket.
A tíz cikk mindegyike modellekkel (Markov-modellek, döntési fák vagy hibrid szimulációk) dolgozott, amelyeket gyakran megfigyelési kohorszokból vagy publikált tanulmányokból származó adatokkal paramétereztek. Azonban egyik tanulmány sem értékelte előre a költséghatékonysági eredményeket. A fizetők perspektívái között szerepelt az egészségügyi fizető (7/10), a társadalmi (2/10) és az egészségügyi szolgáltató (1/10).
A tíz tanulmány közül négy a rákszűrésében, többek között a mell- és tüdőrák szűrésében alkalmazott mesterséges intelligenciát értékelte. A többi tanulmány az akut stroke felismerésére, a fertőzések (COVID-19 és tuberkulózis) ellenőrzésére, valamint a véletlenszerűen felfedezett rendellenességek, például vesemasszák és csigolyatörések felismerésére összpontosított. Öt tanulmány kereskedelmi forgalomban kapható AI-szoftvereket értékelte, míg a többi helyi intézmények által fejlesztett eszközöket vagy elméleti modelleket használt. A tanulmányok többsége az Egyesült Államokból (5/10) vagy az Egyesült Királyságból (3/10) származó egészségügyi adatokat használt, egy-egy tanulmány pedig belga és pakisztáni adatokat.
A mellrák szűrés volt a leggyakrabban értékelt klinikai alkalmazás. Ezek az elemzések [12, 22, 24] az AI-t kockázatrétegző eszközként vagy másodlagos olvasóként értékelték, és eredményeiket következetesen a megfelelő egészségügyi rendszerek elfogadott fizetési hajlandóság (WTP) küszöbértékeinek határain belül vagy azok közelében jelentették. Egyes modellekben az AI-alapú szűrési stratégiák jelentős költségmegtakarításokkal jártak, a QALY-k (a várható élettartamot és az életminőséget ötvöző standard mérőszám) növekedése mellett.
Gazdasági besorolás szerint hét tanulmány jelentette, hogy az AI domináns (a modell feltételezései szerint hatékonyabb és olcsóbb) [13, 22, 23, 25,26,27,28]. Három tanulmány költséghatékony volt, de nem domináns [12, 24, 29]. Egyetlen tanulmány sem találta az AI-t egyértelműen „nem költséghatékonynak” az elsődleges eredményében.
Megbeszélés
Szisztematikus áttekintésünk során csak tíz olyan tanulmányt találtunk, amely az AI-eszközök költséghatékonyságát értékelte a diagnosztikai radiológiában. Ehhez képest az AI-nek a radiológiában betöltött szerepe gyorsan növekedett. Egy bibliometriai elemzés több mint 11 000 AI-vel és gépi tanulással kapcsolatos publikációt azonosított a radiológiával kapcsolatos területeken 2000 és 2021 között [30], és a konferencia-tevékenység is hasonlóan bővült: 2019 és 2024 között közel 300 AI-vel kapcsolatos ülésszakot tartottak a főbb nemzetközi találkozókon, köztük 110-et az RSNA 2024-en [31]. Ez a kontraszt aláhúzza a tanulmányunkban tárgyalt bizonyítékhiányt.
A radiológiában alkalmazott AI költséghatékonyságáról rendelkezésre álló tanulmányok túlnyomórészt elméleti modellezésen alapulnak, nem pedig a valós világból származó prospektív költségadatokon, és sokan nem kereskedelmi forgalomban kapható vagy prototípus AI-rendszereket értékelnek a széles körben alkalmazott klinikai szoftverek helyett.
Érdemes megjegyezni, hogy a legtöbb modell nyilvánosan elérhető amerikai és brit adatforrásokból merített adatokat, ami korlátozza az általánosíthatóságot a különböző egészségügyi rendszerekre. Bár a tanulmányok hatóköre, keretei és módszertana eltérő volt, a legtöbbjük arra a következtetésre jutott, hogy az AI-beavatkozások költséghatékonyak lehetnek, ha azokat a megfelelő egészségügyi rendszerek WTP-küszöbértékeivel mérik össze. Az amerikai elemzések a domináns stratégiáktól (alacsonyabb költségek és nagyobb hatékonyság a modell feltételezései alapján) a költséghatékony stratégiákig terjedtek, amelyek jóval alacsonyabbak voltak az általánosan elfogadott amerikai WTP küszöbértéknél (100 000–150 000 USD/QALY [32]). Hasonlóképpen, az egyesült királyságbeli tanulmányok eredményei a National Institute for Health and Care Excellence (NICE) küszöbértékeken belül vagy azok közelében voltak (20 000–30 000 font/QALY [33]).
Bár nem korlátoztuk az értékelés típusát, a rendelkezésre álló bizonyítékok kilenc QALY-alapú CUA-t és egy DALY-alapú CEA-t tartalmaztak, CMA, CBA vagy BIA nélkül, ami korlátozta a keretek közötti összehasonlításokat. A CUA-k részben azért dominálnak, mert ezek a preferált keretek a visszatérítés és a nemzeti egészségügyi technológiaértékelés (HTA) döntéseihez. Ugyanakkor az alternatív elemzési formák hiánya inkább az AI gazdasági értékeléseinek elvégzésében és jelentésében jelenleg fennálló hiányosságokat tükrözi, mintsem a mi áttekintésünk módszertani választását. Bár a legtöbb tanulmány QALY-alapú CUA-kat alkalmazott, ez a mutató nem feltétlenül tükrözi teljes mértékben az AI hatását a radiológiában, különösen a munkafolyamat hatékonyságának javítására tervezett eszközök esetében, amelyek közvetett hatással lehetnek az egészségügyi eredményekre, ahelyett, hogy azokat közvetlenül mérnék. Ilyen esetekben alternatív megközelítések, például CMA vagy időhatékonysági elemzések nyújthatnak relevánsabb betekintést.
Az bizonyítékok alapja korlátozott, mivel kizárólag elméleti modellezésre támaszkodik, nem pedig valós gazdasági adatokra. Az ilyen tanulmányok gyakran ideális feltételeket feltételeztek, például az AI-ajánlások 100%-os betartását, további munkafolyamat-késedelmek hiányát és rögzített algoritmus-teljesítményt, amelyek a mindennapi klinikai gyakorlatban nem feltétlenül állnak fenn. Ezek a feltételezések a költséghatékonyság túlbecsléséhez vagy alulbecsléséhez vezethetnek, és korlátozhatják a megállapítások külső érvényességét, különösen azokban a tanulmányokban, amelyek csak marginális költséghatékonyságról számolnak be, ahol a valós körülmények kis változásai megváltoztathatják a következtetéseket.
Az AI gazdasági hatásának értékelése a radiológiai gyakorlatban bonyolult feladat, mivel a megvalósítási modellek sokfélék (pl. használatonkénti vagy vállalati licencelés), a bevált munkafolyamatokba való integrálás kihívásokkal jár, a globális egészségügyi rendszerek (állami, félig állami vagy teljesen magán) között különbségek vannak, és az AI-hez alkalmazott standard gazdasági módszerek is eltérőek. Annak érdekében, hogy a döntéshozók beléphessenek a radiológiában az AI használatának erőforrás-igényes világába, a jövőbeli kutatásoknak olyan prospektív és pragmatikus tanulmányokra kell összpontosítaniuk, amelyek a klinikai gyakorlatban már AI-t alkalmazó egészségügyi rendszerek valós költség-, felhasználási és eredményadatait használják fel. Bár a központi gazdasági értékelési módszerek és jelentési szabványok jól megalapozottak (pl. QALY-k, inkrementális költséghatékonysági arány (ICER-ek), CHEERS), az AI-értékelések legfőbb kihívása az, hogy a diagnosztikai pontosságot és a munkafolyamatok változásait következetesen mérhető, betegszintű eredményekké és döntéshozatal szempontjából releváns költségekké alakítsák át, valamint az AI-specifikus költségelemek (licencelés, integráció és karbantartás, teljesítményfigyelés és modellfrissítések) átlátható jelentése. Áttekintésünkben gyakran hiányzott az AI-specifikus jelentés. Ennek egyik magyarázata lehet, hogy a legtöbb vizsgált tanulmány a CHEERS-AI 2024-es megjelenése előtt készült. A jelentési szabványok fejlődésével a CHEERS-AI kiterjesztés hasznos, domain-specifikus keretrendszert kínálhat az AI gazdasági értékeléseinek konzisztenciájának és átláthatóságának javítására, ahol ez alkalmazható.
A jövőbeli elemzéseknek a tervezett bevezetési környezetre vonatkozóan ország- vagy rendszerspecifikus költségadatokat is fel kell használniuk, mivel a rendszerek közötti átvihetőség korlátozott, és fontolóra kell venniük a költségek bemutatását az emberi erőforrás alternatíváival (pl. radiológusok fizetése) összefüggésben, hogy kontextusba helyezzék, valóban költségmegtakarítást jelent-e az AI.
A szolgáltatói szempontból végzett értékelések, amelyek tartalmazzák a tényleges beszerzési, integrációs és karbantartási költségeket, tovább javíthatják a döntések relevanciáját az intézményi vezetés számára.
A működési hatásokra vonatkozó adatok, például a munkafolyamatok változásai, a radiológusok termelékenysége és a downstream ellátás igénybevétele integrálása elengedhetetlen lesz az AI radiológiai gazdasági értékének átfogó megértéséhez. Eközben a gyártók termékeik költséghatékonyságára vonatkozó állításait óvatosan kell értelmezni, mivel nincsenek prospektív, valós költségelemzések.
Összegzésként elmondható, hogy a radiológiában alkalmazott mesterséges intelligencia költséghatékonyságára vonatkozó jelenlegi bizonyítékok korlátozottak, mivel az összes rendelkezésre álló tanulmány modellezett feltételezéseken alapul, nem pedig prospektív implementációs adatokon. Bár ezek az elemzések arra utalnak, hogy a mesterséges intelligencia bizonyos feltételek mellett számos diagnosztikai alkalmazásban költséghatékony lehet, eredményeiket korlátozza a módszertani heterogenitás és az idealizált feltételezések.
A jövőbeli kutatásoknak elsőbbséget kell adniuk a prospektív, standardizált gazdasági értékeléseknek, amelyek figyelembe veszik a valós teljesítményt, a költségeket és a munkafolyamatra gyakorolt hatást, hogy pontosabban meg lehessen határozni az AI értékét a klinikai radiológiai gyakorlatban.