
Economic Value of AI in Radiology: A Systematic Review
Isabel M, Inka R, Jennifer E, Tugba Ai, Ali S. T, Michail E. K, Merel H, Gerhard A, Stephan N, Lisa A.
Radiology: Artificial Intelligence 2026; 8(1):e250090
Bevezetés
A képalkotó diagnosztika volumenének növekedése (1,2) és a munkaerőhiány együttesen jelentős munkafolyamatbeli kihívásokat teremtett a radiológiában.
A mesterséges intelligencia (AI) ígéretes eszközként jelent meg ezeknek a kihívásoknak a megoldásában. Az AI számos előnnyel jár a radiológiai munkafolyamatban, többek között javítja a diagnosztikai pontosságot (3,4), csökkenti a vizsgálati és kiértékelési időt (5), alacsonyabb sugárterhelést eredményez (6), optimalizálja a kontrasztanyagok használatát (7) és javítja az ütemezést (8–11).
Az AI bevezetése technikai, működési és gazdasági akadályok leküzdését igényli – ideértve a képarchívum és kommunikációs rendszer integrációját, az adatbiztonságot és a szabályozási előírások betartását –, miközben egyensúlyt kell teremteni a költségek és az erőforrások között.
Ez motiválja az AI-eszközök gazdasági értékének értékelését. A gazdasági érték a fogyasztó által érzékelt, az árazást befolyásoló haszonként definiálható. A gazdasági érték pénzügyi mutatókkal becsülhető meg, például a fizetési hajlandósággal (WTP), amely az orvostudományban az egészségügyi eredmények javulásától függ. Ezért egy kulcsfontosságú mutató, az inkrementális költséghatékonysági arány (ICER) általában a költségeket a minőségi életévekhez (QALY) viszonyítja. A gazdasági érték értékelhető a szolgáltató (pl. kórházi költségek) vagy a társadalom (pl. termelékenységi veszteség) szempontjából. A gazdasági érték értékeléséhez széles körben alkalmazzák a költséghatékonysági elemzéseket (12).
Annak ellenére, hogy számos tanulmány vizsgálta az AI technikai képességeit a radiológiában, a gazdasági értékelések továbbra is ritkák. Ez a hiányosság különösen szembetűnő, tekintve, hogy 2015 óta 3,5 milliárd amerikai dollárt (USD) fektettek be az orvosi képalkotó AI-ba (13). Az AI valódi költséghatékonyságának megértése elengedhetetlen a bevezetésével, megtérülésével és a klinikai gyakorlatban betöltött szerepével kapcsolatos, bizonyítékokon alapuló döntések meghozatalához. A szabályozói jóváhagyás azonban gyakran megelőzi a megbízható klinikai vagy gazdasági validálást.
Ezeknek a kérdéseknek a megoldása érdekében elemeztük az AI-eszközök radiológiai gazdasági értékére vonatkozó bizonyítékokat, beleértve minden olyan típusú tanulmányt, amely számszerűsíthető gazdasági eredményeket, például költségeket vagy ICER-t nyújt, függetlenül a perspektívától (egészségügyi szolgáltató/társadalom).
Ez a szisztematikus áttekintés a következőket célozza:
- összefoglalni a jelenlegi bizonyítékokat az AI gazdasági értékéről a teljes radiológiai munkafolyamatban, a tervezéstől a diagnózisig, a kezelés tervezéséig és a számlázásig;
- értékelni a meglévő gazdasági elemzések minőségét a kialakult keretek felhasználásával; és
- azonosítani a kritikus ismerethiányokat a jövőbeli kutatási és befektetési döntések irányítása érdekében.
Anyagok és módszerek
Ez a szisztematikus irodalomáttekintés előzetesen regisztrálásra került a SPROSPERO-ban (CRD42024588552 [14]). Az eredeti protokoll a PROSPERO platformon elérhető, az esetleges változtatások a S1. mellékletben vannak leírva. A helyi etikai bizottság (Ärztekammer Hamburg, Németország) szerint a publikált adatok irodalomáttekintéséhez nem volt szükség jóváhagyásra. A jelentés a szisztematikus áttekintések és metaanalízisek preferált jelentési elemeinek (azaz PRISMA) 2020 irányelveit követi (lásd a S2. mellékletet). Ez a tanulmány nem kapott finanszírozást, és a szerzők kijelentik, hogy nincsenek összeférhetetlenségi érdekeik. A megállapításokat alátámasztó adatok a szerzőtől kérhetők. Az egészségügyi gazdasági kifejezések szótára az 1. táblázatban található:
| Rövidítés |
Teljes név |
Leírás |
| CHEQUE |
Egészségügyi gazdasági minőségértékelés kritériumai |
Egészségügyi gazdasági minőségértékelés kritériumai A költséghatékonysági elemzések minőségének értékelésére szolgáló keretrendszer, amelyet 2023-ban fejlesztettek ki. Más keretrendszerekkel ellentétben megkülönbözteti a módszer minőségét és a jelentés minőségét, és lehetővé teszi a különböző minőségi tulajdonságok relatív fontosságának számszerűsítését.
|
| CHEERS |
Egységesített egészségügyi gazdasági értékelési jelentési szabványok |
Az egészségügyi gazdasági értékelések minőségének értékelésére szolgáló, bevált keretrendszer, amely a kézirat minden részének (pl. cím, összefoglaló, módszerek, eredmények) jelentésminőségére összpontosít.
|
| CEA |
Költséghatékonysági elemzés |
Gazdasági értékelési módszer, amely összehasonlítja a beavatkozások relatív költségeit és eredményeit (hatásait); így lehetővé teszi egy adott eredmény (hatás) elérésének leghatékonyabb módjának meghatározását azáltal, hogy értékeli a beavatkozás értékét a költségéhez viszonyítva.
|
| ICER |
Inkrementális költséghatékonysági arány |
A CEA-kban használt kulcsfontosságú mutató, amelyet úgy számolnak ki, hogy két beavatkozás (vagy beavatkozás és kontroll) közötti költségkülönbséget elosztják a hatásuk közötti különbséggel; így az egy további hatásegység (pl. QALY-nkénti egészségügyi haszon) eléréséhez szükséges többletköltséget jelenti.
|
| QALY |
Minőségi életév |
Az élet mennyiségét és minőségét ötvöző mérőszám. Egy QALY egy év tökéletes egészségnek felel meg; nulla QALY a halálnak felel meg. Egy rossz egészségi állapotban eltöltött év ezért kevesebbet ér, mint egy tökéletes egészségben eltöltött év. A QALY tehát nemcsak azt veszi figyelembe, hogy a beteg mennyi ideig él, hanem azt is, hogy milyen minőségű életet él. A QALY-t általában eredménymérőként használják az egészségügyi gazdasági értékelésekben.
|
| WTP |
Fizetési hajlandóság |
Az a maximális összeg, amelyet egy egyén vagy a társadalom hajlandó fizetni egy tárgyért vagy szolgáltatásért. Az egészségügyi rendszerben a WTP általában az egészség javulására (például egy QALY) vagy egy negatív eredmény elkerülésére utal. Ha egy beavatkozás ICER-en alapuló költségei alacsonyabbak, mint például egy egészségügyi rendszer WTP-küszöbértéke, akkor azt költséghatékonynak tekintik az adott egészségügyi rendszer számára.
|
A felülvizsgálat három fő célját módszertanilag a következőképpen kezelték:
- az AI gazdasági értékére vonatkozó bizonyítékok összefoglalása és a tanulmányok munkafolyamat-fókuszuk szerint történő kategorizálása;
- a meglévő gazdasági elemzések minőségének értékelése a CHEQUE (Criteria for Health Economic Quality Evaluation) eszköz felhasználásával; és
- a szakirodalomban és a szakértői elemzésekben fellelhető hiányosságok azonosítása.
Szisztematikus irodalomkutatás
A PubMed-et, mint a biomedicinális irodalom globális standardját (15), valamint az EconLit-et és a Business Source Ultimate-ot, mint a gazdasági irodalom kiterjedt forrásait kerestük. A keresés 2010 januárjától 2024 novemberéig terjedő cikkeket tartalmazott, tükrözve az AI-kutatás gyors növekedését: 2010-ben évi 3891 cikkről 2024-re évi 49 739 cikkre. A keresési stratégiák a Medical Subject Headings (azaz MeSH) és az AI-t, a radiológiát és a gazdasági eredményeket lefedő kulcsszavakat (pl. „mesterséges intelligencia”, „költséghatékonyság”) kombinálták. Az EconLit és a Business Source Ultimate adatbázisokban hasonló módon kerestünk, a „radiológia” szót a teljes szövegben kerestük, mivel a címekben és az absztraktokban korlátozott eredményeket kaptunk. A részletes keresési stratégiák a S3. mellékletben találhatók.
Kiválasztási folyamat
A kiválasztás kritériumai közé tartoznak azok az eredeti kutatási cikkek, amelyek a radiológiában alkalmazott mesterséges intelligenciát értékelik, és kifejezetten számszerűsítik a gazdasági eredményeket (költségek, költségmegtakarítások, költséghatékonyság, ICER, bevételek, nettó pénzügyi előnyök vagy befektetési megtérülés). A kizárási kritériumok között szerepeltek a preprintek, a nem angol nyelvű teljes szövegek, a puha gazdasági eredményekkel rendelkező tanulmányok (pl. időmegtakarítás költségek számszerűsítése nélkül), a nem klinikai kontextusok, valamint azok, amelyek nem radiológiai AI-eszközöket hasonlítottak össze radiológiai alkalmazásokkal (pl. AI-alapú elektrokardiogram-elemzések összehasonlítása nem AI-alapú kardiális MRI-vel [16]).
Egy bíráló (I.M., 6 éves tapasztalattal rendelkező radiológus, egészségügyi közgazdaságtanból szerzett MBA) átnézte az összes cím/összefoglaló és a potenciálisan alkalmas cikkek teljes szövegét. Egy második bíráló (L.A., 8 éves tapasztalattal rendelkező radiológus, >2 éves közgazdasági képzéssel) újraértékelte a felvett tanulmányokat és a nem egyértelműen alkalmas tanulmányokat (példákért lásd az 1. ábrát és a legenda); az eltéréseket konszenzussal oldották meg.

Adatkinyerés
Az első bíráló (I.M.) kivonta a tanulmány jellemzőit (szerzőség, év, AI típus, képalkotási módszer, összehasonlítási szabványok) és a gazdasági paramétereket, beleértve a költségforrásokat, az alapeset-forgatókönyveket, az AI-költségeket, a perspektívákat, az időhorizontot, a diszkontálást, a hasznosság súlyozását és a gazdasági eredményeket (pl. teljes költségek, ICER-ek, QALY-hez kapcsolódó mutatók). A hiányzó adatokat „nem meghatározott” jelöléssel látták el. A második bíráló (L.A.) ezután ellenőrizte az összes kivont információ pontosságát és teljességét. Bármely eltérést, például a költségdefiníciók eltérő értelmezését vagy a potenciálisan hiányos eredményadatokat, mindkét bíráló megvitatta, amíg konszenzusra nem jutottak.
A torzítás kockázatának értékelése
A meglévő eszközök, mint például a Consolidated Health Economic Evaluation Reporting Standards (CHEERS) (17) és a Quality of Health Economic Studies (18) a jelentések minőségét vagy a dichotóm ítéleteket hangsúlyozzák. Ezért a CHEQUE eszközt (19) használtuk, amely 24 tételt értékel mind a módszer, mind a jelentés minősége tekintetében, és lehetővé teszi a „valamennyire” minősítést a részleges teljesítés esetén. Értékeli a módszertani robusztusságot (pl. a tanulmány tervezése, statisztikák) és a jelentés átláthatóságát. A területek közé tartoznak például a döntés hatálya, az eredmények mérése, az időhorizont, a diszkontálás és a költségek/erőforrások felhasználása. Az elemeket „igen”, „kissé”, „nem” vagy „nem alkalmazható” kategóriákba soroltuk, ahol a „nem alkalmazható” kategória fontos volt azoknak a tanulmányoknak a figyelembevétele szempontjából, amelyek nem kapcsolták össze a költségeket az egészségügyi eredményekkel. Két bíráló (I.M., L.A.) függetlenül értékelte az összes elemet; az eltérő véleményeket konszenzussal oldottuk meg.
Szintézis módszerek
Mivel a tanulmányok tervezése (valós világ vs. modellezett), a statisztikai módszerek és az eredmények mérése (pl. ICER vs. teljes költségek) heterogén volt, meta-elemzés nem volt lehetséges (20). Az összes alkalmas tanulmányt kvalitatív módon szintetizálták. Adatátalakításra vagy -konverzióra nem volt szükség. A tanulmányok módszereinek és eredményeinek részleteit táblázatos formában, a célokat, a tervezést és az eredményeket pedig narratív formában összegeztek. Az összehasonlítás érdekében a tanulmányokat AI-típus szerint csoportosították.
Ebben a felülvizsgálatban a mélytanulási eszközök olyan AI-alkalmazásokat jelentenek, amelyek többrétegű neurális hálózatokat (pl. konvolúciós neurális hálózatok, ResNets) használnak, amelyek közvetlenül feldolgozzák a nyers képalkotási adatokat olyan feladatokhoz, mint a szegmentálás, a léziók észlelése vagy a jellemzők kivonása. A gépi tanulási tanulmányok egy szélesebb kategóriát ölelnek fel, beleértve a hagyományos algoritmusokat és az egyszerűbb neurális hálózatokat, amelyek általában strukturált, előfeldolgozott adatokra és manuálisan megtervezett jellemzőkre támaszkodnak a prediktív modellezés, osztályozás vagy munkaterhelés-becslés céljából.
A felülvizsgálat harmadik célja érdekében a szerzők (I.M., L.A.), akik radiológiai és egészségügyi közgazdasági háttérrel rendelkeznek, szisztematikus felülvizsgálat és szakértői összefoglalás alapján azonosították a radiológiában alkalmazott AI gazdasági értékével kapcsolatos ismerethiányokat.
Eredmények
A tanulmányok kiválasztása
A szisztematikus keresés 1795 találatot azonosított a PubMed-ben, 73-at a Business Source Ultimate-ban és 11-et az EconLit-ben (1. ábra). A PubMed legtöbb találata a címében vagy az összefoglalójában hivatkozott a költségmegtakarításra vagy a költséghatékonyságra, de nem tartalmazott konkrét adatokat vagy számszerűsítést. Az első szűrés után 16 duplikátumot kizártunk. A 31 áttekintésből 11 cikk származott, de kettő közülük korábban már azonosított tanulmányok duplikátuma volt. Összesen 88 teljes szöveget értékeltünk. A legtöbb kizárt tanulmány számszerűsítés nélkül feltételezte a költségmegtakarítást, nem tartalmazott radiológiai kontextust, vagy nem volt elégséges a módszertani részletesség (48–57,78,80) (S1. táblázat). Az 1879 átvizsgált PubMed-publikációból végül 21 (1%) került be a tanulmányba. A Business Source Ultimate és az EconLit adatbázisokból egyik sem volt alkalmas (részletek a S3. függelékben).
A kiválasztott tanulmányok jellemzői
A felülvizsgálat eredményeinek összefoglalását a 2. ábra tartalmazza. A 21 tanulmány közül 81% (17/21) 2020 után jelent meg, ami tükrözi a radiológiai AI-kutatások gyors növekedését; 48% (21-ből 10) a gépi tanulásra összpontosított, amelyek közül 10-ből 9 mélytanulást alkalmazott; egyéb AI-típusok között szerepelt a számítógépes diagnosztika (CAD) (21-ből 7, 33%), a természetes nyelvfeldolgozás (NLP) (21-ből 2, 10%) és hipotetikus AI-eszközök (21-ből 2, 10%). A képalkotó módszerek között szerepelt a CT (21-ből 6, 29%), a radiográfia (21-ből 5, 24%), a mammográfia (21-ből 4, 19%) és az MRI (21-ből 3, 14%), a mellkas, az emlő és az agy voltak a leggyakrabban vizsgált anatómiai régiók.

A tanulmányok az Egyesült Királyság, az Egyesült Államok, Japán, Brazília, Malawi és más országok állami és magán egészségügyi rendszereit vizsgálják. Az egészségügyi rendszerek közötti különbségek jelentősen befolyásolják a költséghatékonyságot. A politikai döntéshozóknak figyelembe kell venniük ezt a heterogenitást, amikor az eredmények általánosíthatóságát értelmezik.
A klinikai alkalmazás tekintetében a legtöbb tanulmány az emlőrák szűrésére (21–24), vagy a tuberkulózis szűrésére (25–28) összpontosított, majd a tüdőrák szűrésére (29,30), az opportunisztikus szűrésre (31,32), a stroke diagnosztikájára (33,34) és a trombolízis döntéshozatalára (35), a differenciáldiagnosztikára (pl. májbetegségek [36], vesetumorok [37], COVID diagnosztika [38]). Egyedi tanulmányok foglalkoztak a tumorok szegmentálásával és osztályozásával (39), az MRI képalkotás gyorsításával (40) vagy a követési ajánlások betartásának javításával (8) (S2. táblázat). A tanulmányok eloszlását a radiológiai munkafolyamat és a szubszpecialitások között a 3. ábra mutatja.

A tanulmányok minőségének értékelése
A 4. ábra és az S3 táblázat összefoglalja a tanulmányok minőségét. Összességében a jelentések minősége meghaladta a módszertani minőséget. A gépi tanulásról szóló tanulmányok kapták a legmagasabb pontszámot (70% módszertan, 73% jelentés). A hipotetikus AI-eszközök jól teljesítettek (77%), de a módszertani pontszámok kissé alacsonyabbak voltak (66%). A CAD-tanulmányok átlagosan 60% (módszer) és 75% (jelentés) pontszámot értek el. Az NLP-tanulmányok kapták a legalacsonyabb pontszámot (40% módszertani minőség, 59% jelentésminőség), de ezek voltak a legkisebb alcsoport (21-ből 2), ami korlátozta a megbízható következtetések levonásának lehetőségét.
A tanulmány eredményei
A CAD, a gépi tanulás, az NLP és a hipotetikus AI eszközök módszereit és eredményeit a 2–4. táblázat és az S4 táblázat foglalja össze.
CAD-re vonatkozó tanulmányok
Hét tanulmány értékelte a CAD-eszközöket a tuberkulózis kimutatására és az emlőrák szűrésére. A tuberkulózis kimutatását illetően Bashir és munkatársai (25) megállapították, hogy a CAD költséghatékony megoldás a tünetmentes populációk nagyszabású szűrésére, 5%-os távoli radiológus felügyelettel. Philipsen és munkatársai (28) a tuberkulózis kimutatásának megnövekedett költségeiről számoltak be, amikor a CAD emberi szintű diagnosztikai küszöbértékekkel működött. MacPherson és munkatársai (26) egy nagyon érzékeny küszöbértékkel értékelték a CAD-alapú tuberkulózis-szűrést Malawiban, és arra a következtetésre jutottak, hogy az nem költséghatékony a standard ellátáshoz képest. Hasonlóképpen, Santos és munkatársai (27) egy specifikusabb küszöbértéket alkalmaztak ugyanazon CAD-eszközre brazil börtönökben, ami csökkentette az érzékenységet a standard ellátáshoz képest, és magasabb költségeket eredményezett (27).
Az emlőrák esetében Sato és munkatársai (22) megállapították, hogy a CAD-támogatott, egyetlen olvasó által végzett munkafolyamatok drágábbak voltak, mint a hagyományos kettős olvasás, de nagy szűrési volumenek (≥2000 eset) és 87% feletti CAD-specifikusság esetén költséghatékonnyá váltak. Guerreiro és munkatársai (24) arra a következtetésre jutottak, hogy a CAD növelte a költségeket olyan környezetben, ahol a radiológusok rövid olvasási idővel rendelkeztek (<0,5 perc betegenként), de költségmegtakarítást eredményezett, amikor az emberi olvasási idő meghaladta az 1,5 percet. Killelea és munkatársai (23) a CAD 2001 és 2008 közötti valós bevezetését vizsgálták, és megállapították, hogy az emelte az egyes további rákos megbetegedések felismerésének költségeit; a tanulmány azonban részben elavult mammográfiai technológián alapult. Összességében a CAD költséghatékonysága nagyban függött a szűrési mennyiségtől, az engedélyezési modellektől és a diagnosztikai teljesítménytől.
Gép tanulással kapcsolatos tanulmányok
Ezek a tanulmányok számos klinikai alkalmazást vizsgáltak, többek között az opportunista szűrést, a tüdőrák szűrést, az emlőrák szűrést, a COVID-19 diagnosztikát, a veseelváltozások kimutatását, a neuroradiológiai diagnosztikát és a gyorsított képalkotást.
Curl és munkatársai (31) megállapították, hogy az AI költséghatékony az opportunisztikus osteoporosis szűrésben, ha a WTP küszöbérték 50 000–100 000 USD/QALY. Azonban a röntgendiagnosztika alacsony térítési aránya korlátozhatja annak pénzügyi életképességét. Hasonlóképpen, Pickardt és munkatársai (32) értékelték az AI-t az opportunista CT szűrésben a kardiovaszkuláris kockázat és a szarkopénia kezelésének irányítására. Bár az AI a legtöbb kor- és nem-specifikus forgatókönyvben költséghatékonyabb volt, mint az összes vagy egyáltalán nem kezelés, a tanulmány nem tartalmazott összehasonlítást a hagyományos kockázatértékelési módszerekkel.
A tüdőrák szűrésében Ziegelmayer és munkatársai (30) kimutatták, hogy egy magas diagnosztikai pontosságú (érzékenység: 97,7%; specifitás: 98,4%) AI-eszköz költséghatékonyabb. 100 000 USD/QALY WTP küszöbértéknél az AI költségei 1240 USD-ig elfogadhatónak maradtak. Adams és munkatársai (29) szintén beszámoltak az AI-al kapcsolatos költségmegtakarításokról a tüdőrák szűrésében, bár a tanulmány nem tartalmazott szigorú statisztikai elemzést.
Vargas-Palacios és munkatársai (21) voltak az egyetlen kutatócsoport, amely mélytanulást nem alkalmazó gépi tanulási tanulmányt végzett. A gépi tanulást az emlőrák szűrésére alkalmazták. 20 000 font/QALY WTP küszöbérték mellett az AI-támogatott modell egyetlen emberi olvasással kombinálva hasonlóan költséghatékony volt, mint a kettős emberi olvasás, ha az érzékenység és a specifitás megegyezett az emberi olvasáséval. Különösen figyelemre méltó, hogy a magasabb specifitás indokolta az AI-vel kapcsolatos magasabb költségeket.
Esposito és munkatársai (38) az AI alkalmazásait vizsgálták a COVID-19 kezelésében, de gyenge módszerekre és feltételezésekre támaszkodtak, ami korlátozta a tanulmány megbízhatóságát.
A vese diagnosztikában Marka és munkatársai (37) arról számoltak be, hogy az AI költséghatékony a veseléziók kezelésében; azonban alapesetükben irreálisan alacsony emberi specifitást (<38%) feltételeztek (38).
A neuroradiológiai alkalmazások tekintetében Ruffle és munkatársai (39) az AI használatával a glióma pontozásában költségcsökkenést jelentettek, de nem vették figyelembe a szoftverköltségeket, és nem végeztek formális költséghatékonysági elemzéseket. Mansour és munkatársai (35) azt állították, hogy az AI a stroke értékelésében felülmúlta a hagyományos távközlési módszereket (pl. mobiltelefonon és WhatsAppon keresztül küldött képek), de a tanulmányt jelentős módszertani korlátok gyengítették.
Végül Brix és munkatársai (40) értékelték az AI-t az MRI-felvételek gyorsításában, ami potenciális kapacitásnövekedést és költségmegtakarítást eredményezhet. A tanulmány azonban nem hasonlította össze a standard gyakorlatot, és nem értékelte a befektetés megtérülését sem.
NLP-el és hipotetikus AI-modellekkel kapcsolatos tanulmányok
Guo és munkatársai (36) értékelték a ChatGPT-4 és a GPT-4o alkalmazásokat a májbetegségek diagnosztizálásának előrejelzésében. Megállapították, hogy az AI diagnosztikai pontossága megegyezett az emberi diagnosztikai pontossággal (60–80%), és feltételezve, hogy az AI költsége nulla, olcsóbb volt. A tanulmány módszertani minősége azonban a legrosszabb volt a vizsgált tanulmányok közül. Roth és munkatársai (8) mesterséges intelligenciát alkalmaztak a radiológiai leletekben szereplő, még nem teljesített utánkövetési ajánlások azonosítására, majd ezt követően ápolók vezették a vizsgálatok ütemezését. Bár a tanulmány pozitív nettó pénzügyi hasznot jelentett, a mesterséges intelligencia szoftverének és bevezetésének költségeit nem közölték, ami korlátozta a tanulmány gazdasági átláthatóságát.
Bharadwaj és munkatársai (33) pozitív befektetési megtérülést jósoltak egy hipotetikus AI-platformra, amely ötvözi a betegkezelést és a képi diagnosztikát. Hasonlóképpen, van Leeuwen és munkatársai (34) modelleztek egy hipotetikus AI-eszközt a stroke felismerésére, amelynek gazdasági és klinikai előnyeit jósolták a jobb eredmények és a csökkent társadalmi költségek miatt. Ezek az eredmények azonban nagymértékben támaszkodtak az AI érzékenységének feltételezett, az embernél jobb teljesítményére
Azonosított ismerethiányok
Annak ellenére, hogy egyre növekszik az érdeklődés az AI radiológiai alkalmazása iránt, a formális gazdasági értékelések továbbra is korlátozottak: az 1879 átvizsgált publikációból csak 21 tanulmányt azonosítottak. A legtöbb tanulmány szűken a diagnosztikai alkalmazásokra összpontosít, míg a radiológiai munkafolyamat egyéb szakaszait – például a képalkotást, a triázst vagy a nyomon követést – ritkán értékelik (3. ábra).
A klinikai gyakorlatban már bevezetett AI-eszközök gazdasági értékelései ritkák. A legtöbb tanulmány inkább feltételezéseken, mint valós adatokon alapul, ami korlátozza gyakorlati relevanciájukat és hasznosságukat a tájékozott befektetési vagy politikai döntések meghozatalában.
Jelentős módszertani hiányosságok is fennállnak. A jelenlegi minőségértékelő eszközök szilárd határok között működnek, általában vagy a gazdasági értékeléssel (pl. CHEERS), vagy az AI-tanulmányok tervezésével és a jelentések minőségével (pl. a frissített Checklist for Artificial Intelligence in Medical Imaging [CLAIM] [41]) foglalkoznak, vagy az AI-képalkotó eszközök széles körű értékelését végzik (42). Nem találtunk azonban olyan átfogó pontozási rendszert, amely egyszerre venné figyelembe az AI-eszközök műszaki teljesítményét, klinikai relevanciáját és gazdasági hatását. Ez a hiányosság oda vezethet, hogy a robusztus gazdasági modellezéssel, de klinikailag marginális AI-eszközökkel rendelkező tanulmányok túlzottan magas értékelést kapnak. Ennek orvoslására olyan integrált értékelési keretrendszerre van szükség, mint amilyen az 1. ábrán látható, amely együttesen értékeli az AI-eszközök műszaki érvényességét, klinikai hasznosságát és gazdasági hatását. Az összes bevont tanulmány és azok eredményeinek áttekintése a 2. ábrán is látható.
Megbeszélés
Ez a szisztematikus áttekintés összefoglalja a radiológiában alkalmazott mesterséges intelligencia gazdasági értékére vonatkozó jelenlegi bizonyítékokat, értékeli a meglévő gazdasági elemzések minőségét, és azonosítja a legfontosabb ismerethiányokat.
A feladat komplexitása és az árképzési modellek a költséghatékonyság központi meghatározó tényezőiként jelentek meg. Az 1879 átvizsgált publikáció közül csak 21 felelt meg a felvételi kritériumoknak, és a legtöbb tanulmány módszertani szigorúságát (CHEQUE kritériumok) közepesnek vagy gyengének értékelték, ami rávilágít arra a kihívásra, hogy a mesterséges intelligencia potenciálját hogyan lehet átültetni a valós klinikai gyakorlatba.
Négy fő megállapítás született:
- az orvosi képalkotásban alkalmazott AI gazdasági értéke nagy volumenű vagy erőforrás-korlátozott környezetben jelentkezik;
- a költséghatékonyság erősen függ a licencmodellektől;
- a valós adatok magasabb költségeket mutatnak, mint a hipotetikus AI-eszközökre vonatkozó modellezési tanulmányok feltételezései;
- sok értékelés nem elég módszertanilag szigorú, vagy nem veszi figyelembe az egészségügyi eredményeket vagy a különböző egészségügyi rendszereket.
---
- az AI főként nagy volumenű, erőforrás-igényes feladatokban mutat gazdasági értéket, ahol pontossága megegyezik vagy meghaladja az emberi teljesítményt, vagy ahol radiológushiány van (22,25,28). Erőforrás-gazdag környezetben (pl. tüdőrák szűrés) az AI csökkenti a munkaterhelést, miközben megőrzi a pontosságot (29). Az alacsonyabb komplexitású feladatok, például a mellkasröntgenek esetében az AI csak korlátozott előnyt kínál, kivéve az emberi erőforrások szűkösségével jellemzett környezeteket, például a tuberkulózis szűrést Pakisztánban (25).
- a költséghatékonyság nagyon érzékeny a fizetési struktúrákra. A fix árú licencelés általában jobban teljesít, mint a használat alapú fizetési modellek, különösen a nagy volumenű környezetben. Például Killelea és munkatársai (23) megállapították, hogy a mellrák szűrés használatonkénti fizetés esetén költséges, míg Bashir és munkatársai (25) kimutatták, hogy a fix árú licencelés hatékony a tuberkulózis szűrésében.
- a valós világban végzett tanulmányok gyakran emelkedett költségekről számolnak be (23,24), míg a hipotetikus AI-eszközökre vonatkozó modellezési tanulmányok inkább megtakarításokat jósolnak (33,34). Killelea és társai (23) arról számoltak be, hogy a mammográfiás szűrés egy főre jutó költségei 2001 és 2008 között 44 dollárról 63 dollárra emelkedtek a digitalizálás és a CAD használata miatt, a Medicare kiadásai pedig 666 millió dollárról 962 millió dollárra nőttek. Guerriero és társai (24) hasonló költségnövekedést tulajdonítottak a licencdíjaknak és a csökkent specifitásból eredő magasabb visszahívási arányoknak.
- sok gazdasági értékelés nem volt módszertanilag szigorú és interdiszciplináris. A tanulmányok közel fele csak a költségekkel foglalkozott (23,25,28,29,36,39,40), kihagyva a gazdasági értékértékeléshez szükséges alapvető egészségügyi eredményeket. Az AI-vel kapcsolatos kiadásokat gyakran nem jelentették megfelelően (8,35,36), és az egészségügyi rendszer különbségei jelentősen befolyásolták a gazdasági eredményeket. Például a WTP küszöbértékek 400 USD/QALY-tól Malawiban (26) 100 000 USD-ig terjedtek az Egyesült Államokban és Európában (30,32,37), vagy az afrikai környezetben hatékonyan alkalmazott megoldások, mint például a WhatsApp (pl. Mansour et al [35]), nem felelnének meg a magas jövedelmű országok adatvédelmi törvényeinek. Ezért az árstruktúrák és a klinikai munkafolyamatok alapvetően meghatározzák az AI költséghatékonyságát a különböző egészségügyi környezetben. Egy másik figyelmen kívül hagyott tényező a „teljesítményeltérés” volt, amelynek során a frissítések vagy az adatok változása megváltoztatja az AI teljesítményét, ami hatással van a hosszú távú költséghatékonyságra.
A jövőben a radiológia számára előnyös lenne egy olyan egységes keretrendszer, amely ötvözi a CLAIM (41) mesterséges intelligencia technikai minőségi kritériumait a CHEQUE (19) gazdasági szigorúságával. Az egységes keretrendszer kiterjesztheti a CLAIM ellenőrzőlistát, hogy az együttesen tartalmazzon technikai érvényességet, klinikai hasznosságot és gazdasági hatást, ideális esetben a mesterséges intelligencia fejlesztői, klinikusok és egészségügyi közgazdászok közötti interdiszciplináris együttműködés révén kidolgozva.
A jövőbeli kutatásoknak az elszigetelt diagnosztikai feladatok helyett az egész munkafolyamatot (toborzás, ütemezés, megfelelés, képalkotás, kezelés, számlázás) optimalizáló integrált AI-platformokra kell összpontosítaniuk.
A szoftverfrissítések, a teljesítményeltérések és a változó klinikai populációk figyelembevétele érdekében elengedhetetlen a rendszeres újraértékelés. Bár az NLP-alkalmazások ígéretesek a jelentések és az adatok kinyerésének automatizálása szempontjából, még mindig hiányoznak a megbízható gazdasági értékelések.
Sürgősen szükség van olyan, a valós világban végzett implementációs tanulmányokra, amelyek összehasonlítják a mesterséges intelligenciával támogatott és a hagyományos ellátást különböző egészségügyi környezetben, és amelyekre egyértelmű jogi keretek támaszkodnak a felelősségre vonhatóság és a kártérítési kötelezettség tekintetében.
A klinikailag nem validált mesterséges intelligencia eszközök korai bevezetése veszélyeztetheti a klinikai irányítást és a betegbiztonságot, ami jelentős szabályozási és etikai aggályokat vet fel. Ezért elengedhetetlen a mesterséges intelligencia eszközök átfogó klinikai és gazdasági validálása.
Ezen áttekintés eredményei alapján az alábbiakat javasoljuk az AI bevezetését fontolgató érdekelt felek és radiológiai adminisztrátorok számára:
Az AI bevezetése előtt strukturált elemzések, például erősségek, gyengeségek, lehetőségek és veszélyek (azaz SWOT) segítségével azonosítsák a munkafolyamat egyértelmű szűk keresztmetszeteit kezelő klinikai alkalmazásokat. A létesítmény méretének és a képalkotási volumennek megfelelő árképzési modelleket alkudjanak ki. Vezessenek be monitoring rendszereket a valós gazdasági és klinikai eredmények nyomon követésére.
A radiológiai osztályok csak akkor szerezzenek be AI-t, ha az egyértelmű munkafolyamat-hiányosságokat pótol, és a fizetési modell szerint bizonyított egészségügyi gazdasági előnyökkel jár. A politikai döntéshozóknak elő kell írniuk az AI-költségtérítésre vonatkozó szabványosított gazdasági értékeléseket, és egyértelmű orvosi-jogi kereteket kell létrehozniuk.
Az egészségügyi politika tekintetében az eredmények arra utalnak, hogy a központosított szűrőprogramok nagyobb valószínűséggel eredményeznek méretgazdaságosságot és költségmegtakarítást.
Az AI-fejlesztőknek prioritásként kell kezelniük az integrált platformmegoldásokat, az átlátható teljesítménymutatókat, a kockázatmegosztásos fizetési struktúrákat és a klinikai felhasználókkal való közvetlen együttműködést.
Döntő fontosságú, hogy minden AI-bevezetési stratégia figyelembe vegye a helyi egészségügyi rendszer struktúráját, beleértve a WTP küszöbértékeket, a személyzeti kapacitást és a szabályozási követelményeket.
A terület fejlődése ezért megköveteli az AI-eszközök szisztematikus értékelését a különböző egészségügyi rendszerekben, a QALY- és ICER-alapú módszerek következetes alkalmazását, valamint az átlátható visszatérítést, a biztonságos bevezetést és a mérhető klinikai hatást biztosító politikákat.
Ennek a vizsgálatnak számos korlátja volt. A Google Scholar-t kizártuk a túlzott mennyisége és korlátozott specifikussága miatt, és a teljesség és a megvalósíthatóság egyensúlyának érdekében a PubMed-et és a főbb gazdasági adatbázisokat részesítettük előnyben. Bár az első szűrést egyetlen olvasó végezte, az összes bevont és kétértelmű tanulmányt függetlenül újraértékeltek. A CHEQUE-hez hasonló szabványosított pontozási rendszerek nem feltétlenül veszik figyelembe az egészségügyi gazdaságtan vagy az AI bevezetésének regionális különbségeit, ami potenciálisan befolyásolhatja az általánosíthatóságot. Például Mansour és munkatársai (35) bizonytalan kép-megosztó platformok használata ellenére magas CHEQUE-pontszámot értek el, ami jól illusztrálja, hogy a magas módszertani pontszámok nem mindig egyenlőek az optimális valós klinikai implementációs minőséggel. Mivel a CHEQUE a költséghatékonysági elemzéseket hangsúlyozza, az egészségügyi eredményeket kizáró tanulmányok alacsonyabb pontszámot kaptak, ami szerintünk megfelelő korlátozás, mivel az egészségügyi eredményekhez való kapcsolódás elengedhetetlen az orvosi gazdasági értékek értékeléséhez.
Összegzésként elmondható, hogy a mesterséges intelligencia radiológiában való sikeres alkalmazása szabványosított, magas színvonalú, interdiszciplináris gazdasági elemzéseken és egy többdimenziós stratégián múlik, amely figyelembe veszi a klinikai relevanciát, az alkalmazás mértékét és a helyi egészségügyi környezetet.