信息资讯

---
返回资讯列表
数据金矿?先别激动——一位从业者看完NEJM这篇文章的感受

数据金矿?先别激动——一位从业者看完NEJM这篇文章的感受

April 20, 2026 9 阅读 政策法规 标瑞医药

📋 快速导航

先泼盆冷水:数据多不等于证据多

前几天看到NEJM发了一篇重量级文章,讨论真实世界数据的价值和挑战。说实话,看完之后心情有点复杂。

一方面,这篇文章的作者阵容确实够分量——Robert Califf,前FDA局长,现在在Duke当教授。能让这种级别的人愿意署名讨论的话题,说明问题确实不小。

另一方面,我在临床研究这行摸爬滚打了十几年,太清楚这篇文章背后揭示的东西了:整个行业对RWD/RWE的热情,很大程度上是建立在一个美丽的误会之上的。

什么误会?就是觉得有了海量电子病历、医保数据库,我们就能轻松产生高质量的真实世界证据来指导临床决策。

醒醒吧。

文章核心观点:96%的美国医院都用上了电子健康记录系统,但从这些数据中能提取出来的高质量真实世界证据,却少得可怜。这不是技术问题,不是投入问题,而是整个数据收集体系从根子上就跑偏了。

被吹上天的问题根源

我们用"记账本"做"研究报告"

文章里有个比喻特别扎心,我必须分享给同行们:

现在的电子健康记录系统,本质上就是一个超级复杂的"记账本"——不是科研记录本,是记账本。

记账本关心什么?卖出什么货、收多少钱。病历系统关心什么?诊断了什么、做了什么手术、开了什么药、收了多少费。

科研记录本关心什么?治疗效果、不良反应、患者的生活质量、可能影响结果的任何因素——不管这个因素能不能变现。

所以问题来了:

  • 一位心梗患者的支架手术会被精确记录(因为这能收费)
  • 但他的吸烟史、饮食习惯、精神压力、经济状况呢?(因为不直接关联收费)
  • 患者出院后是不是悄悄把药停了?(因为不影响下次就诊记录)
  • 他的生活质量到底改善了没有?(因为这个指标根本没法计费)

每次做回顾性研究的时候,我都有一种在废墟里淘宝的感觉——数据确实不少,但能用的高质量数据少之又少。

三种数据源的硬伤

电子健康记录(EHRs):信息最丰富,也最破碎

理论上EHR包含最全面的患者信息。但实际上,每个医院、每个系统都像是一个独立的数据王国。别说全流程追踪患者了,同一家集团旗下的两家医院,数据互通都是奢望。

这直接导致一个尴尬的局面:你想做多中心的真实世界研究,光是数据对接这一关就能让团队脱层皮。

医保理赔数据:维度太单一

理赔数据像是把患者在医疗系统里的"消费记录"串联起来,能看到一些就诊轨迹。但问题也很明显:它只记录"付过钱"的事件,而且一旦患者换了保险,这条链就断了。

更致命的是,很多对研究至关重要的信息根本不在理赔范围内——你怎么可能指望从医保数据里找到"患者服药依从性差是因为受不了轻微恶心"这种细节?

死亡数据:最基础的反而最难拿

说起来可笑。死亡是所有长期随访研究的终点,但美国国家死亡数据库(NDI)更新速度曾经是每年一次。对比一下,英国RECOVERY试验能快速接入国家死亡数据,这种效率差距让人无语。

为什么RWE还是稀缺品

混杂偏倚:那个绕不开的坎

做观察性研究的同行都知道这个痛:用真实世界数据做疗效比较研究,最大的敌人永远是混杂偏倚。

简单说就是:你观察到的疗效差异,到底是治疗本身带来的,还是因为选择这个治疗的患者本身就有某些特征优势?但那些特征你根本没记录到。

作者打了个比方:在布满哈哈镜的房间里量身高——你能得到一个数字,但那个数字离真相有多远,完全没底。

数据质量和数据量是两码事

这是我特别想跟年轻同行说的一点。现在很多项目动辄号称"百万级患者数据",听起来很吓人。

但数据量再大,如果关键变量大量缺失、随访时间不完整、混杂因素没记录——这些数据依然是垃圾进、垃圾出。

大数据的幻觉害死人。

破局之路:系统性思考

数据层面的改变

文章提到了一些方向,我比较认同:

  • 嵌入研究导向的数据收集模块:不是推倒重来,而是在现有EHR系统里增加研究用的字段。比如在常规就诊流程中,系统性地收集患者报告结局(PRO)。
  • 推广通用数据模型:OMOP、PCORnet这些标准化数据模型的价值不在于技术本身,而在于能让不同来源的数据"说同一种语言"。
  • 建立数据质量审计机制:这个真的很重要。我见过太多项目,数据入库之后就成了黑箱子,没人知道完整性怎么样、变量质量如何。

系统层面的改变

坦白说,光靠技术层面的修修补补解决不了根本问题。文章提到的"全国性全支付方理赔数据库"方向是对的。

以色列能快速发现疫苗相关心肌炎,靠的就是全国统一的数据库。中国其实有类似的制度优势,关键是怎么用好。

方法学层面的进步

因果推断方法这几年进步很快。倾向性评分、工具变量、贝叶斯方法……这些技术能让观察性研究更接近真相。

但技术只是工具,不能解决数据本身的质量问题。如果基础数据是垃圾,再花哨的统计方法也救不回来。

写在最后

读这篇文章的时候,我一直在想一个问题:我们这行现在对RWD/RWE的热情,有多少是真正看到了它的价值,有多少只是被行业炒作推着走?

不是说RWD/RWE没价值,恰恰相反,它的价值是巨大的。但这种价值的实现,需要整个生态系统的升级——从数据收集理念、到数据标准、到研究方法、再到监管框架。

这不是某个项目、某家公司能搞定的事情。

有意思的是,文章的三位作者里,有两位曾经在FDA任职。这种从监管视角出发的反思,其实说明了一件事:在追求RWE应用的道路上,我们可能跑得太快了一点,是时候停下来审视一下脚下的路了。

数据金矿是真实存在的,但前提是你得有能力把它提炼出来。在那之前,保持理性,比盲目乐观更重要。

参考文献

  1. Abbasi AB, Curtis LH, Califf RM. The Promise of Real-World Data for Research — What Are We Missing? N Engl J Med. 2025;393:318-321. DOI: 10.1056/NEJMp2416479
  2. 海南省人民政府, 国家药品监督管理局. 临床真实世界数据应用试点2025—2027三年行动计划. 2025年11月.
  3. 国家医疗保障局办公室. 关于开展真实世界医保综合价值评价试点工作的通知. 2025年9月.
分享到:

Copyright © 2026. 上海标瑞信息咨询有限公司 All rights reserved.