首页> 知识 > 抗癌资讯>怎么才能证明一款药有效

怎么才能证明一款药有效

发布于2020-08-14

14882

现代循证医学对有效性的认定完全不同于古典的因果论，而是基于概率论和统计学的方法。这虽然可以非常量化的进行判断，但并不能得出一个大众所期望的简单的「是」或「否」，而是一个「概率」。很大程度上，人们是否能接受这样一种方式和结论，其实取决于他们是固守一个静态的世界观，还是拥抱不确定性以及无处不在的概率。

－文字稿－

数万年来，为了对抗疾病加诸于人身的种种痛苦，人们一直在苦苦追寻着各种治病救人的方法，从石器时代祛魔治病的开颅手术，到19世纪出现的全身麻醉手术；从各种历史悠久的草药、动物药，到1805年第一次从植物中分离出吗啡，再到1832年发明第一种合成药物水合氯醛，所有这些努力都见证着人类医学的发展。

然而在这漫长的历史中，有一个看似简单却最为重要的问题，大部分时候都没有得到解决，那就是如何判断一种药物或疗法是真实有效的。

一直到1747年，英国的詹姆斯·林德通过将病人分为6组，分别给予不同的食物或药物，成功发现了柑橘可以治疗坏血症。对病人分组，给予不同药物，观察治疗结果的差异来判断药效，这一开创性的研究方法，成为医学历史上里程碑式的事件。

当然以今天的眼光来看，其试验条件和试验设计都极为原始，比如病人一共只有12个，分组完全靠医生指定，而林德一次试验竟然就能得到完全正确的结论，运气之好实在让人嫉妒。

因为这其中难以捉摸的因素实在太多了。比如一种疗法究竟需要治好几个人才能算有效？如何知道一种“药物”与“治好”之间存在因果关系，而非碰巧？又如何证明吃药后祈祷30分钟并不能增强疗效？

现实世界充满了复杂性，人类个体之间的情况千差万别，实验动物和人体之间的巨大差异，甚至还有安慰剂效应这样搅混水的因素等等，如同在物理实验室那样控制各种变量，分析出因果关系进而得到一个简洁优美、包治百病的公式，对于正经的医学来说是几乎不可能的。

但是我们可以通过一些间接的办法来解决这个问题。为了理解这种方法的精髓，我们可以先看看一个更简单的问题：为何自然出生的人口性别比并非男女1：1。

1710年，英国的约翰·阿巴思诺特（John Arbuthnot），收集了1629年到1710年伦敦的教堂记录中每一年受洗男孩儿和女孩儿的数目，这也就大致对应着每年婴儿出生的情况。他发现，每一年出生的男孩数量都要大于女孩。借由常识我们也能得到一个直观的结论：那就是正常情况下，男孩出生率要高于女孩，因为你们不能说连续这么多次都是巧合。譬如庄家掷骰子，一次、两次出现三个六，那是巧合，但连续几十次都是，我们就有理由相信他肯定是在作弊。

约翰·阿巴思诺特对此进行了更加严谨的论证：他首先假设诞生男孩的概率和女孩一样，都是1/2。那么每一年男孩多还是女孩多，就如同掷硬币一样，都有一半的可能性。通过简单的条件概率计算，也就是第一年男孩多的可能是1/2，那么第一年、第二年同样男孩多的可能就是1/2乘以1/2，以此类推，每一种可能的现实就如同在时间之树上不断分叉的树枝，其可能性不断减半，连续八十二年男孩都比女孩儿多，这一事件发生的概率为1/2连续相乘82次之多，结果约为10的-25次方，这样低的概率自然极度不可能发生。但现实中确实发生了这样的事情，由此可以反证，原假设——也就是男女自然出生比率相同的结论，是几乎不可能成立的。（Q.E.D）

使用这样一种更加曲折的方法，是因为在现实世界中，作为凡人的我们，永远只拥有不完全的信息和有限的试验次数、观察次数，无法通过穷举一切迫近绝对真理，但我们又必须根据这有限的信息去选择，去行动，那么就只能通过有限的样本去计算、去推断。

一旦人们认识到这种统计学思维的重大意义，其与分组对照试验的结合，就不可避免地产生了。

在1948年，为了验证链霉素是否真的对肺结核有疗效所作的对比试验，堪称经典范例。经细菌学检查确诊为肺结核的患者，共107例，采用随机数字表产生随机序列号，随机分配为2组，并通过密闭信封保存随机序列号。试验组55例，接受链霉素治疗加卧床休养的方案，对照组52例只接受卧床休养。

在这里，对照组实际上充当了零假设的作用，也就是药物如果无效，治疗的结果应该是什么样的。通过实际用药后显示，试验组和对照组6个月的生存率分别为93%和73%，通过计算，两者数值的不同仅仅来自于随机分布的可能性小于1%，这也就是通常所说的p值<0.01；换句话说就是：试验组和对照组确实有差异的可能性高达99%。由此证明了，链霉素可显著改善肺结核患者的生存率。

其精髓就在于，我们并不在假定它有效的前提下去证明它有效，而是首先假设它无效，这被称为零假设，就如同法律上的无罪推定，是为了减少冤假错案的发生，零假设则是为了排除药物无效的可能。既然它是无效的，那么和没有药物干预的病人们的病情发展状况应该非常相似。然后我们拿真正用药的病人的数据做对比，就可以计算出这个零假设是正确还是错误的可能性有多高。

由此开始，现代医学的临床试验才走上了正轨。这也就是我们所熟知的随机双盲对照试验，并发展为一套更加严格的Ⅲ期临床试验审批程序。

也许人们会疑惑为何不能直接测试一个药的有效性，搞这么多不同的阶段，但是大家都忘了一件事，那就是在确定一个药能否治好人之前，首先要确定这药不会把试验对象（人类）都毒死了，或者副作用过于严重，至少也要搞清楚安全用药的剂量到底是多高。否则盲目进行的试验，就会演变成科幻电影中，邪恶科学家随便拿大众当小白鼠，却声称自己是为了全人类福利着想的场景。

所以必须有一个Ⅰ期临床试验，观察人体对于新药的耐受程度和药代动力学，为制定给药方案提供依据。比如为了测试人体对不同剂量的耐受程度，先从动物半致死量的1/600或者动物最小有效剂量的1/100开始给药，然后逐渐加大剂量，观察人体的反应，即所谓的剂量爬坡试验。

临床Ⅱ期与临床Ⅲ期的主要目的似乎都是关于验证药物的有效性（其实也继续包括了安全性的评估），然而它们在统计学意义上的「有效性」差别也很大。最直接的差异就是试验的规模。

Ⅱ期每一次试验的规模通常只有100人左右，每一个分组只有几十人；而在Ⅲ期，试验的规模会扩大十倍，接近1000人。

Ⅱ期试验其实就是需要去试错，在更小规模的试验中更加快速、更加低成本地排除掉没有希望的药物，降低赌上一切最终却一无所获的风险。

所以Ⅱ期被称为探索性试验，意思就是赌博的成分很大。这类试验大部分采用单臂设计，即不设对照组，只与历史数据进行对比。正所谓十赌九输，Ⅱ期试验成功者继续通关乃至上市的成功率很低，在近十年中，一般只有1/4的新药可以进入Ⅲ期临床研究阶段。

当然也存在一些特例，在II期试验完成后就可以提前获得药品监管部门的上市许可，也就是走了加速审批程序。那些致命却缺少有效疗法的疾病，或者是一些罕见病，只有针对于它们的新药才能享受到这种待遇。其中的伦理和人道考量相信大家都很容易理解。而且如果它们在接下来的临床III期无法证明疗效，依然会被撤销许可。

当一种新药进入临床III期后，一切都变得更加严格。Ⅲ期试验一般都需要采用随机盲法、平行对照等试验设计，并且必须有足够大的样本，这才能确证在特定目标人群中的有效性和安全性。最直观的就是，我们最终在药品上看到的适应症、禁忌症等重要信息，主要都直接来自于这一阶段的试验结论，当人们说一种药物是否有效，一般指的都是这一阶段的结论。

甚至当一种药物通过了目前为止最为严苛、试验规模更大的Ⅲ期临床试验，拿到了卫生监管部门的上市许可，换句话说它的疗效已经得到了权威机构的认可，但是依然需要继续进行试验、收集数据，进一步验证其安全性和疗效。

因为Ⅲ期临床研究的数百到上千例患者，对于观察疗效算是足够了，但对于安全性，尤其是小概率发生的安全性事件，这样的样本量依然显得有些不够充分。所以需要在药物上市后，进行更大规模的临床试验，也就是所谓的Ⅳ期临床试验，这种研究一般需要纳入2000例以上的患者，观察药物在更广泛人群中的安全性。

归根结底，更多的样本，更多的试验，更多的尝试，才有可以让我们逼近那条可能性最高的道路。或者借用贝叶斯主义的观点：我们因此才增加了对我们的知识是正确的信念。

素材来源：https://commons.wikimedia.org/wiki/File:Quentin_Matsys_-_A_Grotesque_old_woman.jpg

https://commons.wikimedia.org/wiki/File:Trepanated_skull_of_a_woman-P4140363-black.jpg

https://www.youtube.com/watch?v=Qxx14RCxblg

https://blogs.bl.uk/digitisedmanuscripts/2017/04/an-illustrated-old-english-herbal.html

https://wellcomecollection.org/works/ayd5f97k

https://collection.sciencemuseumgroup.org.uk/objects/co192824/tabloid-chloralum-hydratum-tablets-chloral-hydrate

上一篇 抗癌4年，自律让我活得依旧精彩

下一篇 一图读懂|手把手教你怎么选靶向药

前沿资讯推荐

曾任美国临床肿瘤学会(ASCO)临床实践指南委员会主席

约翰霍普金斯医学院，医学博士

Lifespan癌症研究所胸部肿瘤科主任

曾在纽约纪念斯隆凯特琳癌症中心任职10年

曾在波士顿的麻省总医院癌症中心任职6年

立即预约