Chapter 4 疗效和安全性分析
4.1 单臂疗效分析(只评估治疗后的结局,结局为分类或连续性资料)
4.1.2 软件功能
该模块提供了一个用于生成单组疗效分析统计表的交互式界面。它可以处理分类变量和连续性变量,并计算疗效指标的均值及95%可信区间(CI)或中位数及其95%CI。对于连续性变量,还能计算百分比及其可信区间。
4.1.4 操作步骤
选择要分析的变量:
- 在侧边栏中选择需要进行统计分析的变量。可选择多个变量,且选择的顺序会影响它们在结果表中的显示顺序。
选择连续变量的统计方法:
- 根据需要选择连续变量的统计方法(例如均值和标准差或中位数和四分位距)。
QQ图查看(高级选项):
- 如果需要,可以查看QQ图,以判断数据的正态分布情况。
指定每个变量的统计方式(高级选项):
- 对于特定的连续性变量,可以单独指定其统计方式。
设置统计结果的显示方式:
选择如何在表格中标注连续性变量的统计方法(例如在表格底部统一注释或在每个字段旁边分别标注)。
决定是否在结果表中显示95%置信区间列。
调整小数位数:
- 设置百分比等统计数值的小数位数。
生成统计表:
- 点击相应按钮以生成或更新基线统计表。
查看和定制结果表格:
在主面板中查看生成的表格。
选择表格的外观风格(例如蓝色、绿色或灰色风格等),以适应不同的呈现需求。
描述性文本生成(可选):
- 如需,生成用于论文或报告中
4.2 单臂疗效分析(结局为生存资料,如OS/PFS/DFS等)
单组生存分析是一种统计学方法,用于研究生存数据中事件发生的时间和频率。它通常用于描述事件发生的速率、估计生存函数,主要关注单一样本中生存时间的描述性分析。在医学研究领域,单组生存分析常用于研究患者生存期和事件发生的概率,例如研究某种疾病患者的生存期。
以下是一个医学研究中应用单组生存分析的例子:
假设我们要研究某种癌症患者的生存期(时间)。我们可以收集患者的生存数据,包括每个患者的随访时间、是否发生了感兴趣的事件(如死亡)等。利用单组生存分析,我们可以估计患者的生存率及生存期。
在单组生存分析中,Kaplan-Meier(KM)法是一种广泛使用的非参数方法,用于估计生存数据的生存函数。KM法考虑了随访时间的不同长度和不同时间点的失访情况,提供了对生存率和生存期的准确估计。
软件中提供了以下功能:
设置时间变量的单位,如天、周、月、年:方便对生存时间进行度量。
选择统计图表中的时间单位,系统会自动转换:提供不同时间单位的图表展示。
计算平均生存期,中位生存期及其95% CI:提供生存期的估计和置信区间。
计算自定义的各时间点的生存率及其95% CI:可以根据研究需求,查询指定时间点的生存率。
支持生存曲线(Survival Plot):展示随时间推移的生存率变化。
累积事件曲线(Cumulative Events):展示随时间推移的累积事件发生数。
累积风险曲线(Cumulative Hazard):展示随时间推移的累积风险。
KMunicate 曲线(KMunicate-Style Plot):一种直观的方式来展示生存曲线和生存时间的分布。
通过软件的单组生存分析功能,研究者可以更有效地描述和分析生存数据,为临床和公共卫生决策提供有力的依据。
4.2.1 准备数据
首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
打开如下图:
在使用本软件进行单组生存分析之前,您需要准备包含两个关键变量的数据:时间变量(time)和生存状态变量(status)。这两个变量的详细说明如下:
生存状态变量(status):表示患者在研究结束时的生存状态。在本工具中,您可以为status设置任意标签,但为了简单明了,我们建议使用数字 0 或 1。具体而言:
0 代表未观察到感兴趣事件发生(例如患者尚未死亡或失访)。
1 代表已观察到感兴趣事件发生(例如患者死亡,并记录了死亡日期)。 在本软件中,您可以设定哪个标签代表发生事件,确保标签和实际含义相符。
时间变量(time):表示从研究开始日期到观察结束日期的时间差。研究开始日期的定义根据您的研究目的而定,例如随机对照研究通常以随机分组日期为开始,而观察性研究可以选择首次诊断日期或首次治疗日期等。关于time变量,请注意以下事项:
当status为 1 时,观察结束日期为感兴趣事件发生(如死亡)的日期。
当status为 0 时,观察结束日期为最后一次确认患者生存的日期(如研究结束日或随后一次随访日)。
总之,time是一个数值型变量,表示患者从研究开始到观察结束所经历的时间。例如,若time为56,status为1,则表示患者从研究开始到死亡共生活了56天;若time为56,status为0,则表示患者从研究开始到最后一次随访共生活了56天。time的单位可以是天、月或年,本软件可以在分析时进行转换。
在准备数据时,请确保为每个患者填写非负整数的 time 和相应的status标签。time 和 status均不能为空,否则将无法进行分析。若 time 或 status 的数值不确定或缺失,建议不要将该患者纳入数据库。
为了便于理解,我们还是建议在举例时使用 0和 1这样简单的数字标签。当然,在实际操作中,您可以根据自己的需求为status设置合适的标签,比如 “死亡”, “生存或未知(失访)”等标签,然后在软件里把死亡设置为发生事件。只要确保在本软件中正确设定标签含义即可。这将有助于用户更加灵活地应对不同的研究需求,并且更容易地理解和操作数据。
4.2.3 单组患者生存分析
下一步就是生存分析啦:
选择代表时间的变量(如从开始到死亡的时间,或从开始到末次随访时间)。
确定数据中的时间变量每个单位代表的时间长度(天、周、月或年)。
选择代表患者最终状态的变量(只能有两个取值,例如1代表发生事件,0代表删失,如1-死亡,0-存活或未知)。
选择结局变量的水平,以表示发生事件(建模时,选中的水平会设定为1,剩下的水平会设定为0)。
选择后续统计图表中的时间单位(天、周、月或年)。
设置统计表选项:输入需要在统计表中展示的生存率,用英文半角逗号隔开。
设置统计图选项:勾选需要绘制的图表类型(生存曲线、累积事件曲线、累积风险曲线、KMunicate曲线等),并设定图像的宽度和高度。
设定坐标轴的范围:设定横坐标(时间)的上限,以决定曲线完整显示还是部分显示;设定横坐标(时间)的每格单位刻度值。
设置额外图像选项:在图像上显示95%置信区间条带、风险人数表(Risk table)以及删失(censored)数据标记。
点击”开始进行单组生存分析”按钮,程序将根据设置的选项进行分析并生成结果。
请注意,正确设置图像选项(如横坐标上限和最小刻度)有助于让生存曲线显示完整且清晰。
4.3 多臂疗效比较(结局为二分类资料,如:是否有效/ORR/DCR等)
功能:本工具可以对两组或两组以上的患者进行治疗效果评价统计分析。
结局类型:疗效结局为二分类变量,如有效、无效;缓解、无缓解等。
研究设计:研究类型可以是随机对照分组,也可以是非随机分组;可以是干预研究,也可以是非干预研究;可以是前瞻性研究,也可以是回顾性研究。
主要特点:
根据不同的研究设计类型,系统会自动采用适宜的统计学方法
可选倾向性评分匹配或多因素回归来调整治疗组间协变量的平衡
根据分组的多少(两组、两组以上),系统会自动采用适宜的统计学方法
根据CONSORT报告规范一分钟无脑生成统计表,达到新英格兰医学杂志的图表要求
用户不懂统计也能操作,全程避免使用艰涩的统计语言
自动生成统计方法注解
在整个分析过程中,潜移默化的教会用户,临床研究设计的理念和统计分析的理念,使用本工具完成一项研究之后,用户基本也成为了临床研究专家。
一键自动生成以下8个图表:
4.3.1 基础知识
当疗效评价的指标是二分类变量时,适用本工具。什么是二分类变量?
二分类结局变量:
二分类变量即为那些结局只有两种可能性的变量,如有效与否,心梗,心血管不良事件,死亡等,一般将发生事件的人数除以样本量总数得到的事件发生率作为结局考察。
如何评价疗效?
常见的二分类变量疗效结局评价指标包括:OR (Odds Ratio) 值、RR (Risk Ratio) 值、RD (Risk Difference) 值。
评价二分类变量结局疗效的统计方法有哪些?
常见的有卡方检验,Logistic回归,泊松回归等。
缺失数据处理
疗效指标为二分类变量时,对于结局变量,可以彻底剔除结局缺失的患者;也可以用多重填补(MI)法进行填充。
组间基线的平衡
如果是非随机对照研究,分组间的人口学和临床特征,可通过倾向性评分匹配、逆概率加权或者多因素分析等来调整。
4.3.2 准备数据
首先下载样例数据:
有三类变量:
代表治疗分组的变量:例如上图中的treatment, 分成了Lev、Obs和Lev+5FU三个组
代表疗效评价的变量:例如上图中的effect,有疗效Good、Bad两种情况
基线人口学和临床特征:例如上图中的age、sex等等一系列指标,可用来调整组间平衡,也可用来做亚组分析
下载生成的样例数据,然后在样例数据的基础上修改成您自己的数据,就可以上传开始分析啦。
4.3.4 疗效比较分析
最后进行疗效比较分析,选择代表治疗组别的变量,如treatment,然后选择哪个组是参照组,其他组分别和参照组做两两比较。再选择疗效评价的字段,如effect,这个例子里有两个取值,Good和Bad。由于这里我们要统计效果好的率,所以勾选Good。
点击生成/更新疗效分析结果后得到两个表:
表2 是一般的卡方检验或确切概率检验,仅做参考,可以不放论文里。
表3 是两两比较,以Lev为参照组,其他两组分别和它比,给出了RD、RR、OR值和可信区间。
如果分组是非随机的,或者是回顾性研究的话,还要平衡一下组间的基线协变量,进入下一页,疗效分析2:
点击选择需要平衡的人口学和临床特征变量,点击按钮,就生成了表4,单因素和多因素Logistic回归。
当然,如果要调整的变量太多的话,还是建议先用本站的”倾向性评分匹配”工具,做完倾向性评分匹配后再把匹配后的数据上传上来做疗效分析。
4.4 多臂疗效比较(结局为连续性资料,如血液检测指标等)
功能:本工具可以对两组或两组以上的患者进行治疗效果评价统计分析。
结局类型:疗效结局为连续性变量。疗效结局如果为二分类或生存资料的,请使用本站另外的模块。
研究设计:研究类型可以是随机对照分组,也可以是非随机分组;可以是干预研究,也可以是非干预研究;可以是前瞻性研究,也可以是回顾性研究。
主要特点:
根据不同的研究设计类型,系统会自动采用适宜的统计学方法
支持治疗前后的差值,治疗组间的差值,以及双重差分(DID)来评价疗效
可选倾向性评分匹配或多因素回归来调整治疗组间协变量的平衡
根据分组的多少(两组、两组以上),系统会自动采用适宜的统计学方法
根据CONSORT报告规范一分钟无脑生成统计表,达到新英格兰医学杂志的图表要求
用户不懂统计也能操作,全程避免使用艰涩的统计语言
自动生成统计方法注解
在整个分析过程中,潜移默化的教会用户,临床研究设计的理念和统计分析的理念,使用本工具完成一项研究之后,用户基本也成为了临床研究专家。
一键自动生成以下4个图表:
4.4.1 基础知识
当疗效评价的指标是连续性变量时,适用本工具。什么是连续性变量?
连续性变量:值是连续数据,它可以在变量值所属区间内任意进行取值,如血糖值、血压值、血胆固醇水平、身高、智商等
基本理念
基线值 Baseline:在基线期测量的疗效指标。基线时间由您的研究设计决定,通常在治疗前。按照惯例,如果是随机对照研究,通常基线期在随机化分组日期附近;如果是非干预研究或回顾性研究,基线时间由研究设计决定。如研究开始时,测量基线空腹血糖水平。
终点值 Endpoint:在研究终点测量的疗效指标。研究终点由研究设计决定。如治疗24周后的空腹血糖水平。有些研究有主要研究终点,还有次要研究终点。比如除了血糖,还要分析糖化血红蛋白和其他指标。
终点和基线的差值 Change from baseline:是指治疗后规定的时间点,疗效指标的变化值。Change from baseline = Endpoint-Baseline 如治疗后24周的空腹血糖-基线空腹血糖。
终点相对基线变化的百分比 Percent change from baseline: 是指治疗后规定的时间点,疗效指标的变化的百分比值。 Percent change from baseline = (Endpoint-Baseline)/Baseline * 100% 如治疗24周后的空腹血糖相对于基线空腹血糖变化的百分比。
如何评价疗效?
疗效评价需要有治疗组和对照组。本工具适用两组或多组疗效评价。如果只有一个组的单臂研究,不适用本工具。
疗效评价主要采用双重差分(double difference) 的理念。
治疗组 Change from baseline = 治疗组 Endpoint - Baseline
对照组 Change from baseline = 对照组 Endpoint - Baseline
疗效比较指标 Effect = 治疗组 Change from baseline - 对照组 Change from baseline
这里需要准备四个关键数据,治疗组治疗前后的两个疗效测量,对照组治疗前后的两个疗效测量。
治疗组前后的差值,和对照组前后的差值,相减得到两组间的Difference。先算两组自身前后的差值,再算组间差值的差值,相减了两次,所以也被称为双重差分。
统计模型
如何进行统计分析呢?最常见的是ANCOVA模型,尽管前面进行了差值减法,但两组基线水平还是有些差异,因此要调整基线水平。模型为 Change from baseline ~ Treatment+Baseline+Other covariables
根据CONSORT指南,首选我们要在论文表格里描述每个组基线的mean (sd), 终点的mean (sd), Change from baseline 的 mean (sd),另外还需要描述 Change from baseline 调整了Baseline 之后的 LS mean 和 95% CI,第二步就是治疗组和对照组互相之间的 Difference in LS Mean (95% CI)。
此外,如果是随机对照试验,组间人口学或临床特征已经通过随机分组做了平衡,不需要再过多统计学处理。但如果是非随机研究,组间基线不平衡,还需要对人口学或临床特征进行统计学调整:
另外,还有缺失数据的填补,之前惯用的是LOCF法,就是如果终点疗效指标缺失,就用上一次离终点最近的一次测量值填补,这样的话在优效性设计里结果偏保守。当然这个方法已经过时了,现在一般用多重填补 Multiple imputation。
因此,做疗效比较是一个比较复杂的过程。但好在现在您拥有了Mstata医学统计机器人,下面只需要随便点点鼠标,一分钟就能无脑完成分析并生成上面这样的统计表。
4.4.3 准备数据
首先点击开始,点击”事先设置”,根据提示输入您的研究类型:
这个页面主要收集有关您的研究设计和数据类型的信息,然后系统AI会自动生成后面页面的界面,并内嵌适宜的统计模型。
主要关注的点是组间是否随机,如果随机,后面会嵌入简单的统计模型,如果非随机,您可以上传经过倾向性评分匹配后的数据,也可以在后面的界面中用多因素方法调整组间平衡。
另外是数据类型,如果您有基线和终点两次的数据,系统会用上述”双重差分”的理念用ANCOVA模型,如果您只有终点的数据,没有基线的数据,系统会改用ANOVA,不调整基线。如果您有多次测量,也一并上传,在基线和终点之间的测量值也是有用的,尤其是在缺失数据填补中有很大意义。
根据提示,下载生成的样例数据,然后在样例数据的基础上修改成您自己的数据,就可以上传开始分析啦。
4.4.4 疗效比较分析
最后进行疗效比较分析,选择代表终点的变量,如week 24;代表基线的变量,如week 0,如果有中间点的测量如week 6 , week 12也可选进来,在LOCF中有用。另外,如果不是随机化分组,或者没有进行倾向性评分匹配,这里还可选择年龄,性别,临床特征等等字段进来作为协变量,调整组间平衡,如下图:
当然,如果要调整的变量太多的话,还是建议先用本站的”倾向性评分匹配”工具,做完倾向性评分匹配后再把匹配后的数据上传上来做疗效分析。
4.5 多臂疗效比较(结局为生存资料,如OS/PFS/DFS等)
功能: 本工具可以对两组或两组以上的患者进行治疗效果评价统计分析,支持生存资料作为疗效结局。
结局类型: 疗效结局为生存资料,例如从研究开始到事件发生(如死亡)的时间。
研究设计: 支持随机对照研究(RCT)或非随机分组研究;可以是前瞻性或回顾性研究;适用于干预性或观察性研究。
主要特点:
根据研究设计自动选择合适的统计方法,包括不调整、倾向性评分匹配(PSM)或多因素回归调整组间平衡。
支持Kaplan-Meier生存曲线、生存率计算、中位生存期、Cox回归HR值等分析。
生成符合CONSORT规范的高质量图表,适合顶级医学杂志要求。
操作简单,用户无需深厚统计知识即可完成分析。
分析过程中逐步引导用户理解临床研究设计和统计原理,使用后用户可掌握相关知识。
最终生成一篇论文初稿
一键自动生成以下图表和表格:
- 基线特征表(Table 1)
- 生存率表(Table 2)
- 中位生存期表(Table 3)
- Cox回归HR表(Table 4)
- 生存曲线图
- 亚组分析表(Table 5)
- 亚组分析森林图
- PSM匹配前后SMD比较表和Love Plot
- 比例风险假设检验表和Schoenfeld残差图
生成的图表概览:
4.5.1 基础知识
当疗效评价指标为生存资料时,使用本工具进行分析。
如何评价疗效?
常见的生存资料疗效评价指标包括:特定时间点(如1年、3年、5年)的生存率;中位生存期;风险比(HR)及其置信区间;Log-rank检验P值等。
组间基线平衡
对于随机对照研究(RCT),组间基线通常已平衡,无需额外调整。对于非随机分组研究(如回顾性或观察性研究),可能存在基线差异,可通过倾向性评分匹配(PSM)或多因素回归调整协变量,以减少混杂影响。
比例风险假设(PH假设)
Cox回归的前提是风险比例随时间恒定。本工具提供PH假设检验,包括表格和Schoenfeld残差图。如果全局P值<0.05,假设不成立,建议改用分段Cox或时间依赖Cox模型。
4.5.2 准备数据
首先下载样例数据:
有三类变量:
代表治疗分组的变量:例如上图中的treatment, 分成了Lev、Obs和Lev+5FU三个组
代表疗效评价的变量:例如上图中的time和status
status代表患者在研究结束时的状态,在本工具中只能取0和1两个数字,不要用字符文本,否则会出错。0 代表没观察到事件发生(如没死或者失访),1 代表观察到了事件发生(如已经死亡且录入了死亡日期)。
time代表从开始日期(开始日期的定义由你的研究目的决定,如随机对照研究往往取随机化入组的那一天为开始日期,而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定)到结局日期的时间差。当status=1时,结局日期为发生事件(如死亡)的日期,当status=0时,结局日期为最后一次活着的日期(如研究结束日,或随后一次随访日)。
总之,time是一个数值型变量,您需要填入患者从开始到死亡或者随后一次随访时,一共活着的天数。如time为56,status为1时代表患者从开始到死亡活了56天;当time为56,status为0时代表患者没观察到死亡,从开始到最后一次随访,活了56天。当然,time的单位也可以不是天,是月、年。软件在分析的时候可以做转换。
准备数据时,time填入一个非负的整数,status填入0或1,time和status都不能为空,每个患者都必须填入数字。time或status不确定(缺失)时,该患者最好不要放入本数据库。
- 基线人口学和临床特征:例如上图中的age、sex等等一系列指标,可用来调整组间平衡,也可用来做亚组分析
下载生成的样例数据,然后在样例数据的基础上修改成您自己的数据,就可以上传开始分析啦。
4.5.3 疗效比较分析
第一部分:研究设计设置
这一部分是整个分析流程的起点,主要目的是定义研究的分组方式和处理组间潜在混杂的方法。通过这些设置,系统能够根据您的研究类型自动优化后续分析路径,确保结果的科学性和可靠性。混杂(confounding)是指一些基线因素(如年龄、性别、疾病严重度)可能影响治疗组间的比较,导致观察到的疗效差异并非真正由治疗引起,而是受这些因素干扰。正确处理混杂是保证因果推断准确的关键。
操作步骤如下:
选择代表治疗组别的变量:从下拉菜单中选择表示分组的变量(如样例中的“treatment”)。这个变量必须是分类变量(factor型),代表不同治疗组(如组A用药物X,组B用药物Y)。系统支持两组或多组分析,但如果选择倾向性评分匹配(PSM),仅限两组。
接下来,选择参照组(reference group)。参照组是比较的基准,其他组将分别与参照组进行两两比较(1v1)。例如,如果有三组(A、B、C),选择A为参照组,则系统计算B vs A和C vs A的疗效差异。原理:参照组通常是标准治疗组或对照组,便于突出新治疗的相对优势。这种两两比较避免多组同时比较时的复杂性,确保结果清晰可解释。
选择控制组间混杂变量平衡的方法:根据您的研究设计,从三个选项中选择一个。系统会根据选择弹出相应界面。
随机对照研究(RCT)或不想控制组间混杂(不做任何调整):适用于随机分组的研究(如RCT),其中患者随机分配到各组,理论上基线特征已平衡,无需额外调整。原理:随机化确保组间差异仅由随机误差引起,而非系统偏差。根据CONSORT指南,在RCT中不推荐基线P值比较,因为它可能误导(参考:Harvey LA. Spinal Cord. 2018;56:919. doi:10.1038/s41393-018-0203-y)。选择此项,直接进入疗效分析,无需平衡步骤。
倾向性评分匹配(PSM)控制组间混杂:适用于非随机分组的研究(如回顾性或观察性研究),仅支持两组。原理:PSM通过logistic回归计算每个患者的“倾向评分”(接受某种治疗的概率),然后匹配评分相似的患者,模拟随机化,减少选择偏差和混杂影响。优点:直观平衡基线,减少样本偏差;缺点:可能丢失样本(匹配失败的患者被剔除),且仅限两组(多组PSM计算复杂)。选择此项,进入第二部分进行匹配细节设置。
多因素回归控制组间混杂:适用于非随机分组,支持两组以上。原理:通过Cox回归模型同时纳入治疗变量和协变量,调整协变量的影响,计算调整后的HR值。优点:保留全部样本,处理多组和连续协变量;缺点:需满足模型假设(如无多重共线性,事件数/协变量数≥10),否则结果不可靠。选择此项,直接进入疗效分析,并在后续步骤选择协变量。
- 如果选择PSM,系统引导进入第二部分(匹配过程);否则,直接进入第三部分(疗效分析)。建议根据样本量和协变量数量选择:协变量多(>10)或存在共线性时,优先PSM;样本小或协变量少时,优先多因素回归。三种方法可分别尝试,做敏感性分析比较结果稳健性。
第二部分:生成基线表或PSM(可选)
这一部分根据第一部分的研究设计设置自动调整内容。如果您选择了随机对照研究(RCT)或不调整混杂(或多因素回归),系统会引导生成基线特征表(Table 1),用于描述组间人口学和临床特征的分布,帮助读者了解样本组成,并初步检查组间是否平衡(尽管在RCT中不推荐P值比较)。如果选择了倾向性评分匹配(PSM),则进入匹配流程,用于平衡非随机分组的基线差异,模拟随机化效果,减少混杂偏倚。PSM的原理是计算每个患者接受某种治疗的“倾向性”(基于基线因素的概率),然后匹配相似倾向的患者,确保组间可比性,从而更可靠地评估治疗效果。PSM特别适用于回顾性或观察性研究,但会减少样本量(未匹配患者被剔除),需权衡。
此部分是可选的,如果您对基线平衡不感兴趣,可直接跳到第三部分。但生成基线表或进行PSM能提升结果的可信度,尤其在非随机研究中。
如果选择RCT或多因素回归(生成基线特征表):
操作步骤如下:
选择分组变量:系统自动使用第一部分选择的治疗组别变量作为分组依据(如treatment)。这确保表按组别分列显示。
选择基线变量:从下拉菜单中多选需要展示的基线特征(如年龄、性别、血压等)。建议选择与研究相关的变量,至少2个。连续变量(如年龄)会自动识别为数值型,分类变量(如性别)为因子型。选择顺序决定表中变量的排列(从上到下)。
生成表格:点击生成按钮,系统自动计算并显示Table 1。表格包括:
每列代表一个组,展示均值±标准差(连续变量)或计数(百分比)(分类变量)。
可选显示组间P值(使用t检验、Wilcoxon检验或卡方/Fisher检验,根据变量类型自动选择)。
对于RCT,建议不显示P值,因为随机化已确保平衡,P值比较可能误导(基于统计共识,如Nature指南)。
原理:基线表描述样本特征,帮助评估组间相似性。在RCT中,任何差异均为随机;在非随机研究中,它揭示潜在混杂,为后续调整提供依据。表格使用gtsummary包标准化输出,确保专业格式。
调整选项:可修改小数位、统计方法(如参数 vs 非参数),重新生成直到满意。
如果选择PSM(倾向性评分匹配):
操作步骤如下,分四个子步骤。PSM仅支持二分类组别(两组),多组需分步处理。
- 基础设置:
选择组别变量:从下拉菜单选择二分类组别变量(如treatment,只能有两个取值)。系统自动将人数多的组设为对照组,人少的为干预组(符合PSM原则,避免过度丢失干预组样本)。
选择基线变量:多选至少2个需平衡的变量(如年龄、性别)。分类变量水平<30,避免高维度变量(如ID号)导致匹配失败。顺序影响后续表排列。
原理:这些变量用于计算倾向评分(logistic回归模型),量化患者“倾向”于某组的概率。选择过多变量可能导致过匹配或计算缓慢;过多水平变量会增加维度灾难。
- 缺失处理:
选择方式:剔除任何组别或基线变量缺失的患者,或仅对基线变量用KNN(k-最近邻)填补(组别缺失必剔除)。
如果选择KNN,设置k值(建议1-10,小样本用小k避免找不到邻居报错)。
点击处理,查看原始和填补后数据(可下载)。
原理:缺失值会偏倚匹配。KNN基于相似患者填补(最近文献推荐用于PSM,如Statistical Methods in Medical Research),保留更多样本。结局变量不填补,以免引入偏倚。
PSM匹配:
选择方法:如optimal(最优配对,优化总距离)、nearest(最近邻,逐个匹配)、genetic(遗传算法优化)、exact(精确匹配)等。样本大(>2000)很慢,避免慢速方法。
比例(1:N):设置N值(上限基于组间人数比),如1:1平衡样本,1:2保留更多对照。
卡钳值(caliper):输入如0.1(>1个变量时启用),限制匹配范围(小值精度高但样本损失大)。
点击开始匹配,生成:
匹配前后SMD表:SMD<0.1表示平衡好(标准化均值差,优于P值)。
Love Plot:可视化SMD变化(点越靠近0线越好)。
调整图像大小/字体,直到清晰。
原理:PSM模拟随机化,匹配相似评分患者(MatchIt包实现)。方法差异:optimal全局优化;nearest局部贪婪;caliper控制精度,避免不佳匹配。迭代调整参数,直到SMD满意。
匹配前后P值表(可选):
选择连续变量统计(如均值±SD vs 中位数IQR)和检验方法(参数 vs 非参数,可查看QQ图判断正态性)。
设置小数位,生成表显示匹配前后组间P值。
原理:P值表补充SMD,展示平衡(P>0.05表示无显著差异),但SMD更可靠(P值受样本量影响)。旧文献常用P值,但现代指南优先SMD。
完成此部分后,系统使用平衡数据进入第三部分疗效分析。如果不满意,调整参数重新匹配。
第三部分:疗效比较分析
这一部分是整个工具的核心,用于评估不同治疗组的疗效差异。疗效结局为生存资料时,分析焦点在于时间事件数据(如从治疗开始到死亡或失访的时间)。系统采用Kaplan-Meier方法估计生存概率和中位生存期,使用Log-rank检验比较组间曲线差异,并通过Cox比例风险模型计算风险比(HR),评估治疗效果的大小。如果选择了多因素回归,还会调整协变量以控制混杂。整个分析基于生存分析原理:考虑删失数据(censoring,如患者失访或研究结束未发生事件),避免简单均值比较的偏差。Kaplan-Meier是非参数方法,适合描述性分析;Cox模型是半参数方法,允许调整协变量,但需满足比例风险(PH)假设(风险比随时间恒定)。如果PH不成立,结果不可靠,需改用其他模型。
操作步骤如下:
选择时间变量和单位:从下拉菜单选择代表生存时间的变量(如样例中的time),这是一个数值型变量,表示从研究起点(如入组日)到事件发生或最后随访的天数、周数等。接着,选择原始数据的单位(如“天”),告知系统每个单位的时间长度(例如,time=365代表365天)。
原理:时间变量是生存分析的基础,用于计算生存函数。单位选择确保系统正确转换数据(如天转年),避免计算错误。数据必须非负且无缺失,否则影响准确性。
选择状态变量和事件水平:从下拉菜单选择代表患者结局状态的变量(如status),这是一个二分类数值变量(仅0和1)。然后,选择哪个水平表示“事件发生”(如1代表死亡或复发,0代表存活或删失)。确保变量只有两个取值,否则不在菜单中出现。
原理:状态变量处理删失数据(censoring),0表示未观察到事件(右删失),1表示观察到事件。这允许分析包含不完整观察的患者,提高估计的鲁棒性。选错事件水平会导致模型反转(例如,将存活误为事件)。
- 选择分析时间单位和生存率时间点:选择后续统计(如生存率、曲线)的单位(如“年”),系统自动转换(例如,1年=365.25天)。然后,在文本框输入需要展示的生存率时间点,用逗号分隔(如“1,3,5”代表1年、3年、5年生存率)。
原理:单位转换统一分析尺度,便于临床解读。时间点基于Kaplan-Meier估计特定时点的生存概率(S(t)),帮助评估长期疗效,如肿瘤研究的5年生存率。
- 如果选择多因素回归,选择协变量(可选):如果第一部分选择了“多因素回归控制组间混杂”,会出现协变量选择框。多选需调整的基线特征(如年龄、性别),但避免过多(一般不超过事件数/10,以防过拟合)。协变量缺失需事先填补,否则患者被剔除导致样本减少。分类变量水平>20(如ID号)不可选。
原理:多因素Cox模型调整协变量影响,计算调整后HR,控制混杂(例如,年龄大组可能疗效差,但非治疗原因)。Ten events per variable (EPV)规则确保模型稳定(尽管有争议)。变量筛选可避免多重共线性(协变量间相关)。
- 点击生成结果:调整小数位(如生存率1位、HR 2位、P值3位),点击“生成/更新疗效分析结果”。系统计算并显示:
生存率表(Table 2):展示整体和各组在指定时间点的生存率及95%置信区间(CI),组间Log-rank P值。原理:Kaplan-Meier逐事件更新生存概率,CI反映不确定性;Log-rank检验非参数比较曲线差异。
中位生存期表(Table 3):整体和各组中位生存时间及CI(生存概率=0.5的时间点)。原理:从Kaplan-Meier曲线插值,若未达0.5则显示NA。
Cox回归HR表(Table 4):单因素(未调整)和多因素(调整协变量)HR、CI和P值。HR<1表示治疗组风险低(更好疗效)。原理:Cox模型估计相对风险,调整协变量后HR更可靠。
PH假设检验表和Schoenfeld残差图(附录):表格显示每个协变量和全局P值(<0.05表示违反PH);图显示残差随时间散点及平滑曲线(水平线表示假设成立)。原理:基于Schoenfeld残差检验风险比例恒定;违反时,HR不适用,建议分段或时间依赖模型。
生成后,可用AI描述模块点击“用AI描述此表”获取结果段落草稿。
- 生成并调整生存曲线:点击“生成生存曲线”,显示Kaplan-Meier曲线。调整外观:宽度/高度(像素,确保不扭曲)、风险表高度比例、颜色、字体、置信区间、P值位置等。风险表显示各时点风险人数。
原理:曲线可视化生存概率随时间下降,组间分离表示差异(Log-rank P值量化)。风险表显示删失影响(人数减少)。调整确保图美观、高清,适合出版。
结果可迭代更新(如改时间点),确保PH假设成立再解读。
第四部分:亚组分析
亚组分析是主疗效分析的深入扩展,用于考察治疗效果在不同患者子群(如根据年龄、性别、疾病分期等划分)中的一致性或差异。这有助于识别潜在的治疗效果修饰因素,即某些基线特征是否会改变治疗的相对疗效。例如,在一个治疗组 vs 对照组的比较中,分析是否男性患者比女性患者获益更多,从而指导临床决策和未来研究。亚组分析的原理是通过分层建模,在每个子群内单独计算风险比(HR)及其置信区间,同时检验治疗与子群变量的交互作用(P for interaction),以评估异质性。如果交互P值<0.05,表示疗效在子群间显著不同;否则,整体结果适用于所有子群。但需注意,亚组分析易受小样本影响(增加假阳性风险),建议作为探索性分析,仅在生物学合理时解读。系统自动生成单因素(未调整)和多因素(调整协变量)结果,支持分类子群变量(水平较少,避免小样本子群事件数不足导致HR极端)。
本部分仅支持两组疗效比较(三组以上暂不支持),因为多组交互计算复杂,可能导致结果不稳定。需在疗效比较分析完成后进行(使用相同数据和模型设置)。如果前一步选择了多因素调整,这里会自动包括调整后的亚组结果;否则仅单因素。
操作步骤如下:
进入“亚组分析”标签:确认前一步疗效分析已完成,且分组为两组(系统会自动校验,如果分组超过两组,无法 proceeding)。这一步使用主分析的生存时间、状态和分组变量,确保一致性。
选择参照组和观察组:从下拉菜单选择参照组(基准组,如标准治疗组)和观察组(比较组,如新治疗组)。菜单仅显示两个取值(基于主分析的分组)。参照组是计算HR的参考(HR=观察组风险/参照组风险),通常选对照组,便于解读正向疗效(HR<1表示观察组更好)。
原理:亚组分析聚焦二元比较,确保HR方向统一。选错组别会反转结果,但不影响统计显著性。
- 选择亚组变量:从下拉菜单多选分类变量作为子群划分依据(如年龄分组<60 vs ≥60、性别男 vs 女)。变量必须有2-29个水平(太多水平导致子群过细,计算失败或结果不可靠)。建议选临床意义强的变量(如3-5个),避免无关或高维度变量(如医院名称)。
原理:每个变量按水平分层,系统在全人群(Overall)和每个子群内分别建模,计算HR。整体行无交互P值(正常),子群行显示事件分布(事件数/总数 (%)),帮助评估子群样本充分性(小子群事件少,HR CI宽、不稳定)。
- 点击生成结果:点击“生成/更新疗效分析结果”按钮,系统自动计算并显示亚组分析表(单因素或单+多因素,取决于是否调整协变量)。表格结构:
子群列:整体(Overall)和每个变量的水平(子水平缩进显示,如“年龄”下“<60”和“≥60”)。
组别事件率列:参照组和观察组的事件数/总数(%),如“10/50 (20.0)”。显示子群内事件发生情况(仅两组比较)。
HR (95% CI)列:子群内风险比及其置信区间(如1.20 (0.80-1.80))。单因素为未调整,多因素为调整后(控制协变量,如年龄对生存影响)。
P值列:子群内HR的显著性(<0.05表示组间差异)。
交互P值列(P for interaction):检验治疗效果在子群间的异质性(<0.05表示显著差异,如治疗在<60岁组更有效)。
表格底注注明调整协变量(若有)。如果HR为0/Inf/NA或极大,表示子群数据问题(样本/事件太少),需返回合并水平、填补缺失或移除变量。生成后,可用AI描述模块点击“用AI描述此表”获取结果段落草稿,便于论文写作。
结果可迭代更新(如添加/移除子群变量)。如果子群过多或样本小,优先报告交互P值显著的亚组,避免过度解读。
亚组分析森林图
亚组分析森林图是亚组结果的可视化呈现,用于直观展示每个子群的风险比(HR)及其置信区间(CI),以及整体异质性。通过线段(森林线)和点(效应量估计)表示HR,线段越短表示精度越高;中轴线(通常HR=1)分隔有利/不利效果,便于快速识别子群差异和交互作用。原理基于图形化统计:森林图汇总多子群结果,突出模式(如某些子群线段不跨中轴线,表示显著差异),并通过底箭头标注疗效方向(需用户自定义,避免主观偏差)。它补充表格,帮助读者一眼把握关键发现,但需注意小子群CI宽(不确定性大)。本工具允许编辑数据和自定义外观,确保图符合期刊要求(如NEJM风格)。需在亚组分析完成后进行,否则无数据。
操作步骤如下:
进入“亚组分析森林图”标签:确认前一步亚组分析已生成表格(系统自动加载结果)。如果无数据,需返回上一标签完成分析。
查看并编辑可编辑表格:主面板显示亚组结果的交互表格(DT格式),每行对应一个子群或整体,每列包括子群名称、组别事件率、HR、CI、P值、交互P值。双击任意单元格编辑内容(如修正P值四舍五入、调整HR显示格式,或处理极端值如Inf/NA)。编辑后点击生成按钮更新图。
原理:表格是森林图的数据源,编辑允许用户校正计算误差或自定义(如将NA改为“-”),确保准确性。极端值(如HR=Inf)常因小子群事件0导致,编辑可标记为空,避免误导。
- 调整森林图外观选项:侧边栏提供丰富自定义:
横坐标限和刻度:选择自动或手动设置限值(如下限0.5、上限5)和刻度数字(逗号分隔,如“0.5,1,2,3”)。手动压缩限值使线段更一致,美化图。
坐标变换:选择线性(适合差值)或对数(log/log2/log10,适合HR/OR,避免0或负数)。
数值列显示:选择是否额外列出HR (95% CI)文本(如“1.5 (1.0-2.0)”),简化版可隐藏。
效应量标签:修改HR列标题(如“Adjusted HR (95% CI)”)。
P值和交互P列:选择显示/隐藏,聚焦关键信息。
组信息列:选择显示/隐藏事件率或N(样本数)。
底箭头(两组比较):选择显示,并自定义左右箭头文本(如左“Drug A Better”、右“Drug B Better”),表示HR<1/ >1的疗效含义。需用户判断方向。
底注:文本框编辑脚注(如“*事件数/总数 (%) **调整协变量:年龄、性别”),支持多行(回车换行),注明调整因素。
颜色风格:选择预设(如NEJM白底、灰白条纹、绿色等)或自定义(两色交替,经典或调色板)。
数字和图形调整:设置小数位(1-5)、表格字体大小/类型、坐标轴字体、图标形状/大小、线段末端T线长度。
原理:自定义确保图专业(如对数轴使HR对称,便于比值解读;颜色提升可读性)。自动限值基于数据范围,手动优化避免线段过长/短。
- 点击生成森林图:点击“生成/更新森林图”按钮,系统计算并显示图。图包括:
子群列(缩进显示水平)。
事件率或N列(可选)。
HR点和线段(点大小表示权重,线不跨中轴表示显著)。
P值和交互P列(可选)。
中轴线(HR=1)和底箭头(方向指示)。
如果HR极端(如0/Inf),线段为空白,需检查数据。
原理:图汇总亚组HR,视觉化异质性(交互P标注)。交互P检验治疗-子群交互,指导是否报告子群特异效果。
- 下载森林图:生成后,点击下载PNG(高清图片)、PPT(幻灯片)或PDF(矢量图)。调整大小确保不失真。
结果可迭代(如编辑表格后重新生成)。森林图适合论文结果或讨论部分,突出关键子群(如交互显著者),但避免过度分割数据导致假发现。
第五部分 下载Word报告或论文
这一部分用于生成完整的Word报告或论文模板,整合所有分析结果和图表。需在完成前述步骤后进行,确保数据和分析已就绪。报告分为英文版(适合国际期刊)和中文版(适合国内投稿),自动嵌入高清图表和表格。
操作步骤如下:
进入“下载Word报告或论文”标签:点击标签,界面显示英文和中文下载按钮。点击任一按钮,弹出信息收集模态对话框(窗口)。窗口从上到下逐项填写,必填完整才能下载。
填写患者人群描述:在第一个文本框输入研究对象人群(如“接受EGFR-TKI治疗的晚期非小细胞肺癌患者”)。必须填写完整,否则无法显示后续项。示例:接受一线EGFR-TKI治疗的晚期非小细胞肺癌患者;若非患者,填“健康人群”。
填写各分组水平描述:根据分组变量的水平(自动列出,如“Lev”、“Obs”),逐个文本框输入每个组的详细治疗方案(如“nivolumab 240 mg 静脉输注,每两周一次”)。每个水平需独立描述(如剂量、途径、频率),安慰剂填“安慰剂”,无治疗填“常规护理”。必须全部填写,否则无法下一步。示例基于常见方案,但需根据实际修改。
选择研究类型:单选“前瞻性研究”或“回顾性研究”。选择后解锁后续。
如果选择前瞻性,选具体设计:单选“随机对照试验 (RCT)”或“观察性研究”。
如果选择RCT,选盲法类型:单选“双盲”、“单盲”或“开放标签(非盲)”。
填写主要终点描述:在最后一个文本框输入主要结局(如“总生存”)。仅填一个核心指标,示例:Overall survival; progression-free survival 等。
点击下载英文或中文报告:填写完,点击相应按钮生成DOCX文件(文件名随机,如“efficacy3_report_en_1234.docx”)。系统处理几分钟(进度条显示),下载报告。
报告内容包括生成的标题、摘要(分Objective、Method、Result、Conclusion,附关键词)、引言、方法(患者数据、入排标准、干预、随访、统计)、结果(嵌入基线表、生存率表、中位生存表、HR表、生存曲线、亚组表、森林图、PH检验)、讨论,以及附录。每个部分有AI辅助文本描述结果。下载后,用Word打开检查内容(如参考文献真实性、事实准确),手动编辑补充细节(如具体医院、日期)。如果生成失败或不满意,重新填写或下载。
4.6 倾向性评分匹配(PSM)
这是一个全自动做倾向性评分匹配(PSM)的工具。
具备以下功能:
1)瞬间自动生成匹配前后基线特征表和 love plot;
2)可以边看匹配后的结果表格边调匹配参数,实时调整结果,所见即所得;
3)匹配完成后可以继续在匹配前和匹配后的数据基础上做两组疗效比较分析;
3)自动生成Word报告,论文里需要的图表一分钟给您全部准备好;
4)可下载匹配后的数据自行分析。
所谓倾向性评分匹配,用粗俗的话说来就是在非随机对照研究中,因为没有随机分配患者,所以观察组和对照组基线特征有差异,俗称基线不平衡。会使得读者质疑你的疗效分析结果。所以我们只好牺牲一些样本量,从对照组中选择一部分和观察组基线差异较小的患者,来进一步分析疗效(有时候为了效果,观察组也要牺牲掉一部分样本)。
4.6.1 准备数据
首先按照下面的格式准备数据:
下载Excel样例数据(右击另存为)
请务必下载下来参考
数据包括ID号,代表组别的变量如group, 以及需要调整和匹配的协变量如age, gender, smoke, diagnose, stage, program等。另外,还有代表结局的变量,如 blood(连续性),effect (二分类),time 和status (生存)等。
应当注意的是,代表组别的变量, 下面只能包含两个组,如”Treatment” ,“Control”,或者GroupA GroupB等。不能包含两个以上组。三组的PSM本工具暂不提供。
4.6.3 基础设置
首先选择代表组别的字段,这个案例里是group, group字段里面包含Treatment 和 Control两个组,在这两个组间进行PSM。千万不要把ID号、age这样的连续性变量设为组别,程序会崩溃。
然后点击基线变量选择框,按照自己想要的顺序选择需要匹配的变量。
然后点击选择疗效结局指标,这里把结局列出来是防止大家把它们选到基线那里去匹配了,起到个提醒作用。
最后,选定处理缺失值的方式,这里提供了两种方式处理缺失数据,第一种简单粗暴,只要有任何一个进行PSM的字段有缺失值,就把这个患者直接剔除。第二种是用kNN法填补缺失值。大家可以综合自己的数据缺失程度考虑哪种方法。
点击处理缺失值后,即可下一步。这里也可以下载处理缺失值后的数据到自己的电脑。
4.6.4 进行倾向性评分匹配
先选匹配方法,可选的匹配方法现在放出来的主要是optimal, nearest, exact。
下面是文献中对这几种方法的说明:
"Optimal"
performs optimal pair matching. The matching is optimal in the sense that that sum of the absolute pairwise distances in the matched sample is as small as possible. Advantages of optimal pair matching include that the matching order is not required to be specified and it is less likely that extreme within-pair distances will be large, unlike with nearest neighbor matching. Generally, however, as a subset selection method, optimal pair matching tends to perform similarly to nearest neighbor matching in that similar subsets of units will be selected to be matched.
"Nearest"
performs greedy nearest neighbor matching. A distance is computed between each treated unit and each control unit, and, one by one, each treated unit is assigned a control unit as a match. The matching is “greedy” in the sense that there is no action taken to optimize an overall criterion; each match is selected without considering the other matches that may occur subsequently.
"Exact"
performs exact matching. With exact matching, a complete cross of the covariates is used to form subclasses defined by each combination of the covariate levels. Any subclass that doesn’t contain both treated and control units is discarded, leaving only subclasses containing treatment and control units that are exactly equal on the included covariates. The benefits of exact matching are that confounding due to the covariates included is completely eliminated, regardless of the functional form of the treatment or outcome models. The problem is that typically many units will be discarded, sometimes dramatically reducing precision and changing the target population of inference.
然后optimal 和 nearst 法可选择1:N匹配。
可选的N值上限是程序根据您两组的样本量自动计算的,程序自动认定不会超过两组患者数的比值。
另外,nearest可选caliper, caliper 可以自己随便调整,比如从0.01调整到0.5都可以,值越小,则匹配越精切,但样本量损失就越多。大家可以根据提示,看着生成的图表来调参,一边调整caliper一边看图形,以达到满意的结果。
在生成的表1中,可以实时看到匹配前后的样本量和SMD值。尝试改变各种参数使得SMD值低于0.1即可。
可以看着下面生成的图调整:
调整参数使得绿色的点全部位于虚线左边就算成功。当然,有个别的点,实在没办法低于0.1也不要紧。科研嘛,还是要考虑科学性和现实性的平衡。
4.6.7 下载匹配后数据
点击”下载匹配后数据”选项卡,可以看到匹配后的数据,从ID号我们可以看出,有一部分人已经被剔除了。
点击 “download all data” 即可下载,下载到自己电脑上后可以自己随便玩,当然也可以在本APP上继续往下走做匹配后的疗效分析。
4.7 寻找治疗有效和无效人群(治疗组和一个连续性指标的交互作用限制性立方样条图)
交互作用立方样条图是一种在统计分析中用于探索和解释变量之间相互作用的可视化工具,特别是在处理治疗组(如药物治疗与否)与一个连续性变量(如年龄、血压等)之间的交互作用时。这种方法通过使用限制性立方样条(restricted cubic splines,RCS)来灵活建模连续变量,从而允许研究者准确估计治疗效果如何随连续变量的不同水平而变化。
在医学研究中,理解和解释治疗效果如何受到其他连续性生物标志物或临床指标的影响是至关重要的。例如,在研究某种新药对高血压患者的效果时,研究者可能需要考虑药物效果如何随患者年龄的不同而改变,因为年龄可能会影响药物的代谢和效能。通过使用交互作用立方样条图,研究者能够直观地展示出治疗效果随着年龄变化的趋势,进而为个性化医疗提供依据。
具体来说,这种分析方法可以帮助解决如下问题:
确定某一治疗是否对不同子群体有不同的效果;
研究连续性变量如何调节(即加强或减弱)治疗效果;
为临床决策提供更精细化的指导。
案例 1:
在一项关于新型心血管疾病药物治疗的研究中,研究者可能专注于探讨药物对降低心血管事件(如心肌梗死或中风)发生风险的效果,特别是这种效果如何随着患者的胆固醇水平变化而变化。在这个例子中,治疗的结局是二分类的:心血管事件的发生(是/否),而胆固醇水平是一个重要的连续性变量,可能会影响药物的疗效。
研究的目标是确定在哪个胆固醇水平区间内,患者从药物治疗中获得的心血管保护效果最大。通过构建一个包含药物治疗与胆固醇水平交互作用的逻辑回归模型,并利用限制性立方样条(RCS)来灵活描述胆固醇水平的影响,研究者可以评估心血管事件风险随胆固醇水平变化的趋势。
研究结果可能表明,对于中等胆固醇水平的患者,新型药物显著降低了心血管事件的风险;然而,在非常高或非常低的胆固醇水平中,药物的保护作用减弱。这表明胆固醇水平在药物疗效中扮演了调节作用,且存在一个最优的胆固醇水平区间,使得心血管保护效果最大化。
通过绘制交互作用立方样条图,研究者可以直观地展示药物预防心血管事件的效果如何随胆固醇水平的不同而变化,从而为医生提供了一个有力的工具来判断在何种胆固醇水平下推荐该药物治疗,以最大限度地减少患者心血管事件的风险。这种方法促进了针对特定胆固醇水平患者群体的个性化治疗策略的发展,有助于更精确地定位治疗效果,提高临床治疗的整体效能。
案例 2:
在心血管疾病的预防研究中,研究者可能会关注一种新的生活方式干预措施(如定期运动)对于不同血压水平人群的效果。这项研究的目的是探索血压这一连续性变量的特定取值范围内,哪些人群在接受干预后能获得更显著的健康效益。使用交互作用立方样条图,可以灵活地描绘出干预效果随着血压不同水平的变化趋势。
具体而言,研究可以建立一个模型,将参与者分为接受生活方式干预的组和未接受干预的对照组,同时考虑血压作为连续性变量的影响。通过应用限制性立方样条(RCS),模型能够灵活地捕捉干预效果随血压变化的非线性关系。
例如,研究结果可能显示,在正常血压和轻度高血压的人群中,生活方式干预能显著降低心血管疾病的风险;而在已经有严重高血压的人群中,干预的效果减弱。这种分析不仅揭示了哪一范围的血压水平下干预最有效,也为针对特定血压水平的人群设计更个性化的预防策略提供了依据。
此外,通过绘制交互作用立方样条图,研究者可以直观地展示干预效果如何随着血压水平的不同而变化,从而为医生和患者提供更明确的指导,帮助他们理解在何种血压水平下采取生活方式干预措施能获得最大的健康益处。这样的研究不仅有助于优化干预策略,还能促进个体化医疗的发展。
本软件功能:
一键计算交互作用 p for interaction。
一键绘制交互作用限制性立方样条图。
一键标记干预有效范围的拐点。
一键拆分亚组做阈值分析。
一键绘制亚组分析森林图。
支持 线性/Logistic/Cox 回归
交互作用RCS:
阈值/亚组分析:
亚组分析森林图:
方法学来源:
2022年的一篇 JAMA 子刊:
另外的文献举例:
准备自己的研究时,可以参考一下几篇文章,照猫画虎很快就模仿出来高分 SCI 了:
Marston NA, Pirruccello JP, Melloni GEM, et al. Predictive Utility of a Coronary Artery Disease Polygenic Risk Score in Primary Prevention. JAMA Cardiol. 2023;8(2):130–137. doi:10.1001/jamacardio.2022.4466
Patel KK, McGhie AI, Kennedy KF, Thompson RC, Spertus JA, Sperry BW, Shaw LJ, Bateman TM. Impact of Positron Emission Tomographic Myocardial Perfusion Imaging on Patient Selection for Revascularization. J Am Coll Cardiol. 2023 Oct 24;82(17):1662-1672. doi: 10.1016/j.jacc.2023.08.027. PMID: 37852696.
4.7.1 准备数据
首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
打开如下图:
本样例数据的规则:
一个患者一行(这是准备数据最重要的前提)。
每个患者准备两大类数据,影响因素变量和结局变量:
如图所示,hospital, treatment, age, age2, sex, obstruct, prfor, adhear, differ, extent 为影响因素(自变量),而blood, effect, status, time, occurrence在本例中是结局变量。
影响因素变量有两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄(岁)、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等),在本例中 age是连续性变量(numeric), 其他的是分类变量(factor)。age单位为”岁”时为连续变量,而age2为年龄段分组,这时候为分类变量。
以上概念很重要,后面有一个页面专门设置连续变量和分类变量。
结局变量在本工具中分为几类:
连续型结局变量
如本例中的blood(某血液检测指标)
二分类结局变量
如本例中的effect(疗效)为二分类变量(Good,Bad)
生存型结局变量
需要用两个变量组合来表示,如本例中的status和time。
status代表患者在研究结束时的状态,在本工具中只能取0和1两个数字,不要用字符文本,否则会出错。0 代表没观察到事件发生(如没死或者失访),1 代表观察到了事件发生(如已经死亡且录入了死亡日期)。
time代表从开始日期(开始日期的定义由你的研究目的决定,如随机对照研究往往取随机化入组的那一天为开始日期,而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定)到结局日期的时间差。当status=1时,结局日期为发生事件(如死亡)的日期,当status=0时,结局日期为最后一次活着的日期(如研究结束日,或随后一次随访日)。
总之,time是一个数值型变量,您需要填入患者从开始到死亡或者随后一次随访时,一共活着的天数。如time为56,status为1时代表患者从开始到死亡活了56天;当time为56,status为0时代表患者没观察到死亡,从开始到最后一次随访,活了56天。
准备数据时,time填入一个非负的整数,status填入0或1,time和status都不能为空,每个患者都必须填入数字。time或status不确定(缺失)时,该患者最好不要放入本数据库。
4.7.2 进入模块
接下来我们进入模块,点击软件顶部菜单的“疗效和安全性分析”,然后点击“10+ 分 SCI 神套路,寻找治疗有效和无效人群:连续性变量和治疗组交互作用的立方样条图(2023 JAMA 子刊的新方法,大热中)” 进入模块:
4.7.3 生成交互作用限制性立方样条图
4.7.6 阈值分析/亚组分析
如何在我们的软件中进行人群的阈值分析/亚组分析,以便探讨不同人群在特定阈值下的疗效差异。以下是详细的操作步骤:
4.7.6.2 输入分割点的值
根据您选择的亚组数量,软件将要求输入相应数量的分割点值。例如,如果您选择将人群分割成3个亚组,则需要输入2个分割点的值,这些值将用于划分人群。
为每个分割点提供一个输入框,用户需要在每个输入框中填写分割点的具体值。
4.8 安全性分析和不良反应AE表格
4.8.1 安全性分析与AE表格概念
安全性分析: 在临床试验中,安全性分析是一个关键环节,它涉及监测和评估药物或治疗方法对参与者的潜在不良影响。这种分析的主要目的是确定治疗的风险和益处,确保患者安全。
AE表格: AE(Adverse Events,不良事件)表格是安全性分析的一个重要组成部分。它记录了临床试验中患者所经历的所有不良事件,包括事件的类型、发生频率、严重程度以及与治疗的关联性。这些表格有助于临床研究员快速了解治疗方法的安全性状况。
4.8.2 数据集准备
在使用本软件之前,需要准备两种数据集:
ADAE 数据集 - 这是一个包含不良事件信息的CSV格式数据集。它应包含临床试验期间记录的所有不良事件,以及相关的详细信息。
ADSL 数据集 - 这是另一个CSV格式数据集,包含患者的基本特征信息。这些信息可能包括年龄、性别、病史等。
如果您的临床试验数据是 CDISC 标准格式,请直接上传 ADAE 和 ADSL 这两个名称的数据集即可,如果您的数据不是 CDISC 格式,是您自己收集的数据,请按照以下模板来准备数据:
ADSL:
ADSL 数据集的特点是一个患者一行,包含所有的患者,每个患者有一个ID号如 USUBJID,这个ID号是不能重复的,
这个数据集主要是提供所有患者的ID号以及治疗分组(ARM),用来做 AE 表格的总人口分母。
ADAE:
ADAE 的特点是只包括发生AE的患者,且一个患者多行。患者 ID号例如 USUBJID 需要和 ADSL 里的 ID 号相同,可以重复多次,每个患者可以发生多次 AE,因此 ID 号可以重复。治疗组别 ARM 也必须和 ADSL 保持一致。AEDECOD 表示具体的AE名称,例如头痛,虚弱等;
AEBODSYS 表示AE的类型,例如神经系统AE,消化系统AE,用来归类。
一个患者可以发生多次头痛,需要重复多行,每行代表发作一次(发作的时间可以记录在另一个字段中)
4.8.4 软件操作步骤
启动软件并加载数据:
打开软件,你将看到一个用户界面,其中包含多个选项卡。
选择”生成不良事件AE表格”选项卡。
通过点击相应的按钮上传ADAE和ADSL数据集。
配置表格选项:
根据上传的ADAE数据集,动态生成下拉菜单以选择特定字段,如治疗组别、患者ID、AE名称和AE系统分类。
根据所选字段,软件将处理数据并准备生成AE表格。
生成AE表格:
点击”生成/更新AE表”按钮。
软件将根据选择的字段和上传的数据生成AE表格。
生成的表格将在主面板中显示。
下载报告:
切换到”下载Word报告”选项卡。
点击”点此下载word文档”按钮,即可下载包含AE表格的Word文档。