Chapter 2 数据准备

2.1 数据规范

按照规定的标准准备数据,才能被统计软件正确识别并进行下一步的统计分析。此处介绍通用的研究数据格式,除此之外,有一些统计分析需要特殊的数据格式,将在每个统计模块中单独介绍。

首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):

下载csv样例数据(右击另存为)

打开如下图:

本样例数据的规则:

  1. 一个患者一行(通用数据一般一个患者一行,有些特殊分析如混合效应模型需要一个患者多行数据,将在每个具体统计模块单独的教程中介绍如何准备数据)。

  2. 每个患者可以准备几类数据,1)一般人口学特征或临床特征变量 2)干预变量(如治疗分组) 3)结局变量(如OS、是否客观缓解 等)。

    如图所示,Hospital, Age, Sex, Obstruct, Prfor, Adhear, Differ, Extent 为一般变量(常用于基线特征或影响因素等自变量);

    Treatment 在本例中是治疗分组变量;

    而Objective Response, Blood test, Effect, OS_status, OS_time, occurrence在本例中是结局变量。

  3. 变量属性有两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄[岁]、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等),在本例中 age是连续性变量(numeric), 其他的是分类变量(factor)。age单位为”岁”时为连续变量,而age_group 分组为<18, 18-60, ≥60 为年龄段分组,这时候为分类变量。

    以上概念很重要,后面有一个页面专门设置连续变量和分类变量。

  4. 结局变量在本工具中分为几类:

  • 连续型结局变量

如本例中的 Blood_test(某血液检测指标)

  • 二分类结局变量

如本例中的 Objective Response (是否客观缓解),可以取值为 Yes 和 No 两个值, 用以统计客观缓解率(ORR),同理,可以自行增加 Disease Control、是否病理缓解等其他二分类指标,如本例中的 自定义的临床结局 Effect(自评感受)也是一个二分类变量(Good,Bad)。

  • 生存型结局变量

需要用两个变量组合来表示,如本例中的 OS_status 和 OS_time。

status 代表患者在研究结束时的状态,建议取 0 和 1 两个数字。0 代表没观察到事件发生(如没死或者失访),1 代表观察到了事件发生(如已经死亡且录入了死亡日期)。当然不用 0 和 1,用其他数字或文本也没有问题。

time 代表从开始日期(开始日期的定义由你的研究目的决定,如随机对照研究往往取随机化入组的那一天为开始日期,而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定)到结局日期的时间差。当 status=1 时,结局日期为发生事件(如死亡)的日期,当 status=0 时,结局日期为最后一次活着的日期(如研究结束日,或随后一次随访日)。

总之,time是一个数值型变量,您需要填入患者从开始到发生事件(例如死亡)或者随后一次随访时,一共活着的天数。如 time 为56,status为 1 时代表患者从开始到死亡活了 56 天;当 time 为56,status为 0 时代表患者没观察到死亡,从开始到最后一次随访,活了56天。

准备数据时,time 填入一个非负的整数,status 填入 0 或 1,time和status都不能为空,每个患者都必须填入数字。time 或 status 不确定(缺失)时且未填充缺失值时,该患者在分析时会被排除在分析集外。

  • 计数型结局变量

计数型的结局变量为一个非负的整数,如本例中 occurrence,是急性发作次数,无法取负数,也不可能取小数。

  • 分数型结局变量

当结局变量为一个分数,如发病率、患病率等,结局包含一个分子和一个分母。如要研究全国各地疾病患病率的影响因素时,按照每个地区一行来准备数据,分子和分母设置成两个变量(列),如分子为患病人数,分母为地区人口数。

准备数据的规则是:分子和分母都是非负整数,不允许填入负数,也不允许填入小数,分子的数值不能大于分母。

最重要的一点 ,需要注意的是,在本软件中,无需用 0, 1 等数字 来代表是、否,或者代表研究组和对照组,无需用1, 2 等数字来代表男性、女性;无需用 1,2,3,4 等数字来代表职业等

请填写原始文本,例如 Male、Female ,或者”试验组”,“对照组” 等文本,直接准备数据即可;

使用原始文本,做出的统计图和统计表可以直接发表,而数字 1,2,3 等分析出来图表,还要手工修改,非常麻烦;

另外,在用人工智能自动撰写论文的时候,1,2,3 等数字也是人工智能理解不了的,会影响生成论文的可读性;

如果您的数据里面全是 1,2,3 等数字,可以在导入数据模块里面的数据重编码模块中批量替换为原始文本。

2.2 数据导入

2.2.1 快速检查清单

  • 文件大小:基础版不超过 1 MB;VIP 版不超过 20 MB。
  • 支持的数据文件格式包括 CSV、xlsx、RDS等:
  • 推荐格式:CSV(UTF-8);再次导入更推荐使用在软件内生成的 RDS 文件。
  • 缺失值:建议留空;如果原文件用 NA、圆点等字符占位,请先另存为 CSV(UTF-8)再导入。
  • 中文内容:包含中文时,务必保存为 CSV(UTF-8),以避免乱码。
  • 表格规范:首行是表头;不要使用合并单元格;含有公式的单元格请粘贴为数值。

2.2.2 导入您的科研数据

点击顶部菜单栏的“数据准备”菜单,点击“导入数据”选项卡;

在页面的 “数据源选择” 中点击 「导入您自己的科研数据集」

2.2.2.1 选择文件并上传

在左侧面板阅读“格式要求 / 缺失数据 / 中文支持”的提示后,点击 “浏览…” 按钮选择你的数据文件。

  • 优先选择 CSV(UTF-8)。
  • 如果是再次导入,更推荐选择上次在软件里导出的 RDS 文件。

2.2.2.2 点击“导入数据”

上传完成后,必须点击左侧面板底部的 “导入数据” 按钮。这一步会把已上传文件真正读入系统。

2.2.2.3 确认是否成功

右侧会出现两个状态区域:

  • 是否上传成功:确认文件已成功上传。

  • 是否导入成功:确认数据已被系统读取。

当两处显示正常时,下方会出现一个可滚动的数据预览表,用于快速自检。

2.2.2.4 预览并自检

“浏览数据,看有没有问题” 中进行快速检查:

  • 上下滚动查看是否出现乱码或错列。

  • 左右滚动确认变量名是否完整。

  • 核对中文是否正常、缺失是否符合预期。

2.2.2.5 前往“定义字段”

确认无误后,回到页面上方,点击 “定义字段”,设置变量类型、变量名等内容,随后即可继续统计分析与作图。

2.2.3 上传与导入的注意事项

2.2.3.1 文件格式与编码

  • 首次导入强烈建议使用 CSV(UTF-8)。

  • 包含中文内容时,务必保存为 CSV(UTF-8)。

  • 若出现导入异常或乱码,优先用 Windows 自带的记事本软件将文件另存为 CSV(UTF-8)后再尝试。

2.2.3.2 缺失值处理习惯

  • 建议用单元格留空的方式(而不是敲入一个空格符号)表示缺失值。

  • 若原文件用 NA、圆点等字符占位,则将数据用 Windows 自带的记事本软件另存为 CSV(UTF-8),而不要用 xlsx 等格式,否则可能不识别 NA 等标识缺失数据的标记(在 xlsx 文件中,NA 识别为文本 “NA” 而不是缺失值将导致整列变成文本属性导致分析混乱;在 csv 和 rds 文件中 NA 可以直接代表缺失值)。

2.2.3.3 表格结构规范

  • 首行必须是表头;

  • 每列只对应一个字段含义;

  • 不要使用合并单元格;

  • 含有公式的单元格请转换为静态数值;

  • 不能有相同名称的字段,也即列名不得有重复;

  • 列名不得包含英文冒号。

2.2.4 常见问题与快速排查

2.2.4.1 预览出现中文乱码

将文件用表格软件或 Windows 自带的记事本重新另存为 CSV(UTF-8),再导入。

2.2.4.2 上传成功但导入失败

多与分隔符、编码或表头有关。请按以下顺序排查:

  • 重新另存为 CSV(UTF-8)。

  • 确认首行是表头、没有合并单元格。

  • 确认每列仅一个字段含义。

2.2.4.3 文件太大

  • 基础版请控制在 1 MB 以内;VIP 版在 20 MB 以内。

  • 可删除与本次分析无关的列以压缩数据大小。

2.2.4.4 缺失值展示异常

将不规范的标识缺失值的占位符清理为真正的空白; 如果使用 NA 或圆点等标识缺失值,则必须用 CSV(UTF-8)格式的数据文件。

2.2.4.5 成功导入的可见迹象

  • “是否上传成功”“是否导入成功”均显示正常。

  • 数据预览表可顺畅滚动浏览,中文不乱码。

  • 变量名清晰、行列对齐。

  • 在“定义字段”中能够正常识别和设置变量。

2.3 定义字段

这一部分帮助你在导入数据后,完成变量筛选、变量改名、与变量属性设置(numeric/factor),确保后续统计分析按预期运行。

关键提醒:本页的设置会直接影响后续模型与图表的结果。请务必在完成设置后点击底部 “应用更改”,直到按钮变绿,再进入下一步。

2.3.1 进入“定义字段”

导入数据后,从顶部右侧导航进入 “定义字段” 页面。

2.3.2 勾选要参与分析的变量

  • 在变量列表中勾选你要继续分析的变量;也可以选择全选

  • 未勾选的变量将不会进入后续分析与表格。

2.3.3 变量改名(显示名)

  • 变量名称栏直接修改成你希望在统计表中展示的名称,例:age 改为 Age (years)

  • 支持中文命名;

  • 不要使用英文冒号 :(系统会将冒号替换为点 . 以避免报错)。

2.3.4 设置变量属性(核心)

  • 连续性变量 → 设为 numeric(或 integer)。

  • 分类变量 → 设为 factor

  • 特别注意:数值编码代表类别的列(如 1/2/3/4 实际表示“工人/农民/知识分子/干部”)必须手动改为 factor

  • 系统会将字符型变量默认识别为 factor;如果该列本应是连续数值,请手动改回 numeric

科普知识:

  • 连续性变量(continuous / numeric):取值在区间内可任意变化的数值型变量,例如年龄、BMI、血糖、测量时间、生存天数等。常用的描述为均值±标准差中位数(四分位数);常见图形为直方图/密度图/箱线图。在推断上,常配合 t 检验/ANOVA/相关分析;在回归模型(线性、Logistic、Cox 等)中,系数解释为自变量每增加 1 个单位对结局的影响大小(如 OR/HR/Beta 的变化)。

  • 分类变量(categorical / factor):用于表示类别的变量,包括名义型(如性别、分组)与有序型(如轻/中/重、I–IV 期)。常用的描述为例数(%);常见图形为条形图/堆叠条形图/马赛克图。在推断上,常配合 卡方检验/费舍尔精确检验/趋势检验;在回归模型中需要设定参考组并建立哑变量(dummy variables),系数解释为与参考组相比的效应差异。有序型变量可设为有序因子,便于做趋势性检验。

  • 常见错误

    1. 1/2/3 代表类别却按连续数值处理,导致错误统计结论;

    2. 一列数值中夹杂 “<0.002”、“未测” 等文本,导致整列被识别为分类,从而影响统计;

    3. 数值型变量错误设置为分类变量,导致分类有几百上千类,导致后续统计分析卡死系统导致错误结论。

  • 实操建议

    1. 对“数字编码但含义为类别”的变量,请改为文本并设为 factor(如 1/2→Male/Female)。

    2. 有序分类变量建议设置为’factor’,但还需要在后面的“因子排序”页面将分类按照从小到大的顺序排列。

    3. 一列数值中夹杂 “<0.002”、“未测” 等文本,有一些约定成俗的数据清洗方法,例如”未测”删掉变成缺失数据处理。“<0.002” 这样的文本改为数值 0.001 (最小可测数值除以二)处理。

2.3.5 点击“应用更改”

  • 在页面底部点击 “应用更改” 按钮。

  • 即使你没有做任何修改,也必须点击一次,直到按钮变绿,表示设置已生效。

  • 当变量较多时,从点击到变绿可能需要一点时间,请耐心等待。

2.3.6 查看“概览”核对结果

  • 切换至 “原始数据概览”“修改后数据概览” 两个页签进行对比核对:

    • 变量类型(numeric / factor)是否按预期;

    • 新的变量展示名称是否已生效;

    • 分类变量的水平数量是否合理;

    • 样本量是否无意变化。

2.3.7 常见提醒

2.3.7.1 缺失值的统一处理

  • 系统会将常见的缺失写法(如 NAN/A#N/A. 等)自动识别为缺失值,以便后续分析。

2.3.7.2 特殊字符与命名规范

  • 英文冒号 : 在变量名与取值中会被自动替换为点 .,以避免报错。

  • 变量命名建议简洁清晰、不含多余标点;单位可放在括号内,例如 Age (years)

2.3.7.3 字符与因子的默认行为

  • 字符型变量在本页通常会默认设为 factor;如不符合你的预期,请手动改成 numeric 或合适的类型。

2.3.7.4 常见问题与快速处理

  • 分类变量显示成数字:将该列类型改为 factor;必要时在后续表格或图表中再添加分组标签说明。

  • 连续变量被当成分类:xlsx文件中,如果错误地将一列数字定义成了文本,则此处可能 识别为factor,这将引发后续统计的重大错误,可将该列类型改为 numeric 。但是需要十分注意的是,有些数据集,尤其是实验室检查的指标,几乎是一整列的数字,但是中间混杂了几个文本,例如”不可测”, “<0.002”,“未知” 这样的文本,属于数据清洗的重大问题,这样的数据会造成统计软件将这一列作为文本处理,识别为分类变量,将引发重大错误(数据问题大部分是因为这个原因引起),如果将这样的数据强行定义成 “numeric” 会引发乱码,造成统计结果错误,务必要仔细核查。

  • 点击“应用更改”不变绿:确认至少选择了变量;等待片刻;变量多时应用需要时间。若仍无响应,可减少批量、或刷新后重试(刷新前注意保存其他页面设置)。

  • “修改后数据概览”和预期不一致:回到列表重新调整类型或名称,再次点击“应用更改”,然后刷新“修改后数据概览”。

2.3.7.5 完成后的标志

  • “应用更改”按钮显示为绿色

  • “修改后数据概览” 中变量类型正确、名称已生效、分类水平合理;

  • 可以顺利进入后续的统计分析与作图模块。

2.3.7.6 小贴士

  • 优先完成变量类型变量命名这两件大事;它们直接影响分析结果与最终表格的可读性。

  • 本页设置可反复进入修改;每次修改后都要记得 “应用更改”

2.4 缺失值填补

本页用于在导入与“定义字段”之后,对数据中的缺失值(NA)进行合理处理。你可以选择普通填充(按统计量或规则)或模型填充(KNN、随机森林),并对填补前后数据进行对比与导出。

提醒:缺失率超过 40% 的变量,一般不建议填补并用于后续分析;若确需分析,建议在建模阶段采用多重填补(MI)并做敏感性分析。本页不执行 MI。

2.4.1 何时填补、何时跳过

  • 建议跳过:变量缺失率 > 40%;标识性文本(姓名、住址、自由文本病史等);与研究结局无关的辅助字段。

  • 建议填补:关键协变量或结局伴随少量/中等缺失;面板/纵向数据中少量间断缺失。

  • 多重填补(MI)放在建模阶段:若计划发表或做严格推断,建议到“传统单因素多因素分析”模块使用多重填补(MI)。

2.4.2 进入“缺失值填补”

在“数据准备”中点击“数据治理修改筛选”,在打开的导航栏中点击 “缺失值填补” 页面。如暂不填补,直接跳过到下一页即可。

2.4.3 选择填充类型

在左侧设置区选择:

  • 普通填充:仅对你选中的变量进行填补;适合定点、可控、可追溯的填补。

  • 模型填充:对整个数据集参与建模填补(数据量大时较慢)。建议先在前一步屏蔽与分析无关的长文本变量以免拖慢速度或导致失败。

2.4.4 普通填充(按统计量或规则)

2.4.4.1 选择要填补的变量

  • 连续性变量(numeric):在“请选择要填充的连续性变量”中勾选。

  • 分类变量(factor):在“请选择要填充的分类变量”中勾选。

2.4.4.2 选择“统计量填充”或“规则填充”

  • 统计量填充
    • 连续:均值填充 / 中位数填充 / 众数填充 / 三倍标准差填充 / 负三倍标准差填充(用于压力测试或保守替代)。

    • 分类:众数填充 / 将缺失值单独作为一个分类 Unknown(便于在表格中透明呈现缺失)。

  • 规则填充(多用于按时间排序的纵向数据):
    • 连续:纵向缺失值用上一个值替换 / 纵向缺失值用下一个值替换 / 固定值填充(自定义一个常数)。
    • 分类:同上,可选择固定值并输入具体文本标签。

小贴士:上/下一个值规则适用于同一对象的时间序列;请确保数据已按时间排序。

2.4.5 模型填充(KNN / 随机森林)

  • 方法选择:KNN 填充法 或 随机森林填充法。

  • 参数:KNN 的 k 默认 10;若报错或过慢,可适当减小 k

  • 范围:模型填补默认让全体变量参与以互相“借力”预测缺失;与分析无关的冗余/文本变量会拖慢速度,建议在前一步剔除或屏蔽。

  • 适用场景:变量之间相关性较强、缺失率中低、希望利用多变量信息进行更“智能”的推测。

2.4.6 填补位置(是否覆盖原变量)

  • 选择 “原变量上填充”“新生成变量填充”
  • 若选择新生成变量,请设置后缀(默认 _imputed),如 Age_imputed
  • 建议:为可追溯性,先用新变量生成,确认无误后再决定是否覆盖原变量。

2.4.7 执行与复位

  • 点击 “开始填充” 执行,进度条显示处理进度。
  • 如需撤销,点击 “复位(取消所有修改)” 恢复到填补前状态。

2.4.8 浏览与导出

  • 右侧表格展示 “填补结果如下”
  • 下方切换 “填补前数据概览”“填补后数据概览”,对比变量类型、缺失比例与分布。
  • 点击 “下载修改后数据” 导出 .xlsx 文件,用于留存或后续分析。

2.4.9 统计影响小科普

  • 缺失机制
    • MCAR(完全随机缺失):对估计影响最小;简单填补较可接受。

    • MAR(依赖已观测值):模型/多重填补更合适。

    • MNAR(依赖未观测值):任何填补都可能有偏,需在设计与收集环节下功夫,并在报告中讨论局限。

  • 方法对结果的影响
    • 单次填补低估不确定性,标准误偏小,p 值可能过于乐观

    • 将缺失值设为 Unknown 可保持样本量,但会影响类别分布与回归系数解释。

    • 多重填补(MI)能更好地反映不确定性,建议在建模阶段配合主分析/敏感性分析使用。

2.4.10 常见问题与排查

  • 运行慢/报错:减小 KNN 的 k;在“定义字段”前先去掉与分析无关的长文本列;仅选择需要填补的变量。

  • 仍然显示缺失:检查是否勾选了变量、是否选择了方法并输入必要参数(固定值、后缀等)。

  • 类型异常/乱码:列中混有 “<0.002”、“未测” 等文本会导致整列被当作分类;请先在“定义字段”中规范类型或在数据治理环节清洗。

2.4.11 成功完成的标志

  • “填补后数据概览” 中 NA 减少且数值合理;

  • 连续变量统计量(均值/中位数/极值)与常识一致;

  • 分类变量新增 Unknown(若选择此策略)且占比可解释;

  • 导出的文件包含你设置的后缀新变量,便于追溯。

2.4.12 温馨提示

  • 重要结论建议用 多重填补(MI) 做敏感性分析并记录参数;

  • 尽量从数据源头减少缺失;填补是无奈之举,透明记录才是对读者与审稿最友好的做法。

2.5 连续性变量分组转换

连续性变量(如年龄、BMI、检测值等)按指定规则分组并转为分类变量,便于做分层展示、列联表、条形图或按组比较。

提醒:分组后的变量适合做展示与分层分析;若要做回归建模,建议同时保留原始连续变量,避免信息损失与阈值偏倚。

在“数据准备”中点击“数据治理修改筛选”,在打开的导航栏中点击 “连续性变量分组转换” 页面。如暂不分组,直接跳过到下一页即可:

2.5.1 选择变量

  • 在“请下拉选择需要离散化分组的连续性变量”下拉框中选择目标变量。

  • 只能看到数值型(numeric)且唯一值 > 2 的变量;如未出现,请回到“定义字段”将其设为 numeric,或清理夹杂文本的异常记录。

2.5.2 选择分组方法

  • 自定义分组界值(拐点):手工输入阈值,更贴合专业知识或指南阈值。

  • 按照每组人数自动均衡分组(frequency):每组样本量尽量相等,最常见的分组方式。

  • 按照每组取值范围自动均衡分组(interval):每组区间宽度相等,需要界值取整的分组方式。

  • K-means 聚类分组(cluster):按数据聚类自动找组,适合明显多峰或聚类结构。

2.5.3 选择分组数

  • 通过“请选择需要分成几个组”滑块设置(2–30 之间,上限也受该变量唯一值数量限制)。

  • 建议一般取 2–5 组;组数过多会稀释样本、降低统计功效并增加解释难度。

2.5.4 固定拐点的设置(仅“自定义分组界值”)

  • 系统根据最小/最大值生成 n−1 个拐点输入框;请在最小值与最大值范围内设置。

  • 选择分割方式< 和 ≥≤ 和 >(影响边界点归属)。

  • 系统会生成默认组标签(如 < 6060 - 80≥ 80),你也可以逐一修改为临床更易读的名称。

2.5.5 等频分组的标签(仅“人数自动均衡分组”)

  • 可选择“是否显示上下限范围”
    • 显示:在标签中附带原始区间(如 Q1 [3.2–5.8])。

    • 不显示:仅显示前缀(L/M/HQ1–Q4G1–Gn 等)。

  • 系统会根据组数自动选择前缀:2 组→L/H;3 组→L/M/H;4 组→Q1–Q4;5 组→P20–P100;其他→G1–Gn

2.5.6 新变量命名与位置

  • 在“输入分组后的新变量名称”中填写新变量名(默认 原变量名_group)。

  • 禁止与原变量同名;如同名系统会弹窗提示。

  • 新变量会被插入到原变量右侧,便于前后对照。

2.5.7 执行与复位

  • 点击 “进行离散化分组” 执行分组;如需撤销全部分组,点击 “复位(所有分组清零)”

2.5.8 查看结果与下载

  • 原数据:左侧为直方图,右侧为该变量的统计概览(均值±SD、中位数(四分位)、最小/最大)。

  • 分组后数据:左侧直方图叠加红色分割线;右侧为分组频数表与横向条形图(高度会随组数动态调整,含 Missing)。

  • 底部页签可切换 “分组前/分组后数据库概览”,对比变量类型与缺失概况。

  • 点击 “点此下载分组后数据” 导出 discretized_data.xlsx

2.5.9 质量核对清单(强烈建议)

  • 边界归属是否符合预期(< 和 ≥≤ 和 >)。

  • 标签顺序与命名是否清晰、一致且便于排版。

  • 每组样本量是否过小(极小单元会导致回归不稳定或无法估计)。

  • Missing 比例是否合理,并在报告中明确说明处理方式。

  • 与原变量分布是否一致(分组线是否卡在峰谷处,是否反映临床阈值)。

2.5.10 统计小科普

  • 为何在临床研究中进行离散化? 很多分析与汇报需要按人群分层给出结果(如不同年龄段、不同指标水平的事件率),并据此制定纳排标准、干预阈值与随访策略。把连续指标分成若干临床有意义的等级(如正常/边界/异常、高危/低危)能直接形成可操作的风险层级,更贴近日常诊疗与指南表述。

  • 回归系数的临床可读性:连续变量直接入模时,系数表示“每增加 1 个单位风险变化多少”,解释受量纲影响(mmHg、mg/dL、U/L 等),临床直观性弱。离散化为分类变量后,回归结果可用“相对参考组的 OR/HR/β”呈现,直接表达某一人群层级的风险差异,更具临床价值。

  • 与指南阈值对齐:许多疾病存在公认临界值风险分层标准(如血压 120/130/140、HbA1c 6.5%、肿瘤标志物截点)。按阈值分组可与诊断/分期/治疗指征保持一致,便于与既有证据体系衔接与对照。

  • 结果呈现与沟通:分组后可直观汇报各组事件率、死亡率、缓解率等,便于制作临床表格/图形、进行亚组分析,也更便于向患者与 MDT 沟通(还可进一步计算 NNT/NNH 等临床指标)。

  • 平衡:可解释性 vs 信息量:离散化提升可解释性,但会损失数值信息并可能引入阈值偏倚推荐做法

    • 展示与沟通:使用分组后的分类变量

    • 建模与推断:尽量保留原始连续变量或采用样条/分段回归刻画非线性,并将分组结果作为敏感性分析,兼顾效能与临床解读。

  • 标签与区间:科研与复现建议显示具体区间;面对患者或科普材料可用精简标签(如 L/M/H、Q1–Q4),在简洁与严谨之间按场景取舍。

2.5.11 常见问题与排查

  • 看不到要分组的变量:它可能不是 numeric 或唯一值 ≤ 2;请回到“定义字段”修正类型或清洗异常文本。

  • 新变量名提示冲突:请改为不同的新名称(避免与原变量一致)。

  • 组数太多/太少:滑块支持 2–30 且受唯一值数量限制;如报错,请减少组数或先合并重复值。

  • 直方图不显示红线:仅在已确定分割位置的方法下显示(固定界值/等距/等频);若数据全相同或样本过少也可能无切分线。

  • 条形图拥挤/重叠:系统会随组数自动拉高画布;若仍拥挤,减少组数或精简标签长度。

  • 下载失败:请先点击“进行离散化分组”生成新变量,再下载。

2.5.12 完成后的标志

  • 新变量已插入原变量右侧,类型为分类变量,标签正确,样本量合理;

  • “分组后数据库概览”与预期一致;

  • 成功导出 xlsx 文档。

2.5.13 温馨提示

  • 分组是临床统计分析常见的做法,但请保留连续变量用于主分析和备用;

  • 分组阈值与方法请在报告中清晰记录(方法、组数、界值、边界归属与标签规则),确保可复现。

2.6 数据标签批量替换

分类变量中难以理解或不便发表的取值(如 0/1、1/2/3/4)批量替换为清晰的文本标签(如 男/女、工人/农民/知识分子/干部),让表格与图形开箱即用、可直接发表,同时更便于后续用人工智能撰写摘要/正文。

建议:不要用 0、1、2、3 这类无语义编号代表“是/否”“男/女”“职业”等;请统一替换成有含义的文本

2.6.1 何时使用 / 何时跳过

  • 适合使用
    • 变量的唯一取值个数 ≤ 20(本页仅对不超过 20 个水平的变量提供批量替换)。

    • 需要把数字编码改回有意义的文本;或需要统一大小写/用词(如 yes/Yes/YES → Yes)。

  • 建议跳过
    • 连续性数值或取值过多(>20)的变量(应先去“连续性变量分组转换”或在“定义字段”中处理)。

    • 自由文本列(姓名、住址、病史长文本等)——不宜参与统计,也不建议在此替换。

2.6.2 选择变量

  • 在左侧 “选择变量” 下拉框中选择要替换的数据列。仅显示非缺失唯一值 ≤ 20 的变量。

2.6.3 批量编辑标签

  • 下方会自动出现该变量的所有当前取值及对应的可编辑输入框

  • 逐项将原值编辑为你希望呈现的目标标签(如 0→否、1→是;1→男、2→女;1→工人、2→农民…)。

  • 建议保持简短、统一:同一语种、统一大小写、避免前后空格与多余标点。

2.6.4 选择修改方式

  • “原变量基础上修改”:直接在原列上替换(覆盖式)。

  • “新生成的变量上修改”(默认):在原列旁新建一个变量并写入新标签,默认命名为 原变量名_f,你也可自定义新名称。

  • 建议先用新变量确保结果正确,再考虑是否保留或覆盖原变量。

2.6.5 保存与复位

  • 点击 “保存更改” 应用当前变量的替换;

  • 完成后可继续选择下一个变量重复以上步骤,结果会累积写入数据集

  • 如需撤销所有修改,点击 “复位(全部改动清零)” 恢复到初始数据。

2.6.6 浏览与下载

  • 右侧主面板始终展示当前数据表(已含你的替换结果)。

  • 页面下方可切换 “原数据概览”“重编码后数据概览”,对比变量水平、缺失情况与分布。

  • 点击 “下载修改后数据” 导出 Excel(文件名形如 recode_data-YYYY-MM-DD.xlsx)。

2.6.7 质量核对清单(强烈建议)

  • 标签唯一明确:避免两个不同的原值被替换成完全相同的目标标签,造成不可逆的合并。

  • 无意外空格:避免前后空格、全/半角混用(” 男”、“男”);必要时统一清洗。

  • 语义一致:是/否、阴性/阳性、阳性/阴性,不要混用;中英文混排尽量统一。

  • 缺失值处理:本页会将常见缺失写法(NA、#N/A、“.” 等)自动统一为真正的缺失 NA;若需把缺失当作单独水平,请在“缺失值填补”页使用“Unknown”策略或在此页手动设定标签。

  • 水平数量合理:分类水平过多将影响表格展示与模型稳定性,必要时考虑合并或分组。

2.6.8 常见问题与排查

  • 看不到目标变量:该列的非缺失唯一值可能超过 20;请先在上一步分组清洗后再来替换。

  • 替换后没变化:确认已点击 “保存更改”;若选择“新生成变量”,请查看新列(默认 _f 后缀)。

  • 导出文件不含新增列:务必先 “保存更改” 让结果写入数据,再下载。

  • 大小写/语言混乱:在本页一次性统一(如 Yes/No;男/女),保持投稿与 AI 生成文本的可读性。

2.6.9 统计小科普

  • 为何用文本而非数字编码? 直接用“男/女”“对照/试验”等文本,表格与图形无需再手工替换,所见即所得。同时,文本标签更便于自然语言生成与同行评审阅读,避免 1/2/3 引起的误解。

  • 尊重原始信息:如果担心信息丢失,可保留原变量并在旁边生成带标签的新变量,既方便建模又便于展示。

  • 有序 vs 无序:若需要趋势性检验(如 0/1/2 表示轻/中/重),后续可在“定义字段”中将其设为有序因子或在建模时使用有序变量处理。

2.6.10 完成后的标志

  • 数据表中相应列的取值已替换为清晰可读的文本;

  • “重编码后数据概览”中分类水平正确、名称统一;

  • 成功导出包含新标签的数据文件。

2.6.11 温馨提示

  • 先新建后覆盖更安全:先生成带后缀的新列,确认无误后再考虑是否替换原列。

  • 替换规则建议记录在案(如附在方法学或附录中),便于复现。

  • 对于跨多表/多中心的数据,建议建立标准化词表,避免同义不同写的混乱。

2.7 生成新变量

在不改动原始数据结构的前提下,基于已有变量进行运算、转换与条件判断,衍生出新的变量(数值、文本或因子)。本模块适用于构建研究所需的中间量与分析变量(如比值、差值、对数转换、字符串清洗等)。

提醒:本页会在右侧“代码”区域同步显示本次操作对应的 R 代码,便于复现与溯源;如需撤销,请使用复位

2.7.1 何时使用 / 何时跳过

  • 适合使用:需要从现有列计算新列(如指数转换、分段标记、合并文本、类型转换)。

  • 建议跳过:需要复杂数据清洗/合并/拆分且不会编程时,可转到 chatR 模块用自然语言让 AI 帮你完成,再回到此页检查结果。

2.7.2 能做什么(概览)

  • 数值运算:加减乘除、幂与整除、取余等。

  • 逻辑判断:大于/小于/等于/不等于;与、或;条件分支。

  • 数学变换:常见初等函数、累计统计、四舍五入等。

  • 字符串处理:拼接、截取、去空格、查找/替换与匹配。

  • 类型转换:在数值、字符、整数、日期/时间、因子之间转换。

建议:在“定义字段”中先把变量类型设好(numeric/factor/日期),再在本页生成新变量,可减少报错与歧义。

2.7.3 进入“生成新变量”

在“数据准备”中点击“数据治理修改筛选”,在打开的导航栏中点击 生成新变量 页面。如暂不分组,直接跳过到下一页即可:

2.7.4 在左侧填写生成规则

  • 在输入区域指定新变量的生成规则(表达式)。

  • 你可以基于任意已有变量进行:

    • 数值计算(如比值、差值、标准化、对数/指数变换);

    • 条件标记(按阈值、区间或多条件打标签);

    • 文本清洗(统一大小写、去前后空格、替换错别字/别名等);

    • 类型转换(文本↔︎数值、日期/时间、因子)。

规范建议:新变量名简短清晰,单位可写入括号(如 BMI (kg/m^2) 的派生列可命名为 BMI_log / BMI_z 等)。

2.7.5 执行与复位

  • 点击执行(页面提供的创建控件)后,右侧表格将展示最新数据

  • 如需撤销所有修改,点击 “复位(取消所有修改)” 返回初始数据。

2.7.6 浏览、导出与代码留痕

  • 右侧主面板展示当前数据表;下方可切换 “修改前/修改后数据概览” 以核对变量数量、类型与缺失;

  • 点击 “下载修改后数据” 导出 Excel(文件名形如 create_data-YYYY-MM-DD.xlsx);

  • “代码”区域会显示每次生成操作对应的 R 代码,建议复制粘贴到方法学/附录,确保团队可复现。

2.7.7 质量核对清单(强烈建议)

  • 类型正确:数值应为 numeric;需要分组展示的标签应转为 factor;日期列应为 Date/Datetime。

  • 取值合理:是否出现不可能值(如负年龄、分母为 0、比例>1 等)。

  • 缺失处理:运算是否放大了缺失(NA 链式传播);必要时先用“缺失值填补”。

  • 单位一致:运算前确保量纲统一(如 mmHg vs kPa,mg/dL vs mmol/L)。

  • 长度一致:新列行数与原数据一致、无回收与错位。

  • 命名规范:避免使用英文冒号等特殊字符;尽量采用有含义且便于检索的命名。

2.7.8 常见场景与建议

  • 连续变量变换:对数/平方根/标准化以改善分布或可比性;建模时可同时保留原始列做敏感性分析。

  • 阈值标记:按指南阈值生成分层标签(正常/边界/异常、高危/低危),用于表格展示与人群分层。

  • 文本标准化:统一大小写、去空格、替换别名,便于后续按类别汇总与建模。

  • 日期与区间:由入组日期与结局日期生成时间差(天/周/月),并按需要换算单位。

2.7.9 常见问题与排查

  • 表达式报错:多半与变量名/类型不符或包含特殊字符;请在“定义字段”修正类型与命名后再试。

  • 生成后未见新列:确认已执行;查看是否覆盖了同名列;或在表格右侧滚动查找。

  • 中文/空格导致的问题:变量名中避免尾随空格与非常见符号;文本清洗后再生成。

  • 导出失败:请先执行生成操作,让结果写入数据,再下载。

2.7.10 完成后的标志

  • 新变量已出现在数据表中,类型正确、取值合理;

  • “修改后数据概览”与预期一致;

  • 代码区域记录了可复现的生成语句;

  • 成功导出包含新变量的数据文件。

2.7.11 温馨提示

  • 生成新变量通常是数据治理与建模的桥梁:既要能解释(命名清晰、含义明确),又要能复现(代码留痕)。

  • 对重要结论,建议保留原始列与派生列并做敏感性分析,提高稳健性与说服力。

2.8 生成生存时间变量

当你的生存数据不是直接提供 time(随访时长,单位:天)与 status(结局状态:0=截尾/未观察到事件,1=事件发生),而是以两个日期表示(如“开始观察日期”“结束/事件日期”),本模块可将两日期相减,自动生成生存时间变量 time(天) 并加入数据集中。

本页只生成时间差(天)。status 变量请在其它页面准备或校对(如“数据标签批量替换”或在原始数据中整理)。

2.8.1 何时使用 / 何时跳过

  • 适合使用:手头只有开始日期结束/事件日期两列,需要计算生存天数用于后续 Kaplan–Meier、Cox 等分析。

  • 建议跳过:数据中已经有合格的 time 列;暂不做生存分析;日期字段混乱未清洗(请先规范日期格式再来)。

2.8.2 概念速览(与方案一致最重要)

  • 开始观察日期:与研究目的对应,可是研究开始日随机化日首次诊断日首次治疗日等。请按你的研究方案选用。

  • 结束观察日期

    • 发生事件(如死亡/复发):取事件发生日

    • 未发生事件:取末次随访日或研究截止日。

  • status 含义(本页不生成):建议 1=事件发生0=未发生(截尾)。请确保与结束日期的定义一致配套

首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):

下载csv样例数据(右击另存为)

日期格式为:

导入数据后,需要在“定义字段”的模块将字段属性设置为”character”或 “factor”,请务必不要设置为“date”:

2.8.3 进入“生成生存时间变量”

在“数据准备”中点击“数据治理修改筛选”,在打开的导航栏中点击 生成生存时间变量 页面。如暂不分组,直接跳过到下一页即可:

2.8.4 选择开始日期

在左侧 “开始观察日期” 下拉框中选择列(如 rand_date / diag_date / treat_date)。

2.8.5 选择结束日期

“结束观察日期” 下拉框中选择列(如 death_date / last_followup)。系统自动排除你已选择的开始列。

2.8.6 命名新变量

“请给新生成的代表时间差值的变量起一个名字” 中填写新列名(默认 time1)。

避免与现有列同名;若同名将覆盖原列。

2.8.7 生成与复位

  • 点击 “生成新数据”:系统将两日期相减,得到生存天数(整数),并把新列追加到数据最右侧
  • 点击 “复位”:撤销本页所有修改,恢复到初始数据。

2.8.8 结果查看与下载

  • 上方文字区域会提示:系统将两个日期差值作为 time(天)新增到右侧;

  • 下方页签可切换 “原始数据”“新数据” 进行对比核对;

  • 点击 “下载修改后数据” 导出 new_surv_data-YYYY-MM-DD.xlsx

2.8.9 警告信息解读

  • “存在日期缺失”:某些行的开始或结束日期为空,新 time 将为 NA;请核对源数据或先做缺失处理。

  • “结束日期早于开始日期”:常见于列选择错误或数据录入错误。请检查:

    • 是否反选了列;

    • 是否存在日期拼写/录入错误;

    • 是否跨时区/跨日历导致的异常(极少见)。 该情形下,系统不会写入新列,请修正后重试。

  • “无法解析的日期格式”:不同格式混用(如 2024-01-055/1/24 混在同一列)会导致解析失败。请先统一为同一种格式(推荐 YYYY-MM-DD)。

2.8.10 质量核对清单(强烈建议)

  • 非负性time 应 ≥ 0;大量负值或异常大值表示日期选择或数据源有问题;

  • 缺失比例:统计 time 的缺失行数,必要时回到“缺失值填补”或数据清洗环节;

  • 分布合理:是否与疾病自然史、随访周期一致(过多的 0 天或极端长尾需要解释);

  • status 一致:事件=1 的行其结束日期应为事件日;截尾=0 的行应为末次随访日

  • 命名可读:如 OS_time_dayPFS_time_day,在报告中更直观。

2.8.11 与后续生存分析的衔接

  • 完成本页后,你应拥有:

    • 时间 time(单位:天)
    • 状态 status(0/1)(请在其它页面准备或复核)。
  • 在生存分析模块(KM 曲线、Cox 回归等)中直接选择 timestatus 即可。

  • 如需按月/年展示,可在“生成新变量”模块中基于 time 派生 time_month = time/30.44 等,但建模时建议保留天作为基础单位。

2.8.12 常见问题与排查

  • 新列未出现:确认已点击“生成新数据”;检查是否被同名列覆盖;在右侧表格最右端查看。

  • 导出失败:请先生成成功(表格中出现新列)再下载。

  • 存在大量 NA:多为日期列含空值或无法解析;请在数据源统一日期格式或先进行缺失填补。

  • time=0 是否正常? 若开始日=结束日则为 0 天,通常允许;请确认与你的方案定义一致(如事件当日即入组的研究)。

2.8.13 完成后的标志

  • “新数据”中多出一个你命名的 time 类新列,取值为非负整数(天)

  • 关键样本行抽查计算正确

  • 成功导出包含 time 的数据文件,并可用于后续生存分析。

2.8.14 温馨提示

  • 统一日期格式为 YYYY-MM-DD 最稳妥;

  • 先与研究方案对齐“开始/结束日期”的定义,再点击生成;

  • 重要结论前建议抽样核查关键病例的日期差计算是否正确,并记录该生成过程以便复现审稿

2.9 万能数据处理工具(AI终极杀器)

当你想用自然语言一次性完成复杂的数据治理(增删改查、变量转换、分组、重编码、缺失处理、异常值处理、行列互换、特征工程等),本模块可将你的文字指令转为 R 代码并执行,生成新的处理后数据集并可下载。

这是一个“全能工具”。请仍然遵循数据伦理与研究方案:不篡改真实观测、不过度加工以迎合结果

2.9.1 工作原理速览

  • 你在左侧输入框给出中文命令

  • 系统自动生成并执行 R 代码,仅在当前数据集上操作;

  • 处理后的数据会显示在右侧表格,并可导出,同时在“R 源代码”页签中保留可复现代码轨迹

2.9.2 何时使用 / 何时跳过

  • 适合:需要批量数据处理但不想逐一在各子模块完成;希望有一键可复现的代码记录。

  • 跳过:需求很简单且已有专门模块可更稳地完成(如“缺失值填补”“数据标签批量替换”“连续性变量分组转换”等)。

2.9.3 前提准备

  • 已在“数据导入”完成数据读取,并在“定义字段”设定好变量类型与命名;

  • 变量名中若含中文或特殊符号,在命令中请用引号包住(如:‘年龄(岁)’)。

2.9.4 选择命令类别(可选)

从下拉框选择一个命令类别(如“离散化与分组”“缺失值处理”等),用于快速查看模板命令。

2.9.5 选择示例命令(可选)

在“示例命令”下拉中选择一条模板,系统会将其填入输入框,便于你按需修改

2.9.6 便捷插入变量名(强烈推荐)

右侧“变量名列表”中点击任意按钮,可将该变量名自动插入到左侧输入框光标位置。若变量名含中文或特殊符号,仍建议在命令里两侧加引号

2.9.7 编写或粘贴你的命令

在“请输入您的命令”框内,描述你要做的操作(如:分组、筛选、重编码、行列转换、异常值处理、标准化、特征工程、建模前处理等)。

关键约束:只对当前数据集进行处理,不创建或引用不存在的数据集;命令中使用的变量必须存在于当前数据里。

2.9.8 运行与回退

  • 点击 “进行数据处理” 执行命令;

  • 若对结果不满意,点击 “退回到上一步数据处理前状态”

  • 如需丢弃所有步骤,点击 “清零,取消所有步骤的数据处理,回到初始状态”

2.9.9 查看结果与下载

  • 在“数据与概览”页签查看处理后的数据与概要;

  • 在“下载生成数据集的 R 源代码…”页签查看生成的R 源代码轨迹

  • 点击“下载数据”导出当前数据(文件名形如 processed_data-YYYY-MM-DD.xlsx)。

2.9.10 写命令的注意事项

  • 变量名:与数据中完全一致;含空格/中文/特殊符号者,请加引号

  • 类型意识:清楚变量是连续值还是分类值;不要把数字编码的分类变量当作连续处理;

  • 范围与单位:显式写清阈值、分组界限与单位(如“≥140 mmHg”应先确保数据单位一致);

  • 避免歧义:复杂需求分句描述;先指定新变量名,再说明其生成规则;

  • 数据安全:避免在命令中包含可识别个人的信息;

  • 性能:全表操作(如全量模型填补、聚类)在大数据上可能耗时,请先在小样本验证逻辑。

2.9.11 质量核对清单(强烈建议)

  • 行数/列数:是否与预期一致(过滤/合并是否正确);

  • 缺失:关键变量的缺失是否变化合理;

  • 分布:连续变量分布是否异常拉伸;

  • 分类水平:是否多出不合理的水平;

  • 关键字段:ID 是否仍唯一,时间先后是否合理;

  • 随机性操作:抽样/打乱后是否固定随机种子以便复现(可在后续“R 源代码”页签检查)。

2.9.12 常见任务导航(命令示例方向提示)

  • 离散化与分组:按阈值、等频、等距或聚类把连续变量转分类,生成新分组变量;

  • 条件转换:按多条件给出分组标签或风险标记(如满足 A 且 B 且 C 标记为“高危”);

  • 缺失值处理:删除含缺失的行、按统计量/分组统计量填补、或使用模型/多重插补(请谨慎);

  • 数据过滤:按人群、时间窗、范围筛选;

  • 数据清理:去重、统一单位、文本清洗(去括号、去特殊符号、大小写统一等);

  • 变量重编码:把数字码表换回有意义的中文标签(便于直接出发表格);

  • 异常值处理:IQR/Z 分数/阈值标记与替换/删除;

  • 标准化与变换:Z-score、Min–Max、对数/平方根/Box–Cox;

  • 行列互换:宽↔︎长的形态转换,便于时间序列或面板分析;

  • 回归前处理:生成哑变量、剔除强影响点、准备训练/验证集等。

2.9.13 警告与错误信息的含义

  • 变量不存在:命令里提到的变量未在数据中找到——请核对变量名或先在前置模块创建;

  • 无法解析/类型不匹配:阈值或条件与变量类型冲突(如对文本做数值比较);

  • 权限/包相关:若提示依赖功能不可用,通常为环境未加载到相应能力(已自动处理为可复现代码);

  • 执行失败:命令语义歧义或逻辑冲突;请将需求拆分为更清晰的句子再次提交。

2.9.14 可复现性与合规

  • 右侧“R 源代码”页签会实时累计本次会话的处理代码,便于审稿复核与复现实验

  • 每次重大处理后,建议立即下载数据与代码(留档版本号、时间与操作者);

  • 保留原始数据处理日志,避免不可逆覆盖。

2.9.15 常见问题与排查

  • 按钮点击无反应:检查输入框是否为空;刷新页面前请先下载已处理的数据;

  • 结果与预期不同:在“R 源代码”页签回看逻辑;必要时使用“退回到上一步”逐步定位;

  • 导出文件打不开:确认已成功生成结果后再下载;

  • 处理后中文乱码:请在导入环节确保 CSV 使用 UTF-8 编码。

2.9.16 完成标志

  • “数据与概览”页签能正确显示最新处理后的数据;

  • “R 源代码”页签含有与本次处理相匹配的操作记录;

  • 成功导出包含处理结果的数据文件。

2.9.17 温馨提示

  • 建议先用小样本验证命令,再对全量数据执行;

  • 会改变研究结论的操作(如广泛删除/插补/重编码),务必记录理由,并做敏感性分析

  • 真正发布前,务必让同事或审稿人可复现你的处理链条。

2.10 患者筛选和亚组选择

本页用于筛选患者与选择亚组:在不改变原始数据的前提下,快速排除异常记录、锁定研究人群,为后续统计与作图提供干净一致的分析集。

建议顺序:先完成 “定义字段” →(可选)缺失值填补 → 再进行 患者筛选/亚组选择

2.10.1 界面构成

  • 左侧筛选器区:可对各字段设置条件;

    • 字符/分类型:下拉多选,含“缺失值”选项;

    • 数值型:滑块设定范围;

    • 日期型:日期滑块设定起止;

  • 右侧结果区

    • 顶部 进度条:显示筛选后样本量占比;

    • 下载修改后数据 按钮;

    • 数据表预览(可横向滚动);

    • 患者筛选的 R 代码条件表达式(便于复现与记录);

  • 底部 “筛选前/筛选后数据概览” 两个页签,快速核对变量分布变化。

2.10.2 进入模块

在顶部导航选择 “患者筛选和亚组选择”(或“数据过滤/筛选”)。

2.10.3 设置筛选条件

  1. 在左侧依次为需要限制的变量设置条件:
    • 分类型变量:下拉多选需要的水平;如需包含空值,请勾选 “缺失值”

    • 数值型变量:拖拽滑块设置最小与最大范围;用于剔除明显不合理的取值(如年龄 < 0、体温 > 45℃ 等)。

    • 日期型变量:用日期滑块设置起止日期,限定入组或随访时间段。

  2. 多个条件默认同时成立(AND)。避免互相矛盾的组合(如“治疗组=化疗”且“治疗组=免疫治疗”同时勾选但又设为互斥)。
  3. 条件变动后,右侧进度条与数据表会自动更新:
    • 进度条 = 筛选后行数 / 原始行数

    • 数据表展示当前筛选结果,便于即时检查。

2.10.4 下载与复现

  • 点击 “下载修改后数据”,导出当前筛选后的数据集(xlsx)。

  • 右侧显示的 “患者筛选的 R 代码”(dplyr 管道)与 “条件表达式”,可直接复制保存到你的脚本/方案,确保可复现

2.10.5 清空或重来

  • 逐一清除筛选器中的选择即可恢复;

  • 若需彻底还原,可刷新页面(刷新前请先导出已筛选数据或复制代码)。

2.10.6 常见使用场景(示例)

  • 剔除生理不可能/输入错误值:如年龄限定在 18–95 岁,BMI 在 10–60 范围;

  • 限定研究窗口期:入组日期在 2021-01-01 至 2023-12-31;

  • 锁定治疗亚组:仅选择“免疫治疗 + 化疗”组合或特定方案;

  • 疾病分期/分层:仅纳入 III–IV 期或 PD-L1 ≥ 50% 患者;

  • 缺失模式敏感性:先排除关键结局缺失,再与“缺失值填补”后的分析集对照。

2.10.7 质量核对(强烈建议)

切换到底部 “筛选前数据概览”“筛选后数据概览”

  • 观察样本量变化是否符合预期;

  • 查看关键变量的分布偏移是否合理(避免无意间筛掉某个重要亚组);

  • 关注分类变量是否出现稀有水平(过少水平可能影响模型稳定性);

  • 若差异过大,请返回左侧调整条件。

2.10.8 常见问题与排查

  • 筛完后为 0 行:条件过于苛刻或互相冲突;逐步减少条件,定位哪一项导致全被排除。

  • 无法勾选“缺失值”:该选项仅对分类型筛选器开放;数值/日期型建议先在“生成新变量/缺失值填补”模块处理后再筛选。

  • 日期滑块无法正常识别:请确认你的日期列在上一步已设为 Date/POSIX 类型;若源数据是字符串或混合格式,可在“生成新变量”模块先转换。

  • 进度条比例异常:通常与“筛选后行数非常接近 0 或全部”有关,先确认条件组合是否符合预期。

2.10.9 完成的标志

  • 进度条与数据表稳定;

  • “筛选后数据概览”中的分布与样本量合理;

  • 已导出筛选后的数据,并保存了筛选代码/表达式;

  • 可以进入后续的建模与作图模块。

2.10.10 小贴士

  • 若你计划进行倾向评分匹配/加权等因果推断,请先用本页确定研究队列与纳入标准,再在相应模块实施匹配/加权;

  • 建议为关键筛选步骤建立版本记录(导出的 xlsx 与对应 R 代码),便于协作与审稿追溯。