Mstata 医学统计机器人使用教程
1
简介
1.1
背景
1.2
特点
1.3
优势
1.4
软件界面
1.4.1
菜单栏
1.4.2
软件功能检索和 AI 客服
1.5
软件模块
1.5.1
数据准备
1.5.2
临床医学智能分析模块
1.5.3
按统计学分类模块
1.5.4
论文生成模块
1.5.5
chatR.online 人工智能自动统计分析模块
2
数据准备
2.1
数据规范
2.2
数据导入
2.2.1
快速检查清单
2.2.2
导入您的科研数据
2.2.3
上传与导入的注意事项
2.2.4
常见问题与快速排查
2.3
定义字段
2.3.1
进入“定义字段”
2.3.2
勾选要参与分析的变量
2.3.3
变量改名(显示名)
2.3.4
设置变量属性(核心)
2.3.5
点击“应用更改”
2.3.6
查看“概览”核对结果
2.3.7
常见提醒
2.4
缺失值填补
2.4.1
何时填补、何时跳过
2.4.2
进入“缺失值填补”
2.4.3
选择填充类型
2.4.4
普通填充(按统计量或规则)
2.4.5
模型填充(KNN / 随机森林)
2.4.6
填补位置(是否覆盖原变量)
2.4.7
执行与复位
2.4.8
浏览与导出
2.4.9
统计影响小科普
2.4.10
常见问题与排查
2.4.11
成功完成的标志
2.4.12
温馨提示
2.5
连续性变量分组转换
2.5.1
选择变量
2.5.2
选择分组方法
2.5.3
选择分组数
2.5.4
固定拐点的设置(仅“自定义分组界值”)
2.5.5
等频分组的标签(仅“人数自动均衡分组”)
2.5.6
新变量命名与位置
2.5.7
执行与复位
2.5.8
查看结果与下载
2.5.9
质量核对清单(强烈建议)
2.5.10
统计小科普
2.5.11
常见问题与排查
2.5.12
完成后的标志
2.5.13
温馨提示
2.6
数据标签批量替换
2.6.1
何时使用 / 何时跳过
2.6.2
选择变量
2.6.3
批量编辑标签
2.6.4
选择修改方式
2.6.5
保存与复位
2.6.6
浏览与下载
2.6.7
质量核对清单(强烈建议)
2.6.8
常见问题与排查
2.6.9
统计小科普
2.6.10
完成后的标志
2.6.11
温馨提示
2.7
生成新变量
2.7.1
何时使用 / 何时跳过
2.7.2
能做什么(概览)
2.7.3
进入“生成新变量”
2.7.4
在左侧填写生成规则
2.7.5
执行与复位
2.7.6
浏览、导出与代码留痕
2.7.7
质量核对清单(强烈建议)
2.7.8
常见场景与建议
2.7.9
常见问题与排查
2.7.10
完成后的标志
2.7.11
温馨提示
2.8
生成生存时间变量
2.8.1
何时使用 / 何时跳过
2.8.2
概念速览(与方案一致最重要)
2.8.3
进入“生成生存时间变量”
2.8.4
选择开始日期
2.8.5
选择结束日期
2.8.6
命名新变量
2.8.7
生成与复位
2.8.8
结果查看与下载
2.8.9
警告信息解读
2.8.10
质量核对清单(强烈建议)
2.8.11
与后续生存分析的衔接
2.8.12
常见问题与排查
2.8.13
完成后的标志
2.8.14
温馨提示
2.9
万能数据处理工具(AI终极杀器)
2.9.1
工作原理速览
2.9.2
何时使用 / 何时跳过
2.9.3
前提准备
2.9.4
选择命令类别(可选)
2.9.5
选择示例命令(可选)
2.9.6
便捷插入变量名(强烈推荐)
2.9.7
编写或粘贴你的命令
2.9.8
运行与回退
2.9.9
查看结果与下载
2.9.10
写命令的注意事项
2.9.11
质量核对清单(强烈建议)
2.9.12
常见任务导航(命令示例方向提示)
2.9.13
警告与错误信息的含义
2.9.14
可复现性与合规
2.9.15
常见问题与排查
2.9.16
完成标志
2.9.17
温馨提示
2.10
患者筛选和亚组选择
2.10.1
界面构成
2.10.2
进入模块
2.10.3
设置筛选条件
2.10.4
下载与复现
2.10.5
清空或重来
2.10.6
常见使用场景(示例)
2.10.7
质量核对(强烈建议)
2.10.8
常见问题与排查
2.10.9
完成的标志
2.10.10
小贴士
3
描述统计
3.1
一键生成患者入排流程图
3.1.1
为什么需要入排流程图
3.1.2
常见痛点
3.1.3
示例:先想清楚要画什么图
3.1.4
草图辅助整理思路
3.1.5
步骤一:确定方框数量
3.1.6
步骤二:给方框编号
3.1.7
进入程序并创建方框
3.1.8
指定方框连接:简洁的“箭头语言”
3.1.9
在工具中输入箭头描述
3.1.10
实时校验提示
3.1.11
步骤三:填写每个方框的文字
3.1.12
得到最终图形
3.1.13
智能自适应与增改
3.1.14
不止用于患者入排流程图
3.1.15
简单描述也能生成复杂图
3.1.16
下载与导出
3.2
一键生成基线人口学和临床特征表(全能版)
3.2.1
准备数据
3.2.2
进入模块
3.2.3
设置统计表的基本选项
3.2.4
选择分层和分组变量
3.2.5
选择需要统计的变量
3.2.6
数值型变量的处理
3.2.7
连续性变量的分组
3.2.8
选择统计方法
3.2.9
统计表的详细设置
3.2.10
设置小数位数
3.2.11
生成统计表
3.2.12
重要统计学概念解释
3.2.13
下载word文件
3.2.14
生成和下载 R 源代码:
3.2.15
附录:关于基线表统计方法的说明(请复制以下说明方便日后修回时回复审稿人)
3.3
一键生成基线人口学和临床特征表(华丽版)
3.3.1
准备数据
3.3.2
进入模块
3.3.3
生成基线表
3.4
一键完成描述性统计(批量统计所有字段,生成文字、表格、统计图)
3.4.1
进入模块
3.4.2
开始描述性统计分析
3.4.3
对统计结果生成文字描述
3.5
全自动问卷量表描述分析(李克特量表等)
3.5.1
背景介绍
3.5.2
原始数据格式要求
3.5.3
进入模块
3.5.4
基本设置(必选)
3.5.5
总体调查人群分析
3.5.6
调查人群亚组分析(选做)
3.5.7
结果下载与报告输出
3.5.8
注意事项
4
疗效和安全性分析
4.1
单臂疗效分析(只评估治疗后的结局,结局为分类或连续性资料)
4.1.1
概念介绍
4.1.2
软件功能
4.1.3
进入模块
4.1.4
操作步骤
4.2
单臂疗效分析(结局为生存资料,如OS/PFS/DFS等)
4.2.1
准备数据
4.2.2
进入模块
4.2.3
单组患者生存分析
4.2.4
下载报告
4.3
多臂疗效比较(结局为二分类资料,如:是否有效/ORR/DCR等)
4.3.1
基础知识
4.3.2
准备数据
4.3.3
进入模块
4.3.4
疗效比较分析
4.3.5
亚组分析
4.3.6
亚组分析森林图
4.3.7
下载word文件
4.4
多臂疗效比较(结局为连续性资料,如血液检测指标等)
4.4.1
基础知识
4.4.2
进入模块
4.4.3
准备数据
4.4.4
疗效比较分析
4.4.5
亚组分析
4.4.6
亚组分析森林图
4.4.7
下载word文件
4.5
多臂疗效比较(结局为生存资料,如OS/PFS/DFS等)
4.5.1
基础知识
4.5.2
准备数据
4.5.3
疗效比较分析
4.6
倾向性评分匹配(PSM)
4.6.1
准备数据
4.6.2
进入模块
4.6.3
基础设置
4.6.4
进行倾向性评分匹配
4.6.5
生成前后基线特征表
4.6.6
生成各种诊断图
4.6.7
下载匹配后数据
4.6.8
用匹配后数据进行疗效分析
4.6.9
下载报告
4.7
寻找治疗有效和无效人群(治疗组和一个连续性指标的交互作用限制性立方样条图)
4.7.1
准备数据
4.7.2
进入模块
4.7.3
生成交互作用限制性立方样条图
4.7.4
配置图像选项
4.7.5
生成/更新交互作用立方样条图
4.7.6
阈值分析/亚组分析
4.7.7
一键绘制亚组分析森林图
4.8
安全性分析和不良反应AE表格
4.8.1
安全性分析与AE表格概念
4.8.2
数据集准备
4.8.3
进入模块
4.8.4
软件操作步骤
4.8.5
注意事项
5
因果推断
5.1
探寻可能的影响因素(经典先单因素后多因素分析,所有因素分析结果列入表格)
5.1.1
准备数据
5.1.2
进入模块
5.1.3
前提条件
5.1.4
页面结构与导航
5.1.5
选择结局类型与模型(Family)
5.1.6
选择候选自变量(Explanatory)
5.1.7
多因素纳入策略(Multi-method)
5.1.8
设定分类变量的参照组
5.1.9
连续变量的处理
5.1.10
缺失值处理(可选:多重插补 MI)
5.1.11
表格展示与统计选项
5.1.12
查看与解读结果
5.1.13
生成森林图
5.1.14
批量生成生存曲线(仅生存分析)
5.1.15
下载:表格、报告与 PPT
5.1.16
R 源代码与可复现性
5.1.17
常见问题与排查
5.1.18
质量核对清单(提交前必看)
5.1.19
完成标志
5.1.20
小贴士
5.2
探寻可能的影响因素(增加交互作用项的多因素分析)
5.2.1
什么是交互作用(Interaction / Effect Modification)?
5.2.2
与混杂(confounding)的区别:
5.2.3
为什么在医学研究中重要?
5.2.4
医学示例:
5.2.5
建模与解读要点
5.2.6
模块概述
5.2.7
主要功能
5.2.8
准备数据
5.2.9
进入模块
5.2.10
模型选择
5.2.11
影响因素(自变量)
5.2.12
交互作用分析(重点)
5.2.13
分类变量参照组设置
5.2.14
连续变量标准化
5.2.15
统计选项
5.2.16
生成森林图
5.2.17
结果输出
5.2.18
常见问题
5.2.19
总结
5.3
根据多因素不同自变量组合的多模型批量比较及拟合优度评价
5.3.1
一键生成多模型(不同自变量组合)比较的表格:
5.3.2
一键完成多模型评价指标(拟合优度、多重共线性分析)比较:
5.3.3
引言
5.3.4
准备数据
5.3.5
操作步骤
5.4
探寻可能的影响因素(混合效应模型,多水平模型,Mixed model)
5.4.1
混和效应模型分析
5.4.2
主要功能
5.4.3
数据准备
5.4.4
进入模块
5.4.5
模型选择
5.4.6
特殊设置(根据模型类型)
5.4.7
选择自变量(固定效应)
5.4.8
设置随机效应
5.4.9
模型参数设置
5.4.10
运行分析
5.4.11
查看结果
5.4.12
下载报告
5.4.13
原理说明
5.4.14
常见问题解答
5.4.15
注意事项
5.5
探寻可能的影响因素(竞争风险模型 Competing Risks Regression)
5.5.1
竞争风险模型简介
5.5.2
定义与出处
5.5.3
适用范围
5.5.4
互斥事件的概念
5.5.5
传统生存分析的弊端
5.5.6
医学研究应用示例
5.5.7
准备数据
5.5.8
数据准备指导
5.5.9
进入模块
5.5.10
影响因素分析
5.5.11
选择时间变量
5.5.12
选择状态变量
5.5.13
选择未发生事件的状态
5.5.14
选择感兴趣的事件
5.5.15
选择影响因素/自变量
5.5.16
设定分类变量的参照组
5.5.17
标准化连续变量
5.5.18
选择纳入多因素分析的变量
5.5.19
设置其他选项
5.5.20
生成影响因素分析表
5.5.21
生成森林图
5.5.22
批量生成累积发生率曲线:
5.5.23
累积发生率分析
5.6
有明确的感兴趣的研究因素,而混杂因素调整仅在表格底注(一般线性/Logistic/Cox/Poisson回归)
5.6.1
准备数据
5.6.2
进入模块
5.6.3
选择结局变量
5.6.4
选择影响因素变量
5.6.5
选择混杂因素/协变量变量
5.6.6
连续性变量拆成分类变量
5.6.7
下载word文件
5.7
有明确的感兴趣的研究因素,调整不同个数混杂因素,进行多模型比较的套路分析(一般线性/Logistic/Cox/Poisson回归)
5.7.1
一键生成多模型(调整不同的协变量)比较的论文发表级(Publication - ready) 表格:
5.7.2
一键完成多模型评价指标(拟合优度、多重共线性分析)比较:
5.7.3
引言
5.7.4
准备数据
5.7.5
进入模块
5.7.6
操作步骤
5.8
回归分析的亚组(分层)分析
5.8.1
亚组(分层)分析的定义和概念
5.8.2
为什么回归分析之后要做亚组分析?
5.8.3
医学研究的例子
5.8.4
P 值和 P for interaction 的意义
5.8.5
关于多重比较的补充与如何调整
5.8.6
准备数据
5.8.7
进入模块
5.8.8
选择结局变量的类型
5.8.9
选择结局变量/应变量
5.8.10
选择结局变量的水平
5.8.11
选择解释变量/自变量
5.8.12
选择参照组和观察/试验组(仅针对二分类解释变量)
5.8.13
选择混杂因素(协变量)
5.8.14
对连续变量进行尺度转换或标准化处理
5.8.15
选择亚组分析字段
5.8.16
生成/更新亚组分析结果
5.9
将一个连续性变量的不同取值设为分割点进行分层,进行敏感性亚组(分层)分析
5.9.1
亚组(分层)分析的定义和概念
5.9.2
为什么回归分析之后要做亚组分析?
5.9.3
当分组变量不是一个现成的分类变量,而是一个连续性变量,怎么做亚组(分层)分析?
5.9.4
准备数据
5.9.5
进入模块
5.9.6
选择结局变量的类型
5.9.7
选择结局变量/应变量
5.9.8
选择结局变量的水平
5.9.9
选择解释变量/自变量
5.9.10
选择参照组和观察/试验组(仅针对二分类解释变量)
5.9.11
选择混杂因素(协变量)
5.9.12
对连续变量进行尺度转换或标准化处理
5.9.13
选择亚组分析字段
5.9.14
生成/更新亚组分析结果
5.10
自动筛选从单因素分析进入多因素分析的变量(逐步回归/最优子集/Lasso/岭回归/弹性网络/随机森林/Boruta法)
5.10.1
背景与定义
5.10.2
准备数据
5.10.3
进入模块
5.10.4
设置结局类型与变量(必做)
5.10.5
单因素分析(可选)
5.10.6
多重共线性诊断(可选)
5.10.7
多因素变量筛选(核心)
5.10.8
导出与复现
5.10.9
常见问题(FAQ)
5.10.10
完成后的标志
5.11
阈值效应和 sengmented / piecewise 分段/断点回归
5.11.1
基本思想
5.11.2
常见的应用场景
5.11.3
与其他方法的对比
5.11.4
分段回归在医学科研中的优势
5.11.5
常见的分段回归类型
5.11.6
自动或手动确定拐点
5.11.7
准备数据
5.11.8
进入模块
5.11.9
进入“阈值效应和 piecewise 回归”界面
5.11.10
选择回归类型与变量
5.11.11
选择分段回归方法
5.11.12
其他选项设置
5.11.13
生成和查看结果
5.11.14
下载 Word 报告
5.11.15
查看/下载原始输出和 R 源代码
5.11.16
常见问题与注意事项
5.11.17
总结
5.12
限制性立方样条图 RCS
5.12.1
的基本原理
5.12.2
在医学科研中的应用及优势
5.12.3
举例说明
5.12.4
功能特点
5.12.5
准备数据
5.12.6
进入模块
5.12.7
绘制 RCS 曲线
5.12.8
观察图像肉眼寻找折点的粗略位置(第 3 个 Tab)
5.12.9
阈值效应和 piecewise 回归(第 4 个 Tab)
5.12.10
下载 word 报告(第 5 个 Tab)
5.12.11
查看 R 源代码和原始输出(第 6 个 Tab)
5.12.12
方法学要点与软件依赖包
5.12.13
常见问题
5.13
广义相加模型 GAM
5.13.1
GAM 的基本原理
5.13.2
GAM 在医学科研中的应用及优势
5.13.3
举例说明
5.13.4
准备数据
5.13.5
进入模块
5.13.6
生成 GAM 曲线
5.13.7
阈值效应和 piecewise 回归(第 4 个 Tab)
5.13.8
下载 word 报告(第 5 个 Tab)
5.13.9
查看 R 源代码和原始输出(第 6 个 Tab)
5.13.10
下载报告与源代码
5.14
因果中介效应(mediation包,支持连续性/二分类/有序分类/生存资料)
5.14.1
准备数据
5.14.2
进入模块
5.14.3
分析步骤
6
诊断研究
6.1
ROC 曲线绘制,比较、最佳分界点探索(用连续性检测指标诊断二分类结局)
6.1.1
基础知识
6.1.2
准备数据
6.1.3
配对 ROC:
6.1.4
进入模块
6.1.5
非配对 ROC:
6.1.6
绘制ROC曲线
6.1.7
分界点(Cutpoint 值)分析
7
预测研究
7.1
nomogram - Logistic - 二分类结局(拆分训练集和验证集,列线图/ROC/校准曲线/DCA曲线,一键生成 SCI 论文)
7.1.1
前言
7.1.2
数据准备
7.1.3
进入模块
7.1.4
研究基础设置与数据拆分
7.1.5
按数据集生成基线特征表(Table 1)
7.1.6
用结局分组做单因素对照表(必做,不一定写入论文)
7.1.7
变量筛选(控制进入 Logistic 的预测因子数)
7.1.8
对每个入选预测因子做 ROC(单因素 Logistic 预测值)
7.1.9
拟合多因素 Logistic 模型
7.1.10
进一步人工精简并绘制
nomogram
7.1.11
对最终模型做 ROC 评价(跨数据集)
7.1.12
绘制 Calibration 校准曲线
7.1.13
绘制 DCA 临床决策曲线
7.1.14
下载与论文生成功能
7.1.15
完成度检查清单
7.1.16
附:数据与口径小贴士
7.2
nomogram - Logistic - 二分类结局 (不拆分训练集和验证集,采用内部cv或bootstrap验证,列线图/ROC/校准曲线/DCA曲线,一键生成 SCI 论文)
7.2.1
数据准备
7.2.2
进入模块
7.3
nomogram - Cox - 生存结局(拆分训练集和验证集,列线图/ROC/校准曲线/DCA曲线,一键生成 SCI 论文)
7.3.1
进入模块
7.3.2
选择您的数据并加载到本软件
7.3.3
拆分数据集并生成基线表。
7.3.4
先做一个单因素 Cox 回归进行初步分析和探查
7.3.5
lasso回归筛选变量
7.3.6
多因素建模
7.3.7
绘制 nomogram
7.3.8
对最终模型做 ROC 评价
7.3.9
绘制calibration校准曲线
7.3.10
绘制DCA曲线
7.3.11
生成动态列线图并部署到个人网站
7.3.12
下载word报告
7.3.13
生成一篇 SCI 论文
7.4
生成动态 nomogram 并自动搭建一个互动网站(Linear/Logistic/Cox/Poisson回归)
7.4.1
背景与原理
7.4.2
适用模型与输出解读(速览)
7.4.3
进入模块
7.4.4
回归建模(生成可发布的模型)
7.4.5
选择回归族(family)
7.4.6
指定结局/时间/状态
7.4.7
选择自变量(协变量)
7.4.8
1.4 置信区间算法(可选)
7.4.9
生成结果表
7.4.10
一键生成
动态 nomogram
并发布网站
7.4.11
准备部署凭据(Token)
7.4.12
设置网站标题与展示样式
7.4.13
点击部署
7.4.14
网页端的使用与解读(给读者/审稿人)
7.4.15
常见问题与排查
7.4.16
安全与合规
7.4.17
写作与投稿建议(可选)
7.5
生成动态多模型比较预测程序并自动搭建一个互动网站(多模型 Linear/Logistic/Cox/Poisson回归)
7.5.1
用途与概述
7.5.2
背景与原理
7.5.3
进入模块
7.5.4
回归建模(生成可发布的多个模型)
7.5.5
选择回归族(family)
7.5.6
指定结局/时间/状态
7.5.7
设定要比较的模型数量
7.5.8
为每个模型选择自变量(不得留空)
7.5.9
置信区间算法(可选)
7.5.10
生成回归结果表
7.5.11
一键部署「多模型比较互动预测网站」
7.5.12
网页端使用与解读(给读者/审稿人)
7.5.13
常见问题与排查
7.5.14
安全与合规
7.5.15
投稿与写作建议(可选)
8
复杂抽样加权(用于 NHANES 等数据库分析)
8.1
基线人口学特征表 Table one(复杂抽样加权)
8.1.1
背景知识
8.1.2
准备数据
8.1.3
进入模块
8.1.4
操作步骤
8.1.5
绘制基线表
8.2
单因素+多因素回归分析表(复杂抽样加权,svy-Linear/svy-Logistic/svy-olr/svy-Cox/svy-Poisson回归)
8.2.1
背景知识
8.2.2
准备数据
8.2.3
进入模块
8.2.4
影响因素分析
8.3
回归分析的亚组分析(复杂抽样加权,svy-Linear/svy-Logistic/svy-Cox/svy-Poisson回归)
8.3.1
一键完成复杂抽样加权(NHANES 等)回归分析的亚组(分层)分析的论文发表级(Publication - ready) 表格:
8.3.2
复杂抽样设计
8.3.3
NHANES
8.3.4
亚组(分层)分析的定义和概念
8.3.5
为什么回归分析之后要做亚组分析?
8.3.6
医学研究的例子
8.3.7
P值和P for interaction的意义
8.3.8
准备数据
8.3.9
进入模块
8.3.10
设置复杂抽样参数
8.3.11
完成设置
8.3.12
参考资料
8.3.13
重要提示
8.3.14
亚组分析操作步骤
8.4
Kaplan-Meier 生存曲线(复杂抽样加权,R 软件 svykm 函数)
8.4.1
一键完成复杂抽样加权(NHANES 等)Kaplan-Meier 生存曲线的绘制:
8.4.2
复杂抽样设计
8.4.3
NHANES
8.4.4
准备数据
8.4.5
进入模块
8.4.6
设置复杂抽样参数
8.4.7
生存曲线绘制
8.4.8
生存曲线图像调整
8.4.9
重要统计学概念解释
8.5
Landmark 分段生存曲线(复杂抽样加权,R 软件 svykm 函数)
8.5.1
一键完成复杂抽样加权(NHANES 等)Landmark 生存曲线的绘制:
8.5.2
Landmark 生存曲线简介
8.5.3
应用场景
8.5.4
复杂抽样设计
8.5.5
NHANES
8.5.6
准备数据
8.5.7
进入模块
8.5.8
设置复杂抽样参数
8.5.9
绘制 landmark 生存曲线
8.5.10
图像外观调整
9
Blocks
9.1
Equations
9.2
Theorems and proofs
9.3
Callout blocks
10
Footnotes and citations
10.1
Footnotes
10.2
Citations
11
Cross-references
11.1
Chapters and sub-chapters
11.2
Captioned figures and tables
12
Parts
References
13
Sharing your book
13.1
Publishing
13.2
404 pages
13.3
Metadata for sharing
Mstata 官网主页
Mstata 医学统计机器人(v0.96)使用教程
References