Tension Index

Tension Index(TX)衡量在12个月的滚动窗口内,研究活动或资本部署是否相对于另一方以异常速度加速。它是一个标准化的有界信号,范围为-100至+100,源自OLS动量斜率、z分数标准化和tanh压缩。

测量内容

TX量化两个动量斜率之间的差异:研究产出(arXiv出版物)和部署资本(五个资金来源的复合指标)。每个斜率通过12个月滚动窗口上的OLS估计,相对于历史基线进行z标准化,差值通过tanh(raw / 4)函数压缩到-100至+100的范围。结果是一个无量纲分数,表明哪个轴相对于其历史常态加速更快。

三个观测轴

仪表板追踪三个独立的轴:研究动量(每个行业的每月arXiv提交量)、资本动量(下文描述的美元加权复合指标)和公众兴趣(五个行业关键词的Google Trends平均指数)。Tension Index由前两者计算得出;第三者仅提供上下文信号。

资本复合指标

部署资本每月从五个机构来源汇总:NSF Awards、NIH RePORTER、USASpending资助、SEC EDGAR Form D和CORDIS Horizon Europe资助。每个来源使用CPI-U平减至2025年不变美元,然后按美元直接相加为月度复合值。Z标准化随后仅应用于复合斜率本身——而非单独来源。注意:由于SEC文档URL格式变更,EDGAR管道目前返回零;NSF、NIH、USASpending和CORDIS承载了当前全部信号。

动量计算

对于每个轴(研究和资本),原始月度序列首先用3个月滑动求和平滑以减少报告噪声,然后通过log(1+x)变换,使信号由比例变化(而非绝对变化)驱动。OLS回归拟合至最近12个平滑后的对数值,以时间为自变量。斜率系数代表该轴的动量。每个斜率随后基于2015-2024年完整历史数据的基线统计量进行z标准化:z = (斜率 - 基线均值) / 基线标准差。这使得不同绝对尺度的行业斜率可比。由于当前月份仍在报告中,计算前序列总是截断至最近完成的月份。

张力公式

原始张力值是两个z分数之差:raw = z_研究 − z_资本。该差值通过双曲正切函数压缩:TX = 100 × tanh(raw / 4)。tanh函数将任意实值差异平滑映射到-100至+100的有界范围,在零点斜率为1,在两端变平以防止极端读数主导视觉。除数4使典型信号保持在曲线的表达区间——约±2σ以内的值映射到[-46, +46]区间,更大的差异则平滑地压缩至极限。结果四舍五入到最近的整数。

置信度与显著性

每个TX值附带95%置信区间,由两个OLS斜率估计的标准误差导出。原始张力的标准误差为 SE = sqrt((SE_研究 / σ_研究)² + (SE_资本 / σ_资本)²),CI的端点通过tanh精确变换,因此在接近两端时显示的置信带相对于点估计是非对称的。当一个点的原始CI不跨越零时,该点被标记为统计显著。图表中非显著点以虚线绘制,显著点以实线绘制;线条后面的灰色带即CI本身。因此:实线 = 差异方向可靠;虚线 = 在95%水平上差异无法与噪声区分,数值TX应读为"接近零,不论四舍五入的整数是多少"。

如何解读

  • TX > 0(显著):研究相对于资本加速超过其历史常态。这可能表明一个新兴的科学前沿,资金尚未跟上。
  • TX < 0(显著):资本相对于研究加速超过其历史常态。这可能表明过度拥挤或先于科学产出的投机性配置。
  • TX接近零或不显著:要么两个轴同步移动,要么置信区间跨越零,意味着在95%水平上观测到的差异无法与噪声区分。

统计特性

该指数在构造上有界(-100至+100),关于零对称,在tanh前空间中近似标准正态分布。12个月的OLS窗口对单月异常值具有鲁棒性,3个月滑动求和平滑吸收报告抖动。针对2015-2024基线的z标准化确保跨行业可比性。Tanh压缩保持排序,同时保持极端读数可读。

科学局限性

OLS斜率假设12个月窗口内局部线性趋势;结构性断裂或体制变化可能产生暂态伪影。资本复合指标按美元跨来源相加——大美元来源(USASpending)在绝对值上权重高于小美元来源(CORDIS)。我们认为这对资金流信号是可取的,但仍是一个建模选择。CPI-U平减是一个宽泛的度量,可能无法捕捉行业特定的成本动态。Google Trends数据(公众兴趣轴)不用于TX公式,仅与之并列显示,其抽样方法不透明。每个行业独立处理;跨行业传染效应未建模。基线统计量每季度更新。EDGAR来源因SEC URL格式变更目前离线,在修复前会降低风险投资覆盖率。

返回 Forms