Tension Index
Tension Index (TX) измеряет, ускоряется ли исследовательская активность или размещение капитала необычно быстро относительно друг друга за скользящее 12-месячное окно. Это стандартизированный ограниченный сигнал в диапазоне -100 до +100, полученный из OLS-наклонов импульса, z-нормализации и tanh-компрессии.
Что он измеряет
TX количественно оценивает дивергенцию между двумя наклонами импульса: исследовательской продукции (публикации arXiv) и задействованного капитала (композит из пяти источников финансирования). Каждый наклон оценивается через OLS на 12-месячном скользящем окне, z-нормализуется относительно исторических базовых показателей, а разность сжимается через tanh(raw / 4) в диапазон -100 до +100. Результат — безразмерный балл, указывающий, какая ось ускоряется быстрее своей собственной исторической нормы.
Три оси наблюдения
Дашборд отслеживает три независимые оси: импульс исследований (ежемесячные подачи на arXiv по секторам), импульс капитала (описанный ниже долларовзвешенный композит) и общественный интерес (индекс Google Trends, усреднённый по пяти ключевым словам сектора). Tension Index рассчитывается из первых двух; третья ось предоставляет только контекстуальный сигнал.
Капитальный композит
Задействованный капитал ежемесячно агрегируется из пяти институциональных источников: NSF Awards, NIH RePORTER, гранты USASpending, SEC EDGAR Form D и гранты CORDIS Horizon Europe. Каждый источник дефлирован до постоянных USD 2025 по CPI-U, затем доллары суммируются напрямую в месячное композитное значение. Z-нормализация применяется после — к наклону самого композита, а не к отдельным источникам. Примечание: пайплайн EDGAR сейчас возвращает ноль из-за изменения формата URL документов SEC; NSF, NIH, USASpending и CORDIS несут весь текущий сигнал.
Расчёт импульса
Для каждой оси (исследования и капитал) сырой месячный ряд сначала сглаживается скользящей 3-месячной суммой для снижения шума отчётности, затем преобразуется через log(1+x), чтобы сигнал управлялся пропорциональными, а не абсолютными, изменениями. OLS-регрессия подгоняется к последним 12 сглаженным log-значениям, используя время как независимую переменную. Коэффициент наклона представляет импульс оси. Каждый наклон z-нормализуется относительно базовой статистики (из полной истории 2015–2024): z = (наклон - базовое_среднее) / базовое_стд. Это делает наклоны сопоставимыми между секторами. Поскольку текущий календарный месяц ещё отчитывается, ряд перед расчётом всегда усекается до последнего завершённого месяца.
Формула Tension
Сырое значение Tension — это разность двух z-оценок: raw = z_исследования − z_капитал. Эта разность сжимается гиперболическим тангенсом: TX = 100 × tanh(raw / 4). Функция tanh плавно отображает любую вещественную дивергенцию в ограниченный диапазон -100 до +100, проходит через ноль с единичным наклоном и уплощается у границ, так что крайние показания не доминируют визуально. Делитель 4 удерживает типичные сигналы в выразительной части кривой — значения до примерно ±2σ отображаются в [-46, +46], а большие дивергенции плавно сжимаются к пределам. Результат округляется до ближайшего целого числа.
Доверительность и значимость
Каждое значение TX несёт 95%-й доверительный интервал, полученный из стандартных ошибок двух OLS-оценок наклона. Стандартная ошибка сырой tension равна SE = sqrt((SE_исследования / σ_исследования)² + (SE_капитал / σ_капитал)²), а границы CI преобразуются через tanh точно — отображаемая полоса асимметрична вокруг точечной оценки вблизи границ. Точка отмечена как статистически значимая, когда её сырой CI не пересекает ноль. Незначимые точки рисуются на графике пунктирной линией, значимые — сплошной; серая полоса за линией — это сам CI. Итак: сплошная линия — направление дивергенции надёжно; пунктирная — дивергенцию нельзя отличить от шума на 95%-м уровне, и численное значение TX следует читать как «около нуля, независимо от округлённого целого».
Как читать
- TX > 0 (значимо): Исследования ускоряются быстрее своей исторической нормы относительно капитала. Это может указывать на формирующийся научный фронт, где финансирование ещё не догнало.
- TX < 0 (значимо): Капитал ускоряется быстрее своей исторической нормы относительно исследований. Это может указывать на скученность или спекулятивное размещение, опережающее научную продукцию.
- TX около нуля или незначимо: Либо обе оси движутся в унисон, либо доверительный интервал охватывает ноль, что означает невозможность отличить наблюдаемую дивергенцию от шума на уровне 95%.
Статистические свойства
Индекс ограничен конструкцией (-100 до +100), симметричен относительно нуля и приблизительно стандартно-нормален в до-tanh пространстве. 12-месячное OLS-окно обеспечивает устойчивость к единичным месячным выбросам, а 3-месячное сглаживание (скользящая сумма) поглощает шум отчётности. Z-нормализация против базовой линии 2015–2024 обеспечивает межсекторную сопоставимость. Компрессия tanh сохраняет ранговый порядок и оставляет крайние значения читаемыми.
Научные ограничения
OLS-наклоны предполагают локально линейные тренды в пределах 12-месячного окна; структурные разрывы или смены режимов могут порождать переходные артефакты. Капитальный композит суммирует доллары по источникам — крупнодолларовый источник (USASpending) абсолютно весит больше мелкодолларового (CORDIS). Мы считаем это желательным для сигнала flow-of-funds, но это всё-таки модельное решение. CPI-U дефляция — грубая мера, которая может не учитывать секторальную динамику затрат. Данные Google Trends (ось общественного интереса) не используются в формуле TX, а лишь отображаются рядом; их методология выборки непрозрачна. Каждый сектор обрабатывается независимо; межсекторные эффекты заражения не моделируются. Базовая статистика обновляется ежеквартально. Источник EDGAR в настоящее время офлайн из-за смены формата URL SEC, что снижает покрытие венчурного капитала до исправления.