Tension Index

Il Tension Index (TX) misura se l'attività di ricerca o il dispiegamento di capitale sta accelerando in modo inusuale rispetto all'altro su una finestra mobile di 12 mesi. È un segnale standardizzato e limitato nell'intervallo da -100 a +100, derivato da pendenze di momentum OLS, normalizzazione z-score e compressione tramite tangente iperbolica.

Cosa misura

TX quantifica la divergenza tra due pendenze di momentum: produzione scientifica (pubblicazioni arXiv) e capitale impiegato (un composito di cinque fonti di finanziamento). Ogni pendenza è stimata tramite OLS su una finestra mobile di 12 mesi, z-normalizzata rispetto alle baseline storiche, e la differenza è compressa tramite tanh(raw / 4) nell'intervallo -100 a +100. Il risultato è un punteggio adimensionale che indica quale asse sta accelerando più velocemente della propria norma storica.

Tre assi di osservazione

La dashboard monitora tre assi indipendenti: Momentum della Ricerca (sottomissioni mensili arXiv per settore), Momentum del Capitale (il composito ponderato in dollari descritto di seguito) e Interesse Pubblico (indice Google Trends mediato su cinque parole chiave del settore). Il Tension Index è calcolato dai primi due; il terzo fornisce solo segnale contestuale.

Il composito del capitale

Il capitale impiegato è aggregato mensilmente da cinque fonti istituzionali: NSF Awards, NIH RePORTER, grant USASpending, SEC EDGAR Form D e grant CORDIS Horizon Europe. Ogni fonte è deflazionata a USD 2025 costanti usando il CPI-U, poi i dollari vengono sommati direttamente nel valore mensile composito. La z-normalizzazione viene applicata dopo, sulla pendenza del composito — non sulle singole fonti. Nota: la pipeline EDGAR al momento restituisce zero a causa di un cambio nel formato URL dei documenti SEC; NSF, NIH, USASpending e CORDIS portano tutto il segnale attuale.

Calcolo del momentum

Per ogni asse (ricerca e capitale), la serie mensile grezza viene prima smussata con una somma mobile trimestrale (3 mesi) per ridurre il rumore di reporting, poi trasformata con log(1+x) in modo che siano le variazioni proporzionali — non assolute — a guidare il segnale. Una regressione OLS viene adattata alle ultime 12 osservazioni log smussate, trattando il tempo come variabile indipendente. Il coefficiente di pendenza rappresenta il momentum di quell'asse. Ogni pendenza viene poi z-normalizzata rispetto alle statistiche di baseline calcolate sulla storia completa 2015–2024: z = (pendenza - media_baseline) / std_baseline. Questa normalizzazione rende le pendenze comparabili tra settori con scale assolute diverse. Poiché il mese in corso è ancora in fase di reporting, la serie viene sempre troncata all'ultimo mese completato prima del calcolo.

Formula della Tensione

Il valore grezzo di tensione è la differenza tra i due z-score: raw = z_ricerca − z_capitale. Questa differenza è compressa attraverso una tangente iperbolica: TX = 100 × tanh(raw / 4). La tanh mappa qualsiasi divergenza reale dolcemente nell'intervallo limitato -100 a +100, passa per lo zero con pendenza unitaria, e si appiattisce vicino ai margini in modo che le letture estreme non dominino il visual. Il divisore 4 mantiene i segnali tipici nella parte espressiva della curva — valori fino a circa ±2σ mappano a display in [-46, +46], mentre divergenze maggiori vengono compresse gradualmente verso i limiti. Il risultato è arrotondato all'intero più vicino.

Confidenza e significatività

Ogni valore TX porta un intervallo di confidenza al 95% derivato dagli errori standard delle due stime di pendenza OLS. L'errore standard della tensione grezza è SE = sqrt((SE_ricerca / σ_ricerca)² + (SE_capitale / σ_capitale)²), e gli estremi del CI vengono trasformati tramite tanh esattamente, quindi la banda visualizzata è asimmetrica attorno al punto stimato vicino ai margini. Un punto è marcato come statisticamente significativo quando il suo CI grezzo non attraversa lo zero. I punti non significativi vengono disegnati nel grafico come linea tratteggiata, quelli significativi come linea continua; la banda grigia dietro la linea è il CI stesso. Quindi: se la linea è continua, la direzione della divergenza è affidabile; se è tratteggiata, la divergenza non può essere distinta dal rumore al 95% e il valore TX numerico va letto come "vicino a zero indipendentemente dall'intero arrotondato".

Come leggerlo

  • TX > 0 (significativo): La ricerca sta accelerando più velocemente della sua norma storica rispetto al capitale. Ciò può indicare un fronte scientifico emergente dove il finanziamento non ha ancora recuperato.
  • TX < 0 (significativo): Il capitale sta accelerando più velocemente della sua norma storica rispetto alla ricerca. Ciò può indicare affollamento o allocazione speculativa che precede la produzione scientifica.
  • TX vicino a zero o non significativo: O entrambi gli assi si muovono in tandem, o l'intervallo di confidenza attraversa lo zero, il che significa che la divergenza osservata non può essere distinta dal rumore al livello del 95%.

Proprietà statistiche

L'indice è limitato per costruzione (-100 a +100), simmetrico attorno allo zero e approssimativamente normale standard nello spazio pre-tanh. La finestra OLS di 12 mesi fornisce robustezza contro outlier di singoli mesi, e lo smoothing trimestrale (somma mobile 3 mesi) assorbe il jitter di reporting. La z-normalizzazione contro la baseline 2015–2024 garantisce comparabilità tra settori. La compressione tanh preserva l'ordine di rango mantenendo leggibili anche le letture estreme.

Limitazioni scientifiche

Le pendenze OLS assumono trend localmente lineari nella finestra di 12 mesi; rotture strutturali o cambi di regime possono produrre artefatti transitori. Il composito del capitale somma dollari tra le fonti, il che significa che una fonte a grande volume (USASpending) pesa più di una a piccolo volume (CORDIS) in termini assoluti — lo consideriamo desiderabile per un segnale di flow-of-funds ma è una scelta di modello. La deflazione CPI-U è una misura ampia e potrebbe non catturare le dinamiche di costo settoriali. I dati Google Trends (asse interesse pubblico) non sono usati nella formula TX ma sono visualizzati accanto; la loro metodologia di campionamento è opaca. Ogni settore è trattato indipendentemente; gli effetti di contagio tra settori non sono modellati. Le statistiche di baseline vengono aggiornate trimestralmente e possono essere in ritardo rispetto a spostamenti strutturali. La fonte EDGAR è attualmente offline a causa di un cambio di formato URL SEC, riducendo la copertura del venture capital fino al fix.

Torna a Forms