PERPLEXITY SCORE

El Perplexity Score (Índice de Perplejidad) es una métrica estadística utilizada en Procesamiento de Lenguaje Natural (NLP) para medir el grado de imprevisibilidad de un texto. En la informática forense, una perplejidad baja indica que el contenido fue generado por una Inteligencia Artificial (LLM), ya que las máquinas seleccionan palabras basadas en alta probabilidad, resultando en patrones lingüísticos predecibles.

Los humanos son caóticos escribiendo; las máquinas son esclavas de la probabilidad matemática. Si te pregunto "¿Cuál es la capital de Francia?", el 99.9% responderá "París". Un modelo de IA hace exactamente lo mismo, pero para cada palabra de un documento. La Perplejidad es la medida del "asombro" que siente el modelo al leer una frase. Si no le asombra nada, es porque él mismo (u otro LLM) lo escribió.

01. La Matemática de la Previsibilidad

Los Grandes Modelos de Lenguaje (LLMs) como GPT-4 funcionan bajo un principio simple: predecir el siguiente token (fragmento de palabra). Cuando redactan, siempre eligen los tokens que tienen la mayor probabilidad estadística de aparecer juntos en su base de datos de entrenamiento.

Por el contrario, un cerebro humano no evalúa probabilidades. Un humano utiliza jerga, sinónimos extraños, saltos tangenciales y estructuras gramaticales complejas. Cuando sometemos un texto humano al escáner, el algoritmo se "sorprende" (alta Entropía Cruzada). Cuando sometemos un texto de ChatGPT, el algoritmo ya sabía qué palabra iba a seguir (baja Perplejidad).

perplexity_calculator.py

# Motor Analítico: Cálculo de Entropía Cruzada y Perplejidad
import torch
import math

def compute_text_perplexity(text, model, tokenizer):
    encodings = tokenizer(text, return_tensors='pt')
    max_length = model.config.n_positions
    
    # 1. Evaluar probabilidad condicional de la secuencia de tokens
    with torch.no_grad():
        outputs = model(encodings.input_ids, labels=encodings.input_ids)
        loss = outputs.loss
        
    # 2. Exponenciación de la entropía cruzada negativa
    perplexity_score = math.exp(loss.item())
    
    # 3. Clasificación de Umbral (Threshold) Forense
    if perplexity_score < 35.0:
        print("[!] Alerta: Texto altamente determinista (Baja Perplejidad).")
        return "SINTÉTICO (LLM_GENERATED)"
    else:
        return "ORGÁNICO (HUMAN_WRITTEN)"

Ver Auditoría de Perplejidad en Tiempo Real (3:15)

02. Vectores de Detección (Casos de Uso)

En el ámbito de la propiedad intelectual, el cumplimiento normativo (Compliance) y la educación, la puntuación de perplejidad expone los fraudes más sofisticados:

Fraude Académico y Contractual: Revisar si un informe técnico de 50 páginas o un contrato B2B fue redactado por un profesional o "escupido" por un servidor. Un texto humano fluctúa; un texto IA mantiene una perplejidad sospechosamente constante y plana en todo el documento.
Bypass de "AI Humanizers": Los estudiantes y estafadores usan herramientas de ofuscación que inyectan palabras raras para elevar la perplejidad artificialmente. Sin embargo, la estructura gramatical circundante sigue siendo predictiva, permitiendo aislar las palabras "inyectadas" como anomalías.
Evaluación de Riesgos (Alucinaciones): Los LLMs son propensos a inventar datos técnicos o legales. Validar que un texto jurídico crítico no fue redactado por IA mitiga el riesgo de que contenga "alucinaciones" vinculantes en un tribunal.

03. Triangulación: La Fórmula Completa

La perplejidad es el pilar central de la Detección de Texto IA, pero nunca actúa sola. Para evitar falsos positivos (por ejemplo, manuales de instrucciones humanos que están escritos de forma muy robótica y directa), ScanTrue AI triangula la Perplejidad con el Análisis de Burstiness (Ráfaga) y la Autenticidad Semántica profunda, logrando una certeza de grado pericial.

Intelligence Report

La Matemática del Engaño Textual

Descubre cómo los algoritmos calculan la Entropía Cruzada para desarmar ensayos fraudulentos y documentación sintética.

Leer Reporte

LA VERDAD ES ESCANEABLE

Calcula la previsibilidad de tus documentos. Sube el archivo sospechoso a nuestro motor forense y extrae la matriz de Perplejidad en milisegundos.

Auditar Perplejidad

Forensic Intel

Concepto Perplexity Score

Categoría 03. NLP & Text

Tecnología Base Cross-Entropy, Token Prob.

Valor Forense ALTO

Vectores de Detección

AI Text Detection Academic Fraud IP Auditing

Términos Relacionados

Forensic Grade Identity Verification

PERPLEXITY SCORE

01. La Matemática de la Previsibilidad

02. Vectores de Detección (Casos de Uso)

03. Triangulación: La Fórmula Completa

La Matemática del Engaño Textual

LA VERDAD ES ESCANEABLE

Investigaciones Relacionadas

Recursos Forenses

Preferencias sobre los datos

Gestionar tus datos

Almacenar la información en un dispositivo y/o acceder a ella

Medir el rendimiento del contenido y de la IA

Crear perfiles para publicidad personalizada

AI Inspector