fig, axes = plt.subplots(1, 3, figsize=(15, 4))
Este artÃculo es un puente. Exploraremos los conceptos estadÃsticos fundamentales que todo cientÃfico de datos debe dominar, pero con un giro crÃtico: usando pandas , scipy , statsmodels y visualizaciones prácticas con seaborn .
# Cargar datos datos = pd.read_csv('datos.csv')
Using regression models to estimate outcomes, detect anomalies, and understand relationships between variables. Classification: fig, axes = plt
Los números no siempre cuentan la historia completa. La visualización es clave, como demuestra la famosa cuarteta de Anscombe, donde cuatro datasets con estadÃsticas descriptivas casi idénticas presentan formas muy diferentes. Por eso, siempre se debe visualizar.
Continuos (ej. precio, velocidad) y discretos (ej. número de hijos).
La estadÃstica práctica para ciencia de datos no consiste en memorizar fórmulas complejas, sino en desarrollar la intuición necesaria para hacer las preguntas correctas a los datos. Al integrar Python en este flujo de trabajo, se automatiza el cálculo matemático, permitiendo al profesional enfocarse en lo verdaderamente importante: la interpretación de los resultados. Classification: Los números no siempre cuentan la historia
import statsmodels.api as sm # Datos simulados: Años de experiencia (X) vs Salario en miles (Y) experiencia = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] salario = [45, 50, 56, 65, 72, 78, 83, 90, 94, 102] df_reg = pd.DataFrame('Experiencia': experiencia, 'Salario': salario) # Añadir una constante para el intercepto (beta_0) X = sm.add_constant(df_reg['Experiencia']) Y = df_reg['Salario'] # Ajustar el modelo por MÃnimos Cuadrados Ordinarios (OLS) modelo = sm.OLS(Y, X).fit() # Imprimir el resumen estadÃstico de alta calidad print(modelo.summary()) Use code with caution. ¿En qué debes fijarte del resumen de statsmodels ?
El modelado estadÃstico se enfoca en construir modelos para predecir resultados futuros o explicar relaciones entre variables. A continuación, se presentan algunos ejemplos de modelado estadÃstico con Python:
Las pruebas de hipótesis ofrecen un marco formal para tomar decisiones basadas en datos. Se parte de una hipótesis nula (H0), que se asume cierta, y una hipótesis alternativa (H1). El mide la probabilidad de obtener los resultados observados si H0 fuera cierta. Un p-valor bajo indica evidencia en contra de H0. Continuos (ej
Modela la frecuencia de eventos en un intervalo de tiempo fijo (ej. llegada de clientes por hora). El Teorema del LÃmite Central (TLC)
Esto permite calcular los , que expresan el rango en el cual se espera encontrar el verdadero parámetro poblacional con un nivel de certeza especÃfico (ej. 95%). Demostración del TLC en Python