Documentación de grandes expectativas pdf
Great Expectations es una biblioteca de código abierto basada en Python para validar, documentar y perfilar sus datos. Le ayuda a mantener la calidad de los datos y a mejorar la comunicación sobre los datos entre los equipos. ¡Con Great Expectations, puedes afirmar lo que esperas de los datos que cargas y transformas, y detectar rápidamente los problemas de los datos – las Expectativas son básicamente pruebas unitarias para tus datos. pandas-profiling presenta un método para crear un conjunto de Expectativas basado en los resultados de tu ProfileReport!
Las expectativas son afirmaciones sobre sus datos. En Great Expectations, esas afirmaciones se expresan en un lenguaje declarativo en forma de métodos Python sencillos y legibles por los humanos. Por ejemplo, para afirmar que quiere que los valores de una columna passenger_count en su conjunto de datos sean enteros entre 1 y 6, puede decir:
Great Expectations utiliza entonces esta afirmación para validar si la columna passenger_count en una tabla dada está efectivamente entre 1 y 6, y devuelve un resultado de éxito o de fracaso. La biblioteca proporciona actualmente varias docenas de Expectativas incorporadas muy expresivas, y permite escribir Expectativas personalizadas.
¿Cómo se crean las expectativas en Great Expectations?
Las suites de expectativas se guardan como archivos JSON, por lo que podría crear una nueva suite escribiendo un archivo directamente. Sin embargo, la forma preferida es dejar que la CLI le ahorre tiempo y errores. Si no puedes utilizar la CLI en tu entorno (por ejemplo, en un clúster de Databricks), puedes crear y editar una Expectation Suite en un cuaderno.
¿Para qué sirve «Grandes esperanzas»?
Great Expectations es una biblioteca de código abierto basada en Python para validar, documentar y perfilar sus datos. Le ayuda a mantener la calidad de los datos y a mejorar la comunicación sobre los datos entre los equipos.
¿Qué son los puntos de control en Grandes esperanzas?
Un punto de control utiliza su configuración para determinar qué datos validar frente a qué conjunto de expectativas, y qué acciones realizar en los resultados de la validación – estas validaciones y acciones se ejecutan llamando al método de ejecución de un punto de control (análogo a llamar a validar con un único lote).
Un andamio de grandes expectativas
Great Expectations es un marco de validación de datos de código abierto basado en Python. Puede probar sus datos expresando lo que «espera» de ellos como simples declaraciones en Python, y luego ejecutar la validación utilizando esas «expectativas» contra conjuntos de datos con Checkpoints. El equipo de Great Expectations mantiene un proveedor de Airflow que ofrece a los usuarios un método práctico para ejecutar la validación directamente desde sus DAG.
En primer lugar, el usuario crea conjuntos de pruebas, o «conjuntos de expectativas», utilizando los métodos de Great Expectations. Estas suites se almacenan normalmente en JSON y pueden comprobarse en el control de versiones, al igual que las pruebas normales. A continuación, el marco de Great Expectations carga las suites en el momento de la ejecución de las pruebas, por ejemplo, cuando se procesa un nuevo lote de datos en una canalización.
Si configura un proyecto manualmente, verá un directorio great_expectations que contiene varios subdirectorios, así como el archivo de configuración great_expectations.yml. Si usted clonó el repositorio de demostración, el directorio great_expectations se puede encontrar en include/.
Grandes expectativas jupyter notebook
Una semana después de haber empezado a escribir la primera entrada del blog sobre el framework Great Expectations, vuelvo a la carga. Primero he conseguido crear una expectativa personalizada (es decir, una regla de validación de datos personalizada) y después he investigado la forma más formal de utilizar el framework. He aquí cómo me fue y lo que aprendí.
Hace unos días que empecé a investigar Great Expectations y por fin he conseguido crear mi primera expectativa personalizada. Tengo que decir que no encontré una sola documentación que me mostrara lo que había que hacer exactamente, sino que combiné trozos de aquí y de allá. Estoy muy orgulloso de mis logros, pero al mismo tiempo molesto por haber tenido que emplear tanto tiempo para llegar a este punto. Incluso la documentación que describe cómo crear una expectativa personalizada que no sea de Spark era algo críptica, por decir algo. Una vez más, tal vez es sólo que no soy un codificador de Python lo suficientemente bueno, pero la creación de reglas personalizadas no parece tan compleja y no puedo pensar en una excusa para que no se documente mejor. Incluso intenté contactar con la comunidad pero no obtuve ninguna ayuda, ni siquiera una respuesta. En cambio, terminé ayudando a un codificador indio con sus problemas.
Documentación de grandes expectativas
Una póliza de seguro reembolsa un siniestro hasta un límite de prestación de 10. La pérdida del asegurado sigue una distribución con función de densidad para y 0 en caso contrario. Encuentre el valor esperado de la prestación pagada por la póliza de seguro:
Los siniestros mensuales de una compañía de seguros están modelados por una variable aleatoria continua y positiva , cuya función de densidad de probabilidad es proporcional a donde . Determine los siniestros mensuales esperados de la compañía:
Los importes de los siniestros por daños causados por el viento en las viviendas aseguradas son variables aleatorias independientes con función de densidad común para y 0 en caso contrario, donde es el importe de un siniestro en miles. Supongamos que se producen tres siniestros de este tipo. Encuentre el valor esperado del mayor de los tres siniestros:
Sea la edad de un automóvil asegurado implicado en un accidente. Sea el tiempo que el propietario tiene asegurado el coche en el momento del accidente. y tenga una función de densidad de probabilidad conjunta para y , y 0 en caso contrario. Calcule la edad esperada de un automóvil asegurado implicado en un accidente: