Cómo extraer las tablas de un PDF fácilmente con estas webs
El uso con documentos en formato PDF, con el paso de los años se ha ido extendiendo de manera masiva, es más, gracias a su versatilidad, estos son usados en multitud de entornos y para todo tipo de trabajos.
Pues bien, en el caso de que dispongamos de algunos documentos PDF que contienen tablas o usamos estos elementos de manera habitual y deseamos extraer datos de las mismas, seguro que las aplicaciones web que os vamos a mostrar os serán de mucha utilidad.
En primer lugar nos tendremos que asegurar de que ese archivo PDF no contiene páginas en forma de imágenes escaneadas, ya que en ese caso no podremos llevar el proceso a cabo, ya que las tablas deben estar creadas en formato de texto.
Eso sí, hay que tener en cuenta que las apps de las que os vamos a hablar no son infalibles, por lo que no siempre van a funcionar a la hora de extraer los datos de la tabla del PDF.
Por regla general estos sitios web ofrecen una función de extracción automática de tablas, por lo que no tendremos que identificarlas previamente, ya que son detectadas por la herramienta como tal.
Por otro lado diremos que estas se van a poder extraer en formato Excel o CSV para que podamos tratar con los datos que las componen, posteriormente, aunque también disponen de función de previsualización de PDFs, creación de documentos separados para los datos de la salida, etc.
PDF to XLS
Esta alternativa dispone de algunas interesantes funciones como la posibilidad de poder extraer tablas de hasta 20 archivos PDF a la vez. Así, si hay varias tablas en diferentes páginas de un mismo fichero, se crea un único archivo XLSX con las hojas separadas con los datos de cada tabla.
Además tiene un funcionamiento muy sencillo, ya que solo tendremos que arrastrar y soltar los PDF desde el PC para su carga y posterior extracción de datos, todo ello de manera automática.
Pdftoexcel
Esta es otra buena opción para extraer tablas desde un PDF, pero en lugar de extraer sólo los datos de esta, convierte todo el archivo a un formato XLSX, donde la tabla será visible con sus respectivas filas y columnas en el archivo de salida.
Por tanto tendemos que eliminar el resto de los datos inservibles y quedarnos con la tabla como tal. Además podremos agregar archivos directamente desde servicios como Google Drive, OneDrive o Dropbox.
Sejda
Para terminar os hablaremos de una herramienta de conversión que, una vez hemos subido el archivo PDF, identifica automáticamente las tablas del documento y las resalta para después generar salidas de nuevos ficheros en formato CSV o XLSX.
En su modalidad gratuita nos permite añadir hasta un PDF de 50 megas o 200 páginas, límite más que suficiente para la mayoría. Es más, una vez acabado el proceso, nos permite guardar la salida en plataformas de almacenamiento como Dropbox o Google Drive.
Fuente > ILFS
Comentarios
Publicar un comentario