Cómo importo datos de avistamientos de ovnis de Internet en una hoja de cálculo de Google
Cuando se trata de bases de datos en línea e información que se puede encontrar dentro de lo que comúnmente se conoce como “Los motores de búsqueda invisibles de la web 10 para explorar la web invisible Los motores de búsqueda invisibles de la web 10 para explorar la web invisible Estamos familiarizados con la web. Pero, ¿sabía que hay una gran cantidad de información que los motores de búsqueda como Google no tienen acceso directo? Esta es la web invisible. Lee mas “, No soy tu usuario típico. Claro, dedico demasiado tiempo a examinar bases de datos en línea en lugares como los Archivos Nacionales y la sala de lectura de la CIA FOIA, pero tengo que decir que nada me emociona más que cuando encuentro una tabla basada en HTML llena de volúmenes. de datos aparentemente complejos e inconexos.
El hecho es que las tablas de datos son una mina de oro de verdades importantes. Los datos a menudo se recopilan por ejércitos de gruñidos de recolección de datos con botas en el suelo. Hay personas del Censo de los Estados Unidos que viajan por todo el país para obtener información sobre el hogar y la familia. Usted tiene grupos ecologistas sin fines de lucro que recopilan todo tipo de información interesante sobre el medio ambiente, la contaminación, el calentamiento global y más. Y si te gusta lo paranormal o la ufología, también hay tablas de información constantemente actualizadas sobre avistamientos de objetos extraños en el cielo sobre nosotros..
Irónicamente, usted pensaría que cualquier gobierno en el mundo estaría interesado en saber qué tipo de embarcaciones extranjeras se ven en los cielos de cualquier país, pero aparentemente no, al menos no en los Estados Unidos. En Estados Unidos, la colección de avistamientos inusuales de artesanías ha sido relegada a equipos de aficionados aficionados que acuden a nuevos avistamientos de ovnis como polillas a una llama. Mi interés en estos avistamientos en realidad no se debe a una fascinación por los extraterrestres o las artesanías de otros planetas, sino a una fascinación científica por los patrones: dónde y por qué más personas están viendo cosas en el cielo, y si esos avistamientos pueden reflejar algo muy real y mucho más realista en la tierra pasando.
Para explorar los volúmenes de datos recopilados por equipos de aficionados a los ovnis, he desarrollado una forma de importar grandes tablas HTML de datos en una hoja de cálculo de Google y luego manipular y analizar esos datos para extraer y descubrir información significativa e importante. En este artículo, tengo la intención de mostrarle cómo hacer lo mismo.
Datos HTML importantes en la hoja de cálculo de Google
En este ejemplo, le mostraré cómo importar cualquier información que pueda estar almacenada en una tabla en cualquier sitio web en Internet, en su hoja de cálculo de Google. Piense en el enorme volumen de datos que está disponible en Internet hoy en día en forma de tablas HTML. Solo Wikipedia tiene datos en tablas para temas como el calentamiento global, la Oficina del Censo de EE. UU. Tiene toneladas de conjuntos de datos de población y un poco de Google te llevará mucho más allá de eso..
En mi ejemplo, estoy empezando con una base de datos en el Centro Nacional de Informes de OVNI que, en realidad, parece que podría ser una base de datos de web profunda de tipo consulta, pero si observa la estructuración de la URL, en realidad es una red semi-compleja. Sistema de informes basado en páginas web estáticas y tablas HTML estáticas: exactamente lo que queremos cuando buscamos datos para importar.
NUForc.org es una de esas organizaciones que sirve como uno de los centros de informes más grandes para avistamientos de ovnis. No es el único, pero es lo suficientemente grande como para encontrar nuevos conjuntos de datos con los avistamientos actuales de cada mes. Usted elige ver los datos ordenados por criterios como Estado o Fecha, y cada uno de ellos se proporciona en forma de una página estática. Si ordena por fecha y luego hace clic en la fecha más reciente, verá que la tabla que aparece en la lista contiene una página web estática nombrada según el formato de fecha..
Por lo tanto, ahora tenemos un patrón para extraer regularmente la información más reciente sobre avistamientos de esta base de datos basada en HTML. Todo lo que tiene que hacer es importar la primera tabla, usar la entrada más reciente (la superior) para identificar la última actualización y luego usar la fecha de esa publicación para crear el enlace de URL donde existe la última tabla de datos HTML. Hacer esto simplemente requerirá un par de instancias de la función ImportHTML, y luego algunos usos creativos de las funciones de manipulación de texto. Cuando haya terminado, tendrá una de las mejores hojas de cálculo de informes de actualización automática de su cuenta. Empecemos.
Importando tablas y manipulando datos
El primer paso, por supuesto, es crear la nueva hoja de cálculo..
Entonces, ¿cómo importar tablas HTML? Todo lo que necesita es la URL donde se almacena la tabla y el número de la tabla en la página; por lo general, la primera en la lista es 1, la segunda es 2 y así sucesivamente. Como conozco la URL de la primera tabla en la que se enumeran las fechas y los recuentos de avistamientos enumerados, es posible importar escribiendo la siguiente función en la celda A1.
= importhtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”mesa”,1)
H2 tiene la función “= hora (ahora ())“, Así que la mesa se actualizará cada hora. Es probable que esto sea extremo para los datos que se actualizan con poca frecuencia, por lo que probablemente podría hacerlo diariamente. De todos modos, la función ImportHTML de arriba trae la tabla como se muestra a continuación..
Tendrá que hacer un poco de manipulación de datos en esta página antes de poder juntar la URL de la segunda tabla con todos los avistamientos de ovnis. Pero adelante, crea la segunda hoja en el libro de trabajo..
Antes de intentar construir esa segunda hoja, es hora de extraer la fecha de publicación de esta primera tabla, para construir el enlace a la segunda tabla. El problema es que la fecha se presenta como un formato de fecha, no como una cadena. Entonces, primero debe usar la función TEXTO para convertir la fecha de publicación del informe en una cadena:
= texto (A2,”mm / dd / aa”)
En la siguiente celda a la derecha, necesita usar la función SPLIT con la “/” Delimitador para dividir la fecha en mes, día y año..
= división (D2,”/”)
¡Luciendo bien! Sin embargo, cada número debe ser forzado a dos dígitos. Haces esto en las celdas justo debajo de ellas usando el comando TEXTO otra vez.
= texto (E2,”00 ")
Un formato de “00” (esos son ceros) fuerza dos dígitos, o una “0” como un marcador de posición.
Ahora está listo para reconstruir la URL completa a la última tabla HTML de nuevos avistamientos. Puede hacer esto utilizando la función CONCATENAR y juntando todos los bits de información que acaba de extraer de la primera tabla..
= concatenar“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)
Ahora, en la nueva hoja que creó anteriormente (la hoja en blanco), va a hacer una nueva “importhtml” función, pero esta vez para el primer parámetro de enlace de URL, por lo que va a navegar de nuevo a la primera hoja de cálculo y haga clic en la celda con el enlace de URL que acaba de crear.
El segundo parámetro es “mesa” y el último es “1” (porque la tabla de avistamientos es la primera y única en la página). Presione enter y ahora acaba de importar todo el volumen de avistamientos que se publicaron en esa fecha en particular.
Entonces, probablemente estés pensando que esto es un buen acto de novedad y todo. Quiero decir, después de todo, lo que has hecho es extraer información existente de una tabla en Internet y migrarla a otra tabla, aunque sea privada en tu Cuenta de Google Docs. Sí, eso es verdad. Sin embargo, ahora que está en su propia cuenta privada de Google Docs, tiene a su alcance las herramientas y funciones para analizar mejor esos datos y comenzar a descubrir conexiones increíbles..
Uso de informes de pivote para analizar datos importados
Recientemente, escribí un artículo sobre el uso de los informes de Pivot en la hoja de cálculo de Google Conviértase en un analista de datos experto Pernoctación Usando las herramientas de informe de la hoja de cálculo de Google Conviértase en un analista experto de los datos de la noche Usando las herramientas de informe de la hoja de cálculo de Google ¿El análisis es en realidad hoja de cálculo de Google? La razón de esto no es solo porque puede hacer casi todo lo que quieras ... Leer más para realizar todo tipo de proezas de análisis de datos geniales. Bueno, puede hacer las mismas acrobacias increíbles de análisis de datos en los datos que ha importado de Internet, lo que le brinda la posibilidad de descubrir conexiones interesantes que posiblemente nadie más haya descubierto antes de usted..
Por ejemplo, de la tabla final de avistamientos, podría decidir usar un informe de pivote para ver el número de diferentes formas únicas reportadas en cada estado, en comparación con el número total de avistamientos en ese estado en particular. Por último, también filtro cualquier cosa mencionando “extraterrestres” en la sección de comentarios, con suerte para eliminar algunas de las entradas más wingnut.
Esto realmente revela algunas cosas bastante interesantes desde el principio, como el hecho de que California claramente tiene el mayor número de avistamientos reportados que cualquier otro estado, junto con la distinción de informar el mayor número de formas de artesanía en el país. También muestra que Massachusetts, Florida e Illinois también son grandes bateadores en el departamento de avistamientos de ovnis (al menos en los datos más recientes).
Otra cosa interesante acerca de Google Spreadsheet es la amplia gama de gráficos disponibles para usted, incluido un mapa geográfico que le permite diseñar “Puntos calientes” de datos en un formato gráfico que realmente destaca y hace que las conexiones dentro de los datos sean bastante obvias.
Si lo piensas bien, esto es realmente solo la punta del iceberg. Si ahora puede importar datos de tablas de datos en cualquier página de Internet, solo piense en las posibilidades. Obtenga los últimos números de inventario, o los 10 libros y autores más recientes en la lista de libros más vendidos del New York Times, o los autos más vendidos en el mundo. Hay tablas HTML en casi cualquier tema que pueda imaginar, y en muchos casos esas tablas se actualizan con frecuencia..
ImportHtml te da la posibilidad de conectar tu hoja de cálculo de Google a Internet y de alimentar los datos que existen. Puede convertirse en su propio centro de información personal que puede utilizar para manipular y masajear en un formato con el que realmente pueda trabajar. Es solo una cosa más genial de la hoja de cálculo de Google..
¿Alguna vez has importado datos en tus hojas de cálculo? ¿Qué tipo de cosas interesantes descubriste en esos datos? ¿Cómo usaste los datos? Comparte tus experiencias e ideas en la sección de comentarios a continuación.!
Créditos de imagen: gráfico de negocios
Explorar más sobre: Google, Hoja de cálculo.