Haciendo ciencia de datos en la nube con ScraperWiki
Si tiene las habilidades mentales, un talento para la programación y la narración de historias y un ojo para el diseño, puede hacerlo peor que meterse en la ciencia de los datos. Es la nueva gran cosa en tecnología; altamente moderno y muy bien pagado, con científicos de datos buscados por algunas de las compañías más grandes del mundo.
ScraperWiki es una compañía que ha estado asociada durante mucho tiempo al campo de la ciencia de datos. Durante los últimos años, esta startup basada en Liverpool ha ofrecido una plataforma para que los programadores escriban herramientas para obtener datos, limpiarlos y analizarlos en la nube..
Con una actualización reciente y la demanda cada vez mayor de científicos de datos en la empresa, vale la pena echar un vistazo a ScraperWiki.
Revelación completa: fui pasante en ScraperWiki el verano pasado.
¿Qué hace ScraperWiki??
ScraperWiki se comercializa como un lugar para obtener, limpiar y analizar datos, y cumple con cada uno de esos conteos. En su forma más simple, le permite a usted, el usuario, un lugar donde puede escribir código que recupera datos de una fuente, herramientas para convertirlo en un formato que sea fácil de analizar y almacenamiento para conservarlo para su posterior visualización, que usted También se puede manejar con ScraperWiki..
También viene con una serie de herramientas preconstruidas que automatizan las tareas repetitivas, incluida la obtención de datos de archivos PDF, que son muy difíciles de descodificar. Esto se suma a la búsqueda en Twitter. 5 trucos de búsqueda en Twitter para monitorear lo que la gente dice acerca de usted. 5 trucos de búsqueda en Twitter para monitorear lo que la gente dice acerca de usted. Siempre es bueno saber lo que la gente dice sobre usted a través de Internet. La gente puede estar citando ... Leer más y raspando utilidades. No necesitas ninguna experiencia en desarrollo de software para usar estos.
Costo
Como se mencionó anteriormente, ScraperWiki abarca el modelo de precios de freemium y ofrece un servicio que tiene múltiples niveles. Aquellos que recién comienzan con la ciencia de datos o con necesidades limitadas pueden hacer uso del servicio gratuito. Esto le proporciona tres conjuntos de datos, donde almacena sus datos y código.
Aquellos que planean escribir múltiples raspadores o que desean hacer montañas de análisis de datos pueden desembolsar algo de efectivo para una cuenta premium. Estos comienzan en $ 9 por mes y ofrecen 10 conjuntos de datos. Si eso no es suficiente, siempre puede actualizar a su nivel más alto, que viene con 100 conjuntos de datos y cuesta $ 29 por mes.
Codificación
Los programadores a menudo son bastante particulares cuando se trata de cómo codifican. Algunos prefieren lenguajes de scripting sobre lenguajes compilados. Algunos prefieren la experiencia reducida de un editor de texto a la de un entorno de desarrollo integrado (IDE). ScraperWiki lo reconoce y le brinda al usuario una gran cantidad de opciones cuando se trata de cómo escribir su código..
Si lo desea, puede escribir su código en el navegador. Como era de esperar de cualquier herramienta de desarrollo de Codificar en la nube, basada en la web de The Top 3, basada en la web, para codificar en la nube La mejor herramienta de desarrollo para codificar en la nube de Code In The Cloud Leer más, esto viene con características que cualquier programador Consideraría esencial, como el resaltado de sintaxis.
Hay una serie de idiomas que se ofrecen. Estos incluyen Python Los 5 mejores sitios web para aprender a programar en Python Los 5 mejores sitios web para aprender a programar en Python ¿Quieres aprender a programar en Python? Estas son las mejores maneras de aprender Python en línea, muchas de las cuales son completamente gratuitas. Read More, un popular lenguaje de scripting utilizado por gente como Google y la NASA; Ruby 3 formas interactivas, divertidas y gratuitas para comenzar a aprender el lenguaje de programación Ruby 3 formas interactivas, divertidas y gratuitas para comenzar a aprender el lenguaje de programación Ruby Ruby es un lenguaje expresivo de muy alto nivel para scripting. Se usa en la Web principalmente como parte del marco de desarrollo web de Ruby on Rails, pero también es independiente. Si tiene curiosidad por saber qué es Ruby (no… Leer más, que impulsa una serie de sitios web populares como Living Social; y el popular lenguaje de análisis estadístico, R.
Además, también puede escribir código desde la línea de comandos usando SSH, Git y cualquier editor de texto que disfrute usando. Sí, lo leiste bien. SSH Qué es SSH y en qué se diferencia de FTP [Explicación de la tecnología] Qué es SSH y en qué se diferencia de FTP [Explicación de la tecnología] Leer más. Cada caja que usa es su propia cuenta de Linux, y puede conectarse a ella como lo haría con un VPS o cualquier otra cuenta shell. Hay varios editores de texto disponibles, incluyendo Vim Las 7 razones principales para darle una oportunidad al editor de texto Vim Las 7 razones principales para darle una oportunidad al editor de texto Vim Durante años, he probado un editor de texto tras otro. Lo que sea, lo intenté. Utilicé a todos y cada uno de estos editores durante más de dos meses como mi principal editor del día a día. De alguna manera, yo ... Leer más, que se puede ampliar con complementos y editando la configuración. Los intimidados por Vim pueden usar Nano, que es un editor de texto de línea de comandos ligero..
Las bibliotecas instaladas deben ser suficientes para escribir herramientas para recuperar datos y procesarlos. Si necesita algo un poco más oscuro, siempre puede crear un virtualenv desde la línea de comandos. Como puede ver, los desarrolladores cuentan con una gran flexibilidad..
Visualización de datos
Entonces, tienes tus datos. Lo has normalizado. Lo has limpiado. Lo has analizado. Ahora es el momento de hacer una visualización y mostrar al mundo lo que has aprendido..
ScraperWiki permite a los desarrolladores mostrar sus datos utilizando páginas web construidas a partir de la trifecta completamente familiar de HTML, CSS y JavaScript. Además, los componentes de Bootstrap son compatibles de fábrica..
Hay una serie de visualizaciones prefabricadas disponibles, incluidas las que trazan sus datos en un mapa y encuentran tendencias dentro de sus hallazgos. Para usarlos, debe asegurarse de que sus datos se almacenen como archivos SQLite con el nombre de archivo 'scraperwiki.sqlite'. Luego simplemente agrega la visualización que le interesa. Simple, a la derecha?
Conclusión
ScraperWiki ofrece mucho a los desarrolladores que desean realizar un análisis de datos sin que su entorno de desarrollo se interponga en su camino, al tiempo que ofrece la flexibilidad necesaria para complacer incluso a los usuarios más exigentes. Pero ¿qué piensas? Déjame saber abajo en los comentarios.
Crédito de la foto: Rocket Science (Dan Brown)
Explorar más sobre: Computación en la nube, análisis web.