Blog

Scraping: Extracción de información pública en la prevención de delitos LAFT
LAFT

Scraping: Extracción de información pública en la prevención de delitos LAFT

Analizar los millones de datos que están presentes en Internet (la red virtual que sirvió como cimiento para construir una infraestructura mundial de comunicaciones) y la cantidad de datos que continuamente se siguen posteando y colgando en sitios web con millones de interacciones por segundo nunca fue tan “sencillo”. Sencillo, una palabra aventurera para definir todo un proceso de análisis, reconocimiento y reingeniería de los sistemas que permiten organizar la información expuestos en la web, tales como: redes sociales, páginas web, videos, imágenes, ofimática, bases de datos no estructuradas, entre otros.

Constantemente, el mundo avanza en la construcción de una sociedad digital, por ejemplo, según (Martín, A, 2008), la mayor parte de la sociedad europea y asiática vive en contacto cotidiano con la tecnología, sus acciones son constantemente influenciadas por herramientas digitales, y los objetos que les interesan están frecuentemente moldeados por la intervención digital (Sitios de compras online, viajes, documentos únicos de identificación digitales, etc).

La innovación en el procesamiento de información no estructurada sigue adquiriendo relevancia para las empresas con o sin presencia en Internet, porque necesitan actuar oportunamente ante los riesgos legales que pueden llegar a representar clientes involucrados en delitos LAFT.

Una alternativa efectiva

La sobrecarga de información presente en periódicos web y la disponibilidad de grandes cantidades de datos, se considera un desafío y una oportunidad para prevenir, detener y tomar medidas correctivas en la realización de contratos con personas y/o empresas que poseen un historial LAFT negativo. El scraping promete una alternativa efectiva para resolver esta problemática porque facilita la obtención de información relevante para un contexto específico, usando una fuente de datos infinita: la Internet.

¿Qué es Scraping?

Para (Marres, Noortje & Weltevrede, Esther, 2013), en términos formales, el Scraping es un proceso técnico que permite extraer y hacer un procesamiento de información, siendo este un campo relacionado con el procesamiento automático de datos.

¿Qué implica hacer Scraping?

El Scraping de información convierte al informático en un “reciclador” de información: una analogía disonante para algunos y para otros suficientemente asertiva. El informático se vuelve un recolector de información histórica y actual de diferentes fuentes u orígenes de información.

1 Marres, Noortje and Weltevrede, Esther. 2013. Scraping the Social? Issues in live social research. Journal of Cultural Economy, 6(3), pp. 313-335. ISSN 1753-0350 [Article]: Goldsmiths Research Online. http://research.gold.ac.uk/6768/.

2 Martin, A. (2008). Digital literacy and the digital society. Digital literacies: Concepts, policies and practices, 30, 151-176.

Englobando la técnica del Scraping en un conjunto general de pasos, los que toman especial relevancia son: rastrear e identificar la información objetivo, extraer esa información, hacer un proceso de ETL y clasificación, para posteriormente alojar dicha información en una base de datos, desde la cual se pueda realizar la respectiva tabulación de la información con la finalidad de mostrarle al cliente final, una propuesta de valor con los datos extraídos.

Con el propósito de que el lector comprenda o construya una imagen mental sobre el proceso previamente explicado, en la siguiente imagen podemos observar la secuencia de pasos que intervienen en un proceso Scraping.


Figura 1. Flujograma de un proceso general de scraping.

¿Por qué hacer Scraping?

Una de las cosas que más les gusta a las empresas del Scraping, es que les permite crear nuevos productos, innovar más rápido y estar actualizados sobre el estado actual de la competencia, ya que pueden captar grandes volúmenes de datos desde cualquier formato.

Como ejemplos cotidianos de la aplicación del Scraping se pueden tomar páginas y sitios web como Despegar, Booking, Trivago, Kayak y otras plataformas que ofrecen servicios tecnológicos haciendo uso inteligente de la información en internet, pero existen otros usos más específicos como la construcción de un sistema que extrae y clasifica noticias judiciales.

Lo que hacemos en Stradata

En Stradata creamos un sistema de automatización y control para la Prevención del Riesgo de Lavado de Activos y Financiación del Terrorismo (LAFT) que, periódicamente se retroalimenta a partir de múltiples fuentes nacionales e internacionales de información periodística.

Medios Públicos, es un proceso que extrae noticias nacionales de los periódicos de mayor circulación en el país, se clasifican con un conjunto de algoritmos de aprendizaje supervisado que previamente fueron analizados y probados y que nos permite encontrar noticias relacionadas con delitos LAFT (descargue aquí los delitos LAFT), otra de las tareas consiste en aplicar un algoritmo de extracción de nombres que facilita la clasificación manual de personas y/o empresas como víctimas o victimarios (y sus delitos asociados). La ventaja competitiva de este proyecto radica en la disminución directa de tiempo, mano de obra cualificada (ya que la clasificación manual de prensa implica que el profesional posea un basto conocimiento sobre delitos LAFT) y el acceso a los resultados en cuestión de horas.

Solicite un demo de nuestra herramienta Motor de Búsqueda (Listas Restrictivas) y conozca cómo funciona Medios Públicos

Con este servicio seguimos en el camino de entregar soluciones innovadoras que representen valor agregado y nos ayuden a buscar nuevas formas de mejorar los productos entregados a nuestros clientes y el ecosistema de soluciones AML.

La tecnología como un aliado para afrontar retos empresariales

Las aplicaciones en el mercado son ilimitadas y realmente ponen la meta alta cuando se habla en términos de innovación empresarial porque permite el acceso a los datos alojados en la web. El Scraping, al ofrecerle información que apoya la toma de decisiones y le muestra el estado actual de la competencia, le abre nuevas oportunidades para mejorar su propuesta de valor.

Esta metodología ayuda a innovar más rápido porque pone a su disposición una base de datos casi ilimitada y de cualquier tipo de información, por ejemplo, si se quiere construir un producto relacionado con bicicletas y no tiene una base de datos, la mejor opción es rastrear la información actual en la web para construir una propuesta de valor basada en información real, valedera y actualizada.

¿Cuáles son las ventajas del Scraping?

Permite utilizar esa serie de pasos que tiene un proceso de interacción humana con un navegador web y dotarlos con la percepción que tiene una persona cuando interactúa por ejemplo, con una página web, esto nos abre un sinfín de oportunidades y beneficios que podemos estudiar.

¿Cuáles son las lecciones aprendidas?

Como toda negociación en la vida, el Scraping es una metodología de tira y afloja, no podemos pretender extraer más datos de los que las páginas web ponen a disposición del cliente con su estructura de definición de texto o contenido.

Usando herramientas tecnológicas como el scraping, seguimos trabajando con la finalidad de entregarle a nuestros clientes información acertada y en el menor tiempo posible.


Diego Zabala
Analista de Datos y Desarrollador


Deja tu comentario aqui