OH LAB - Offer Outstanding Opportunity

유해차단 서비스
2018, machine learning
유해 사이트 차단 서비스
유해 사이트 노출이 걱정되는 우리아이
그 걱정을 덜어줄 맞춤 서비스
머신러닝 AI
머신러닝을 사용해서
유해 사이트를 차단합니다.

인공지능 유해 사이트 차단 서비스
자녀가 유해 컨텐츠에 접하지 않도록 똑똑하게 지켜주세요.


유해 키워드 수집

한국어 AI 판정기 예시 이미지

AI 기반 유해 DB 확보 PoC 프로젝트

자동으로 유해 키워드를 추가하면서 지속적으로 생겨나는 사이트를 크롤링, 분석, DB화 하는 선순환 구조의 DB 확보 시스템 구축

주요 구성

스파이더 앱
  • ADMIN 서버로부터 키워드를 받아서 검색
  • 검색 결과를 ADMIN 서버에 전송
  • 다양한 검색엔진 (구글, 야후, 얀덱스, 바이두)
  • Seed URL 제공 - 크롤러가 크롤링할 URL 제공
  • 스파이더앱에 신규 검색 키워드 제공
  • ML 모델파일 관리 - ML 판정기에 전송
  • ML 판정기 결과 조회 - 오탐 가능성이 높은 순
ADMIN 서버
크롤링 서버
  • 크롤링 우선순위, 재방문 스케쥴링
  • 일본, 미국, 싱가폴, 영국에 설치
  • ADMIN 서버와 통신
  • 크롤링 데이터를 가공(ML 입력데이터)
  • ML 학습, 키워드 기반 - Supervised Learning
  • ML 판정 및 판정결과를 ADMIN 서버에 전송
  • ML 모델 파일 동기화 (학습 결과물 파일)
머신 러닝

크롤링

크롤러를 통해 유해사이트 후보를 주요 검색 사이트에서 수집 후, 언어별 AI 판정기를 통해 유해 사이트 판별

머신 러닝

크롤러를 통해 유해사이트 후보를 주요 검색 사이트에서 수집 후, 언어별 AI 판정기를 통해 유해 사이트 판별
머신러닝 알고리즘 생성
텍스트 CNN 기법을 사용한 머신러닝 알고리즘 생성
표준 단어 그룹 생성
단어 그룹(corpus) 생성을 위해 각 나라별 뉴스 사이트 수집
  • 조/중/동 뉴스 학습
  • BBC/NYTimes 학습
  • 아사히신문 학습
언어별 어휘 사전 (vocabulary) 생성 완료
유해 그룹별 어휘 생성
유해 언어 이해를 위한 유해사이트 그룹 확보
  • 성인
  • 도박
  • 폭력 등
그룹별 단어 그룹 생성
유해 그룹별 어휘사전 생성
토탈 어휘사전 인덱스화
텍스트 CNN에 토탈 어휘를 적용하여 모든 어휘를 수치화
학습 진행
사이트 정보를 수동으로 입력하여 토탈 어휘 사전의 인덱스를 튜닝

유해 키워드 수집 과정


형태소 분석

얼마나 빠르게 Web site를 문장화 하는지가 성능 지표
이를 위해 5개의 형태소 분석기의 성능을 테스트하여
Mecab open source 형태소 분석기를 선정
Mecab은 단어 수에 상관 없이 0초대의 빠른 문장 분석이 가능

세부 과정

형태소 분석기로 분석된 내용 중 AI 판정기에 사용하는 명사만 추출, AI 판정기와 연동

유해차단 서비스, Machine Learning
2018


-

Credits Client KT
Development OH LAB
Design OH LAB

-
OH LAB 오랩
www.ohlab.kr
ohlab.kr@gmail.com

Copyright ⓒ2018 Oh lab. All Rights Reserved.