MACHINE LEARNING


2018 유해차단 서비스

인공지능 유해 사이트 차단 서비스

자녀가 유해 컨텐츠에 접하지 않도록 똑똑하게 지켜주세요.

유해 키워드 수집

한국어 AI 판정기 예시 이미지

AI 기반 유해 DB 확보 PoC 프로젝트

자동으로 유해 키워드를 추가하면서 지속적으로 생겨나는 사이트를
크롤링, 분석, DB화 하는 선순환 구조의 DB 확보 시스템 구축

주요 구성

스파이더 앱

ADMIN 서버로부터 키워드를 받아서 검색

검색 결과를 ADMIN 서버에 전송

다양한 검색엔진 (구글, 야후, 얀덱스, 바이두)

Seed URL 제공 - 크롤러가 크롤링할 URL 제공

스파이더앱에 신규 검색 키워드 제공

ML 모델파일 관리 - ML 판정기에 전송

ML 판정기 결과 조회 - 오탐 가능성이 높은 순

ADMIN 서버

크롤링 서버

크롤링 우선순위, 재방문 스케쥴링

일본, 미국, 싱가폴, 영국에 설치

ADMIN 서버와 통신

크롤링 데이터를 가공(ML 입력데이터)

ML 학습, 키워드 기반 - Supervised Learning

ML 판정 및 판정결과를 ADMIN 서버에 전송

ML 모델 파일 동기화 (학습 결과물 파일)

머신 러닝

크롤링

크롤러를 통해 유해사이트 후보를 주요 검색 사이트에서 수집 후,
언어별 AI 판정기를 통해 유해 사이트 판별

머신 러닝

크롤러를 통해 유해사이트 후보를 주요 검색 사이트에서 수집 후,
언어별 AI 판정기를 통해 유해 사이트 판별

머신러닝 알고리즘 생성
텍스트 CNN 기법을 사용한 머신러닝 알고리즘 생성
표준 단어 그룹 생성
단어 그룹(corpus) 생성을 위해 각 나라별 뉴스 사이트 수집
  • 조/중/동 뉴스 학습
  • BBC/NYTimes 학습
  • 아사히신문 학습
언어별 어휘 사전 (vocabulary) 생성 완료
유해 그룹별 어휘 생성
유해 언어 이해를 위한 유해사이트 그룹 확보
  • 성인
  • 도박
  • 폭력 등
그룹별 단어 그룹 생성
유해 그룹별 어휘사전 생성
토탈 어휘사전 인덱스화
텍스트 CNN에 토탈 어휘를 적용하여 모든 어휘를 수치화
학습 진행
사이트 정보를 수동으로 입력하여 토탈 어휘 사전의 인덱스를 튜닝

유해키워드 수집 과정

형태소 분석

얼마나 빠르게 Web site를 문장화 하는지가 성능 지표
이를 위해 5개의 형태소 분석기의 성능을 테스트하여
Mecab open source 형태소 분석기를 선정

Mecab은 단어 수에 상관 없이 0초대의 빠른 문장 분석이 가능

세부 과정

형태소 분석기로 분석된 내용 중
AI 판정기에 사용하는 명사만 추출, AI 판정기와 연동

Mecab 형태소 분석
Web site 내용 수집
AI 판정에 필요한 명사 추출

분석된 형태소 중 AI 판정에 필요한 명사만 추출

유해차단 서비스, Machine Learning

2018


-


Credits

Client KT

Development OH LAB

Design OH LAB


-


OH LAB 오랩

www.ohlab.kr

ohlab.kr@gmail.com


Copyright ⓒ2018 Oh lab. All Rights Reserved.