Innodb Full-Text Search : Part 1

슬라이드3

 

오늘은 MySQL Server Blog 에 올라온 MySQL FTS ( Full-Text Search ) 에 대해서…

 

FTS ( Full-Text Search ) 란?

https://en.wikipedia.org/wiki/Full_text_search

 

MySQL 5.5 때까지는 MyISAM 만 FTS 를 지원하였지만, MySQL 5.6 부터는 InnoDB 엔진도 지원하고 있습니다.

http://www.drdobbs.com/database/full-text-search-with-innodb/231902587

 

MySQL 5.7.3 부터 CJK ( China, Japan, Korea ) 를 위한 plugin parser in fulltext index 를 지원합니다.

http://mysqlserverteam.com/innodb-supports-plugin-parser-in-fulltext-index/

 

MySQL Server Team Blog 에 올라온 N-gram & MeCab Parser 에 대해서…

 

Category Archives: Full Text Search

http://mysqlserverteam.com/category/full-text-search/

 

InnoDB Full-Text: MeCab Parser ( China )

http://mysqlserverteam.com/innodb-full-text-mecab-parser/

 

InnoDB全文索引:N-gram Parser ( China )

http://mysqlserverteam.com/innodb%E5%85%A8%E6%96%87%E7%B4%A2%E5%BC%95%EF%BC%9An-gram-parser/

 

InnoDB 全文検索 : N-gram Parser ( Japan )

http://mysqlserverteam.com/innodb-%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2-n-gram-parser/

 

InnoDB 全文検索 : MeCab Parser ( Japan )

http://mysqlserverteam.com/innodb-%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2-n-gram-parser/

 

InnoDB 전문 검색 : N-gram Parser ( Korea )

http://mysqlserverteam.com/innodb-%EC%A0%84%EB%AC%B8-%EA%B2%80%EC%83%89-n-gram-parser/

 

 

여기서 잠깐,

N-gram 은 ( n byte or lexim 긴가민가?! ㅠㅠ) 이기 때문에 CJK 문제가 없습니다?! 그런데, MeCab 는 일본어를 위한 엔진인데, Japan 과 Korea 는 어순도 LR 이고, 문법도 비슷한 점이 많아서 엔진과 사전을 조금만 수정해서 쓴다고 하지만, China 는 모르겠습니다. 그리고, 사전도 일본어 IPADIC 를 씁니다?!

우리는 은전한닢이란 MeCab Fork 프로젝트가 있습니다!? 일본이라서 고맙다!? ㅠㅠ

 

Shaohua Wang 란 Oracle China 분인 것 같은데, 아는지 모르는지…

 

“MeCab is a Japanese morphological analyzer, and we now have a full-text plugin parser based on it!”

 

MeCab : Yet Another Part-of-Speech and Morphological Analyzer

http://taku910.github.io/mecab/

http://mecab.googlecode.com/svn/trunk/mecab/doc/feature.html

 

IPADIC

http://parame.mwj.jp/blog/0209

 

은전한닢 프로젝트

http://eunjeon.blogspot.kr/

 

MeCab-Ko-Dic

 

https://bitbucket.org/eunjeon/mecab-ko-dic

 

기타참고

http://d.hatena.ne.jp/studio-m/20091108/1257668762

 

결론은…

N-gram FTS Parser 는 CJK 상관없이 쓰셔도 되지만, MeCAB Parser 는 엄밀히 언어별, 인코딩별 형태소분석기 ( Tokenizer ) + 사전( Dictionary ) 이 필요합니다. 일본과 우리는 문제 없다!? ㅠㅠ

MySQL 5.7.7 에는 기본적으로 libpluginmecab.so 과 ipadic_euc-jp, ipadic_sjis, ipadic_utf-8 이 포함되어 있습니다.

 

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중