what is the MeCab output and the tagset?
Asked Answered
T

1

10

Can someone enlighten me on the MeCab default output? what annotation does the MeCab output and where can i find the tagset for the morpho analyzer

http://mecab.sourceforge.net/

can anyone decipher this output from MeCab?

<s>
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般       
に   ニ   に   助詞-格助詞-一般       
は   ハ   は   助詞-係助詞      
最も  モットモ    最も  副詞-一般       
買い  カイ  買う  動詞-自立   五段・ワ行促音便    連用形
物慣れ モノナレ    物慣れる    動詞-自立   一段  連用形
し   シ   する  動詞-自立   サ変・スル   連用形
た   タ   た   助動詞 特殊・タ    基本形
人々  ヒトビト    人々  名詞-一般       
を   ヲ   を   助詞-格助詞-一般       
も   モ   も   助詞-係助詞      
魅了  ミリョウ    魅了  名詞-サ変接続     
する  スル  する  動詞-自立   サ変・スル   基本形
品   シナ  品   名詞-一般       
揃え  ソロエ 揃える 動詞-自立   一段  連用形
が   ガ   が   助詞-格助詞-一般       
あり  アリ  ある  動詞-自立   五段・ラ行   連用形
ます  マス  ます  助動詞 特殊・マス   基本形
。   。   。   記号-句点       
</s>
Tanny answered 7/4, 2011 at 9:19 Comment(1)
anyone could interpret the output? at least in layman terms??Tanny
C
12

The output format in your example appears to be chasen2, which is defined in the dicrc file. That would be:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n

For a normal node format, that would be:

1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline

where items 7 through 10 are hyphen-delimited.

For further details, you should see the 出力フォーマット documentation for mecab.

EDIT: updated link to the MeCab output formatting explanation page.

Capriccio answered 10/4, 2011 at 1:16 Comment(3)
thank you buruzaemon-san. my japanese level is low so i had difficulty reading the documentation. i've tried to read the IPAdic 2.7.0 manual and i understand a little bit i couldnt figure out the output format. thank you once again.Tanny
I think the link (format documentation) have expired (at least not work for me), the author's github page is at taku910.github.io/mecab/#format and taku910.github.io/mecab/format.html ; just a side note, for text-to-speech (as well as doing furigana) applications, personally I prefer to use '--output-format-type=yomi'Suint
Thanks for letting me know about that outdated link, @SuintCapriccio

© 2022 - 2024 — McMap. All rights reserved.