Documentation ¶
Overview ¶
Go中文分词
Index ¶
- func Join(a []Text) string
- func SegmentsToSlice(segs []Segment, searchMode bool) (output []string)
- func SegmentsToString(segs []Segment, searchMode bool) (output string)
- type Dictionary
- type Segment
- type Segmenter
- func (seg *Segmenter) AddDictionary(text, freqText, pos string)
- func (seg *Segmenter) Close()
- func (seg *Segmenter) Dictionary() *Dictionary
- func (seg *Segmenter) InternalSegment(bytes []byte, searchMode bool) []Segment
- func (seg *Segmenter) LoadDictionary(files string)
- func (seg *Segmenter) RefreshDictionary()
- func (seg *Segmenter) Segment(bytes []byte) []Segment
- type Text
- type Token
Constants ¶
This section is empty.
Variables ¶
This section is empty.
Functions ¶
func SegmentsToSlice ¶
func SegmentsToString ¶
输出分词结果为字符串
有两种输出模式,以"中华人民共和国"为例
普通模式(searchMode=false)输出一个分词"中华人民共和国/ns " 搜索模式(searchMode=true) 输出普通模式的再细致切分: "中华/nz 人民/n 共和/nz 共和国/ns 人民共和国/nt 中华人民共和国/ns "
搜索模式主要用于给搜索引擎提供尽可能多的关键字,详情请见Token结构体的注释。
Types ¶
type Dictionary ¶
type Dictionary struct {
// contains filtered or unexported fields
}
Dictionary结构体实现了一个字串前缀树,一个分词可能出现在叶子节点也有可能出现在非叶节点
func NewDictionary ¶
func NewDictionary() *Dictionary
type Segmenter ¶
type Segmenter struct {
// contains filtered or unexported fields
}
分词器结构体
func (*Segmenter) AddDictionary ¶
添加字典
func (*Segmenter) InternalSegment ¶
func (*Segmenter) LoadDictionary ¶
从文件中载入词典
可以载入多个词典文件,文件名用","分隔,排在前面的词典优先载入分词,比如
"用户词典.txt,通用词典.txt"
当一个分词既出现在用户词典也出现在通用词典中,则优先使用用户词典。
词典的格式为(每个分词一行):
分词文本 频率 词性
type Text ¶
type Text []byte
字串类型,可以用来表达
- 一个字元,比如"中"又如"国", 英文的一个字元是一个词
- 一个分词,比如"中国"又如"人口"
- 一段文字,比如"中国有十三亿人口"
Source Files ¶
Click to show internal directories.
Click to hide internal directories.