Word2Vec 为Tomas Mikolov 在 Google 带领的研究团队创造。主要是用神经网络训练词库模型。Word2Vec 通过对语料的神经网络训练,将词转化为n维向量,最重要的是与简单的的 Bag Of Words 模型不同,Word2Vec 模型形成的向量每一维度值的大小具有特定意义,可以表示词与词之间的关系。
>>> model = gensim.models.Word2Vec() # an empty model, no training >>> model.build_vocab(some_sentences) # can be a non-repeatable, 1-pass generator >>> model.train(other_sentences) # can be a non-repeatable, 1-pass generator
3. 储存和加载模型
1 2 3 4 5 6
>>> model.save('mymodel') >>> new_model = gensim.models.Word2Vec.load('mymodel') # 加载 C 生成的模型 >>> model = Word2Vec.load_word2vec_format('vectors.txt', binary=False) >>> # using gzipped/bz2 input works too, no need to unzip: >>> model = Word2Vec.load_word2vec_format('vectors.bin.gz', binary=True)
可以对已经有的模型进行在线训练:
1 2
>>> model = gensim.models.Word2Vec.load('mymodel') >>> model.train(more_sentences)