2026/1/11 14:52:34
网站建设
项目流程
做金融资讯网站需要哪些牌照,做网站哪家公司,启凡科技企业网站建设,阿里主机wordpressBERT和BERTopicBERT#xff08;深度学习模型#xff09;BERTopic#xff08;主题建模工具包#xff09;关系类比详细对比1. BERT#xff1a;基础组件2. BERTopic#xff1a;完整系统技术架构图关键区别表格实际代码对比**只用 BERT**使用 BERTopic常见混淆点澄清1. 名字为…BERT和BERTopicBERT深度学习模型BERTopic主题建模工具包关系类比详细对比1. BERT基础组件2. BERTopic完整系统技术架构图关键区别表格实际代码对比**只用 BERT**使用 BERTopic常见混淆点澄清1. 名字为什么有 BERT2. 可以不用 BERT 吗历史背景总结一句话BERT深度学习模型# BERT 是一个预训练的语言表示模型fromtransformersimportBertModel,BertTokenizer modelBertModel.from_pretrained(bert-base-uncased)tokenizerBertTokenizer.from_pretrained(bert-base-uncased)# 功能文本编码得到语义向量# 用途句子分类、问答、命名实体识别等 NLP 任务BERT 特点基础模型Google 2018年提出的 Transformer 架构功能生成文本的上下文感知向量表示架构深度学习神经网络输出768/1024维的向量BERTopic主题建模工具包# BERTopic 是一个基于 BERT 的主题建模框架frombertopicimportBERTopic topic_modelBERTopic()# 功能自动发现文档集合中的主题# 用途文档聚类、主题分析、文本挖掘BERTopic 特点应用框架使用 BERT或其他嵌入模型作为组件功能完整的主题建模流水线架构模块化系统嵌入→降维→聚类→表示输出主题标签、关键词、可视化关系类比类比BERTBERTopic汽车引擎发动机整车建筑砖块大楼烹饪盐/油完整菜肴编程函数库完整应用详细对比1. BERT基础组件# BERT 只是一个词→向量的转换器text机器学习很有趣inputstokenizer(text,return_tensorspt)outputsmodel(**inputs)# 得到向量表示 [batch_size, seq_length, hidden_size]# 这就是一个数学表示没有主题概念2. BERTopic完整系统# BERTopic 使用 BERT 作为其第一步工作流程1.嵌入BERT或其他模型将文档转为向量2.降维UMAP 减少维度3.聚类HDBSCAN 找出文档群组4.表示c-TF-IDF 提取主题关键词# 输入文档列表# 输出主题结构、可视化、关键词技术架构图BERTopic 架构 ┌─────────────────────────────────────────────┐ │ BERTopic 完整流程 │ ├─────────────┬─────────────┬─────────────────┤ │ 步骤1 │ 步骤2 │ 步骤3 │ │ 文档嵌入 │ 降维聚类 │ 主题表示 │ │ │ │ │ │ ┌──────┐ │ ┌──────┐ │ ┌──────────┐ │ │ │ BERT │ │ │UMAP │ │ │c-TF-IDF │ │ │ │ 或 ├──→│ │ ├──→│ │ │ │ │ │其他 │ │ │HDBSCAN│ │ │关键词提取│ │ │ └──────┘ │ └──────┘ │ └──────────┘ │ └─────────────┴─────────────┴─────────────────┘ ↑ ↓ 原始文档 主题结果关键区别表格特性BERTBERTopic类型预训练语言模型主题建模框架输入文本序列文档集合输出向量表示主题标签、关键词目标学习语言表示发现文档主题使用场景各类 NLP 任务文本挖掘、文档分析可定制性微调参数模块化替换依赖关系独立模型依赖嵌入模型如BERT复杂度单一模型多步骤流水线实际代码对比只用 BERTfromtransformersimportpipeline# 只用 BERT 做分类classifierpipeline(text-classification,modelbert-base-uncased)resultclassifier(这个电影很好看)# 输出情感标签积极/消极# 但不知道具体主题内容使用 BERTopicfrombertopicimportBERTopic# 用 BERTopic 分析大量影评reviews[特效很棒但剧情差,演员演技出色,...]topic_modelBERTopic()topics,probstopic_model.fit_transform(reviews)# 输出# - 主题1特效相关特效、画面、视觉效果...# - 主题2剧情相关剧情、故事、逻辑...# - 主题3演员相关演技、演员、表演...常见混淆点澄清1. 名字为什么有 “BERT”BERTopic默认使用BERT 风格的嵌入模型sentence-transformers但可以替换为其他嵌入模型frombertopicimportBERTopicfromsentence_transformersimportSentenceTransformerfromopenaiimportOpenAIEmbeddings# 使用不同的嵌入模型embedding_model1SentenceTransformer(all-MiniLM-L6-v2)# 类 BERTembedding_model2OpenAIEmbeddings()# OpenAIembedding_model3paraphrase-multilingual-MiniLM-L12-v2# 多语言topic_modelBERTopic(embedding_modelembedding_model1)2. 可以不用 BERT 吗完全可以BERTopic 是模型无关的# 使用非 BERT 的嵌入fromsklearn.feature_extraction.textimportCountVectorizer# 使用词袋模型 UMAPtopic_modelBERTopic(embedding_modelCountVectorizer(),# 传统方法umap_modelUMAP(),verboseTrue)# 甚至可以用图像/音频嵌入只要有向量表示历史背景2018年Google 发布BERT论文2020年Maarten Grootendorst 发布BERTopic工具包关系BERTopic 利用了 BERT 产生的优秀文本表示能力总结一句话BERT 是 “肌肉”提供语义理解能力BERTopic 是 “大脑”组织思考发现模式。你可以用 BERT而不用 BERTopic做分类、问答等用 BERTopic而不用 BERT用其他嵌入模型做主题建模两者结合用 BERT 提供嵌入BERTopic 做主题发现它们的关系就像是PhotoshopBERT和摄影工作流程BERTopicPython语言BERT和数据分析项目BERTopic显微镜BERT和生物学研究BERTopic一个是工具一个是使用这个工具完成的系统工作。