立即前往

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
查看全部活动
热门活动
  • 智算采购季 热销S6云服务器2核4G限时88元/年起,部分主机可加赠对象存储组合包!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 一键部署Llama3大模型学习机 0代码一键部署,预装最新主流大模型Llama3与StableDiffusion
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 产品能力
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

      首页 知识中心 软件开发 文章详情页

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

      2023-02-24 10:12:47 阅读次数:461

      R语言开发,R语言教程

      文本分析:主题建模
      library(tidyverse)
      theme_set( theme_bw())

       

      目标
      • 定义主题建模

      • 解释Latent Dirichlet以及此过程的工作原理

      • 演示如何使用LDA从一组已知主题中找到主题结构

      • 演示如何使用LDA从一组未知主题中找到主题结构

      • 确定k

      • 选择适当参数的方法

      主题建模

       

      通常,当我们在线搜索信息时,有两种主要方法:

      1. 关键字 - 使用搜索引擎并输入与我们想要查找的内容相关的单词

      2. 链接。链接的页面可能共享相似或相关的内容。

      另一种方法是通过主题搜索和探索文档。广泛的主题可能与文章中的各个部分(国家事务,体育)有关,但这些部分内或之间可能存在特定主题。

      为此,我们需要有关每篇文章主题的详细信息。对该语料库进行手工编码将非常耗时,更不用说在开始编码之前需要知道文档的主题结构。

      因此,我们可以使用概率主题模型,分析原始文本文档中的单词的统计算法来揭示语料库和单个文档本身的主题结构。在分析之前,它们不需要对文档进行任何手工编码或标记 - 相反,算法来自对文本的分析。

      潜在Dirichlet分配

      LDA假定语料库中的每个文档都包含在整个语料库中的混合主题。主题结构是隐藏的 - 我们只能观察文档和文字,而不是主题本身。因为结构是隐藏的(也称为潜在的),所以该方法试图在给定已知单词和文档的情况下推断主题结构。

      食物和动物

      假设您有以下句子:

      1. 我早餐吃了香蕉和菠菜。

      2. 我喜欢吃西兰花和香蕉。

      3. 龙猫和小猫很可爱。

      4. 我姐姐昨天收养了一只小猫。

      5. 看看这只可爱的仓鼠嚼着一块西兰花。

      Latent Dirichlet分配是一种自动发现这些句子所包含的主题的方法。例如,给定这些句子并询问2个主题,LDA可能会产生类似的东西

      • 句子1和2:100%主题A.

      • 句子3和4:100%主题B.

      • 句子5:60%主题A,40%主题B.

      • 主题A:30%西兰花,15%香蕉,10%早餐,10%咀嚼,......

      • 主题B:20%龙猫,20%小猫,20%可爱,15%仓鼠,......

      您可以推断出主题A是关于食物的主题,主题B是关于可爱动物的主题。但是,LDA没有以这种方式明确地确定主题。它所能做的就是告诉你特定单词与主题相关的概率。

      LDA文档结构

      LDA将文档表示为以某些概率单词的主题组合。它假设文档以下列方式生成:在编写每个文档时,您

      • 确定单词数N.

      • 为文档选择主题(根据K个主题)

      • 例如,假设我们上面有两个食物和可爱的动物主题。

      • 通过以下方式生成文档中的每个单词:

      • 首先选择一个主题(根据您在上面采样的分配;例如,您可以选择1/3概率的食物主题和2/3概率的可爱动物主题)。

      • 然后使用主题生成单词本身(根据主题分配)。例如,食物主题可能输出概率为30%的“西兰花”,概率为15%的“香蕉”,依此类推。

       

      我们怎么能在前面的例子中生成句子?生成文档D时:

      • D 将是一半关于食物和一半关于可爱动物。

      • 选择5为D的单词数

      • 从食物主题中选择第一个词,然后给出“西兰花”这个词。

      • 选择第二个词来自可爱的动物主题,如“熊猫”。

      • 选择第三个词来自可爱的动物主题,如“可爱”。

      • 选择第四个词来源于食物主题,如“樱桃”。

      • 从食物主题中选出第五个词,如“吃”。

      因此,在LDA模型下生成的文件将是“可爱的熊猫吃樱桃和西兰花”(LDA使用的是词袋模型)。

      通过LDA学习主题模型

      现在假设您有一组文档。你选择了一些固定数量的K.

      ķ是要发现的主题,我们希望使用LDA来学习每个文档的主题表示以及与每个主题相关联的单词。怎么做到这一点?一种方式(称为吉布斯采样)如下:

      • 浏览每个文档,并将文档中的每个单词随机分配给K中的一个ķ 主题

      • 但由于它是随机的,这不是一个非常准确的结构。

      • 换句话说,在这一步中,我们假设除了当前单词之外的所有主题分配都是正确的,然后使用我们的文档生成模型更新当前单词的赋值。

      • 重复上一步骤很多次,你最终会达到一个大致稳定的状态

      • 您可以使用这些分配来估计两件事:

      1. 每个文档的主题(通过计算分配给该文档中每个主题的单词的比例)

      2. 与每个主题相关的单词(通过计算分配给每个主题的单词的比例)

      具有已知主题结构的LDA

      如果先验地知道一组文档的主题结构,LDA可能是有用的。

      我们可以使用LDA和主题建模来发现章节与不同主题(即书籍)的关系。

      作为预处理,我们将这些分为章节,使用tidytext unnest_tokens将它们分成单词,然后删除stop_words。我们将每一章都视为一个单独的“文档” 。

      by_chapter <- books %>%
      group_by(title) %>%
      mutate(chapter = cumsum( str_detect(text, regex("^chapter ", ignore_case = TRUE)))) %>%
      ungroup() %>%
      
      count(title_chapter, word, sort = TRUE) %>%
      ungroup()
      ## Joining, by = "word"
      word_counts
      ## # A tibble: 104,721 × 3
      ## title_chapter word n
      ## <chr> <chr> <int>
      ## 1 Great Expectations_57 joe 88
      ## 2 Great Expectations_7 joe 70
      ## 3 Great Expectations_17 biddy 63
      ## 4 Great Expectations_27 joe 58
      ## 5 Great Expectations_38 estella 58
      ## 6 Great Expectations_2 joe 56
      ## 7 Great Expectations_23 pocket 53
      ## 8 Great Expectations_15 joe 50
      ## 9 Great Expectations_18 joe 50
      ## 10 The War of the Worlds_16 brother 50
      ## # ... with 104,711 more rows

       

       

      潜在狄利克雷分配(latnet Dirichlet allocation, LDA)模型

      topicmodels包需要一个DocumentTermMatrix(来自tm包)。我们可以用cast_dtm函数转换为DocumentTermMatrix:

      chapters_dtm
      ## <<DocumentTermMatrix (documents: 193, terms: 18215)>>
      ## Non-/sparse entries: 104721/3410774
      ## Sparsity : 97%
      ## Maximal term length: 19
      ## Weighting : term frequency (tf)

       

      现在我们准备创建一个四主题LDA模型。

      chapters_lda <- LDA(chapters_dtm, k = 4, control = list(seed = 1234))
      chapters_lda
      ## A LDA_VEM topic model with 4 topics.

       

      • 在这种情况下,我们知道有四个主题,因为有四本书; 这是了解潜在主题结构的价值

      • seed = 1234设置随机迭代过程的起点。如果我们没有设置种子,那么每次运行脚本时我们都可以估算出略有不同的模型

      我们从动词开始。

      library(tidytext)
      chapters_lda_td <- tidy(chapters_lda)
      chapters_lda_td
      ## # A tibble: 72,860 × 3
      ## topic term beta
      ## <int> <chr> <dbl>
      ## 1 1 joe 5.830326e-17
      ## 2 2 joe 3.194447e-57
      ## 3 3 joe 4.162676e-24
      ## 4 4 joe 1.445030e-02
      ## 5 1 biddy 7.846976e-27
      ## 6 2 biddy 4.672244e-69
      ## 7 3 biddy 2.259711e-46
      ## 8 4 biddy 4.767972e-03
      ## 9 1 estella 3.827272e-06
      ## 10 2 estella 5.316964e-65
      ## # ... with 72,850 more rows

       

       

      我们可以使用dplyr's top_n来查找每个主题中的前5个词:

      top_n(5, beta) %>%
      ungroup() %>%
      arrange(topic, -beta)
      top_terms
      ## # A tibble: 20 × 3
      ## topic term beta
      ## <int> <chr> <dbl>
      ## 1 1 elizabeth 0.014107538
      ## 2 1 darcy 0.008814258
      ## 3 1 miss 0.008706741
      ## 4 1 bennet 0.006947431
      ## 5 1 jane 0.006497512

       

      可视化
      ggplot( aes(term, beta, fill = factor(topic))) +
      geom_bar(alpha = 0.8, stat

       

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言开发

      • 这些主题与四本书非常明显相关

      • “nemo”,“sea”和“nautilus”属于海底两万里

      • “jane”,“darcy”和“elizabeth”属于傲慢与偏见

      另请注意,LDA()不会为每个主题分配任何标签。它们只是主题1,2,3和4. 我们可以推断这些与每本书有关,但它仅仅是我们的推论。

      按文档分类

      每一章都是本分析中的“文件”。因此,我们可能想知道哪些主题与每个文档相关联。我们可以把这些章节放回正确的书中吗?

      chapters_lda_gamma
      ## # A tibble: 772 × 3
      ## document topic gamma
      ## <chr> <int> <dbl>
      ## 1 Great Expectations_57 1 1.351886e-05
      ## 2 Great Expectations_7 1 1.470726e-05
      ## 3 Great Expectations_17 1 2.117127e-05
      ## 4 Great Expectations_27 1 1.919746e-05
      ## 5 Great Expectations_38 1 3.544403e-01
      ## 6 Great Expectations_2 1 1.723723e-05
      ## 7 Great Expectations_23 1 5.507241e-01
      ## 8 Great Expectations_15 1 1.682503e-02
      ## 9 Great Expectations_18 1 1.272044e-05
      ## 10 The War of the Worlds_16 1 1.084337e-05
      ## # ... with 762 more rows

       

      每行每个主题一个文档。现在我们已经有了这些文档分类,我们可以看到我们的无监督学习在区分四本书方面做得如何。

      首先,我们将文档名称重新分为标题和章节:

      chapters_lda_gamma <- chapters_lda_gamma %>%
      separate(document, c("title", "chapter"), sep = "_", convert = TRUE)
      chapters_lda_gamma
      ## # A tibble: 772 × 4
      ## title chapter topic gamma
      ## * <chr> <int> <int> <dbl>
      ## 1 Great Expectations 57 1 1.351886e-05
      ## 2 Great Expectations 7 1 1.470726e-05
      ## 3 Great Expectations 17 1 2.117127e-05
      ## 4 Great Expectations 27 1 1.919746e-05
      ## 5 Great Expectations 38 1 3.544403e-01
      ## 6 Great Expectations 2 1 1.723723e-05
      ## 7 Great Expectations 23 1 5.507241e-01
      ## 8 Great Expectations 15 1 1.682503e-02
      ## 9 Great Expectations 18 1 1.272044e-05
      ## 10 The War of the Worlds 16 1 1.084337e-05
      ## # ... with 762 more rows

      然后我们检查每个章节的正确部分:

      ggplot(chapters_lda_gamma, aes(gamma, fill = factor(topic))) +
      geom_histogram() +
      facet_wrap(~ title, nrow = 2)
      ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

       

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言开发_02

      我们注意到,几乎所有来自“ 傲慢与偏见”,“世界大战 ”和“ 海底两万里 ”的章节都被确定为一个章节。

      chapter_classifications <- chapters_lda_gamma %>%
      group_by(title, chapter) %>%
      top_n(1, gamma) %>%
      ungroup() %>%
      arrange(gamma)
      chapter_classifications
      ## # A tibble: 193 × 4
      ## title chapter topic gamma
      ## <chr> <int> <int> <dbl>
      ## 1 Great Expectations 54 3 0.4803234
      ## 2 Great Expectations 22 4 0.5356506
      ## 3 Great Expectations 31 4 0.5464851
      ## 4 Great Expectations 23 1 0.5507241
      ## 5 Great Expectations 33 4 0.5700737
      ## 6 Great Expectations 47 4 0.5802089
      ## 7 Great Expectations 56 4 0.5984806
      ## 8 Great Expectations 38 4 0.6455341
      ## 9 Great Expectations 11 4 0.6689600
      ## 10 Great Expectations 44 4 0.6777974
      ## # ... with 183 more rows

       

      主题建模期望最大化算法中的一个重要步骤是将每个文档中的每个单词分配给一个主题。文档中的单词越多分配给该主题,通常,权重(gamma)将在该文档主题分类上。

       

      具有未知主题结构的LDA

      通常在使用LDA时,您实际上并不知道文档的基础主题结构。通常,这就是您首先使用LDA分析文本的原因。

      美联社文章

      数据是1992年发布的文章样本的文档术语矩阵。让我们将它们加载到R中并转换为整齐格式。

      ## 1 1 adding 1
      
      ## 2 1 adult 2
      
      ## 3 1 ago 1
      
      ## 4 1 alcohol 1
      
      ## 5 1 allegedly 1
      
      ## 6 1 allen 1
      
      ## 7 1 apparently 2
      
      ## 8 1 appeared 1
      
      ## 9 1 arrested 1
      
      ## 10 1 assault 1
      
      ## # ... with 302,021 more rows

      为什么要先整理一下?因为原始的dtm包含停用词 - 我们想在建模数据之前删除它们。然后将数据转换回文档矩阵。

      ## Sparsity : 99%
      
      ## Maximal term length: 18
      
      ## Weighting : term frequency (tf)

      每个主题的顶级词是什么样的?
       

      group_by(topic) %>%
      
      top_n(5, beta) %>%
      
      ungroup() %>%
      
      arrange(topic, -beta)
      
      top_terms
      
      ## # A tibble: 20 × 3
      
      ## topic term beta
      
      ## <int> <chr> <dbl>
      
      ## 1 1 soviet 0.009502197
      
      ## 2 1 government 0.009198486
      
      ## 3 1 president 0.007046753
      
      ## 4 1 united 0.006507324
      
      ## 5 1 people 0.005402784
      
      ## 6 2 people 0.007454587
      
      ## 7 2 police 0.006433472
      
      ## 8 2 city 0.003996852
      
      ## 9 2 time 0.003369658
      
      ## 10 2 school 0.003058213
      
      ## 11 3 court 0.006850723
      
      ## 12 3 bush 0.006510244
      
      ## 13 3 president 0.005777216
      
      ## 14 3 federal 0.005512805
      
      ## 15 3 house 0.004657550
      
      ## 16 4 percent 0.023766679
      
      ## 17 4 million 0.012489935
      
      ## 18 4 billion 0.009864418
      
      ## 19 4 market 0.008402463
      
      ## 20 4 prices 0.006693626
      
      top_terms %>%
      
      ) +
      
      coord_flip()

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言教程_03

      这四个主题通常用于描述:

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

      如果我们设置k=12

      我们的结果如何变化?

      group_by(topic) %>%
      
      top_n(5, beta) %>%
      
      ungroup() %>%
      
      arrange(topic, -beta)
      
      top_terms
      
      ## # A tibble: 60 × 3
      
      ## topic term beta
      
      ## <int> <chr> <dbl>
      
      ## 1 1 military 0.011691176
      
      ## 2 1 united 0.011598436
      
      ## 3 1 iraq 0.010618221
      
      ## 4 1 president 0.009498227
      
      ## 5 1 american 0.008253379
      
      ## 6 2 dukakis 0.009819260
      
      ## 7 2 bush 0.007300830
      
      ## 8 2 campaign 0.006366915
      
      ## 9 2 people 0.006098596
      
      ## 10 2 school 0.005208529
      
      ## # ... with 50 more rows

       

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言开发_05

       嗯,这些主题似乎更具体,但不易理解。

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

      等。

      LDA的某些方面是由直觉思维驱动的。但是我们可以提供辅助方法。

      困惑度是概率模型预测样本的程度的统计量度。你估计LDA模型。然后给出由主题表示的理论单词分配,将其与实际主题或文档中单词的分配进行比较。

      perplexity为给定模型计算该值的函数。

      perplexity(ap_lda)
      
      ## [1] 2301.814

      但是,统计数据本身有点无意义。这种统计数据的好处在于比较不同模型的不同k的困惑度。具有最低困惑度的模型通常被认为是“最佳”。

      让我们估算美联社数据集上的一系列LDA模型。

      n_topics <- c(2, 4, 10, 20, 50, 100)
      
      ap_lda_compare <- n_topics %>%
      
      map(LDA, x = ap_dtm, control = list(seed = 1109))
      
      geom_point() +
      
      y = "Perplexity")

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言开发_07

      看起来100主题模型具有最低的困惑分数。这会产生什么样的主题?让我们看一下模型产生的前12个主题:

      ap_lda_td <- tidy(ap_lda_compare[[6]])
      top_terms <- ap_l
      ungroup() %>%
      arrange(topic, -beta)
      top_terms
      ## # A tibble: 502 × 3
      
      ## topic term beta
      
      ## <int> <chr> <dbl>
      
      ## 1 1 party 0.020029039
      
      ## 2 1 communist 0.013810107
      
      ## 3 1 government 0.013221069
      
      ## 4 1 news 0.013036980
      
      ## 5 1 soviet 0.011512086
      
      
      ggplot(aes(term, beta, fill = factor(topic))) +
      
      geom_bar(alpha = 0.8, stat = "identity", show.legend = FALSE) +
      
      facet_wrap(~ topic, scales = "free", ncol = 3) +
      
      coord_flip()

      R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)_R语言开发_08

      我们现在正在获得更具体的主题。问题是我们如何呈现这些结果并以信息方式使用它们。

      同样,这也是您作为研究人员时直觉和领域知识非常重要的地方。您可以使用困惑作为决策过程中的一个数据点,但很多时候它只是简单地查看主题本身以及与每个主题相关联的最高概率词来确定结构是否有意义。如果您有一个已知的主题结构,您可以将其与之比较(例如上面的书籍示例),这也很有用。


      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/u_14293657/2789113,作者:拓端tecdat,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:Byte Buddy 教程(1.1)-编写一个安全的库

      下一篇:找出列表中的偶数位元素

      相关文章

      2025-04-01 09:21:49

      【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

      【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

      2025-04-01 09:21:49
      R语言开发 , R语言教程
      2025-04-01 09:21:49

      【大数据部落】r语言多均线股票价格量化策略回测

      移动平均线是技术分析中最常用的,作为一种简单有效的数学模型而被广泛使用。均线使用的方式的差异在于均线的计算方式与价格使用方式。不同的均线计算方式会产生不同的结果,不同的价格使用也会有不同的效果。

      2025-04-01 09:21:49
      R语言开发 , R语言教程
      2025-03-26 09:31:37

      R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

      从海量数据中发现潜在标志指标, 需要借助多变量模式识别方法. 无监督的模式识别方法包括主成分分析(PCA、聚类分析(HCE)等,根据模式识别模型抽提出对分类有重要贡献的指标后, 如果还需要进一步验证这些指标的差异性,那么可以在r语言中使用PLSDA模型进行分析。

      2025-03-26 09:31:37
      R语言教程
      2025-03-26 09:31:37

      R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

      通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等人(2016),Laurinec和Lucká( 2016))。

      2025-03-26 09:31:37
      R语言开发 , R语言教程
      2025-03-26 09:31:37

      R语言区间数据回归分析

      回归分析是一种十分常见的数据分析方法,通过观测数据确定变量间的相互关系.传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的.

      2025-03-26 09:31:37
      R语言开发 , R语言教程
      2025-03-26 09:31:37

      R语言分段回归数据分析案例报告

      我们在这里讨论所谓的“分段线性回归模型”,因为它们利用包含虚拟变量的交互项。

      2025-03-26 09:31:37
      R语言开发 , R语言教程
      2024-09-25 10:15:32

      R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究|附代码数据

      R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究|附代码数据

      2024-09-25 10:15:32
      R语言开发 , 编程开发
      2024-09-25 10:14:09

      R语言实现偏最小二乘回归法 partial least squares (PLS)回归

      偏最小二乘回归是一种回归形式 。 当使用pls时,新 的线性组合有助于解释模型中的自变量和因变量。

      2024-09-25 10:14:09
      R语言开发
      2024-08-07 09:46:39

      R语言阈值模型代码示例

      阈值模型用于统计的几个不同区域,而不仅仅是时间序列。一般的想法是,当变量的值超过某个阈值时,过程可能表现不同。也就是说,当值大于阈值时,可以应用不同的模型,而不是当它们低于阈值时。

      2024-08-07 09:46:39
      R语言开发 , 编程开发
      2023-07-20 06:04:00

      R语言CRAN软件包Meta分析

      我一直在寻找各种方法来查找有关R包的信息,但我最近才了解CRAN_package_db()了基本tools包中的函数。如果一位同事没有向我指出,我确信我永远不会自己找到它。当被调用时,这个函数发送到由环境变量指定的CRAN镜像,R_CRAN

      2023-07-20 06:04:00
      编程开发 , R语言开发
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      32777

      阅读量

      4799853

      查看更多

      最新文章

      【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

      2025-04-01 09:21:49

      【大数据部落】r语言多均线股票价格量化策略回测

      2025-04-01 09:21:49

      R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

      2025-03-26 09:31:37

      R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

      2025-03-26 09:31:37

      R语言区间数据回归分析

      2025-03-26 09:31:37

      R语言分段回归数据分析案例报告

      2025-03-26 09:31:37

      查看更多

      热门文章

      R语言中实现层次聚类模型

      2023-02-07 10:34:04

      R语言k折交叉验证

      2023-02-07 10:34:04

      R语言实现偏最小二乘回归法 partial least squares (PLS)回归

      2024-09-25 10:14:09

      R语言使用ARIMA模型预测股票收益时间序列

      2023-02-10 10:10:49

      R语言中的prophet预测时间序列数据模型

      2023-02-07 10:34:04

      R语言风险价值VaR(Value at Risk)和损失期望值ES(Expected shortfall)的估计

      2023-02-07 10:34:04

      查看更多

      热门标签

      java Java python 编程开发 开发语言 代码 算法 线程 html Python 数组 C++ javascript c++ 元素
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      R语言Poisson回归的拟合优度检验

      R语言调整随机对照试验中的基线协变量

      【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

      R语言CRAN软件包Meta分析

      R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

      R语言实现偏最小二乘回归法 partial least squares (PLS)回归

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 权益商城
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 权益商城
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号