数据分析

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据

原文链接:http://tecdat.cn/?p=10278 最近我们被客户要求撰写关于生存分析的研究报告,包括一些图形和统计输出。 生存分析(也称为工程中的可靠性分析)的目标是在协变量和事件时间之间建立联系 生存分析的名称源于临床研究,其中预测死亡时间,即生存,通常是主要目标。 生存分析是一种回归 ......
数据 肺癌 患者 原理 案例

分布滞后线性和非线性模型(DLNM)分析空气污染(臭氧)、温度对死亡率时间序列数据的影响|附代码数据

全文下载链接 http://tecdat.cn/?p=23947 最近我们被客户要求撰写关于分布滞后线性和非线性模型的研究报告,包括一些图形和统计输出。 分布滞后非线性模型(DLNM)表示一个建模框架,可以灵活地描述在时间序列数据中显示潜在非线性和滞后影响的关联。该方法论基于交叉基的定义,交叉基是由 ......

第十二章——电商产品评论数据情感分析

代码1——评论去重 # 代码12-1 评论去重的代码 import pandas as pd import re import jieba.posseg as psg import numpy as np # 去重,去除完全重复的数据 reviews = pd.read_csv("D:/Jupyte ......
情感 数据 产品

jmeterGUI页面数据分析

转载:http://www.cnblogs.com/leeboke/p/5238269.html 参考资料:https://girliemangalo.wordpress.com/2009/10/29/jmeter-run-scripts-from-the-console/ 结果分析参见:http: ......
数据分析 jmeterGUI 页面 数据

R语言单位根、协整关系Granger因果检验、RESET分析汇率在岸和离岸数据时间序列

全文链接:http://tecdat.cn/?p=32188 原文出处:拓端数据部落公众号 单位根的随机性趋势与协整关系对实证分析中时间序列的影响是不容小觑的。检验的目的在于更好的分辨数据特性、甄选模型,以达到或能预测或能证实因果关系或否定以上两者的结果。 单位根检验 基本思路 在进行时间序列分析时 ......
时间序列 因果 汇率 序列 Granger

缓存与数据库双写一致性几种策略分析

本文将对几种缓存与数据库保证数据一致性的使用方式进行分析。为保证高并发性能,以下分析场景不考虑执行的原子性及加锁等强一致性要求的场景,仅追求最终一致性。 ......
一致性 缓存 策略 数据库 数据

ConcurrentHashMap源码&底层数据结构分析

ConcurrentHashMap:线程安全的HashMap 1.存储结构 ConcurrnetHashMap 由很多个 Segment 组合,而每一个 Segment 是一个类似于 HashMap 的结构,所以每一个 HashMap 的内部可以进行扩容。但是 Segment 的个数一旦初始化就不能 ......

COMP2420 数据分析与安全

COMP2420/COMP6420 - Introduction to Data Management, Analysis and Security Lab 08 - Introduction to SQL Learning Outcomes L01: Demonstrate a conceptua ......
数据分析 数据 COMP 2420

【PostageSQL】关于表的元数据信息比如行数、表空间大小、表索引访问次数、最近分析时间等信息收集

1 前言 最近看阿里云的RDS数据库的数据分析,发现人家统计信息很快,于是很好奇人家怎么收集的,其实就是调的PGSQL的语句来收集的,我们这节就来看看这些数据怎么来的哈。如下图RDS的收集信息: 2 数据收集 函数表 函数名返回类型描述 pg_size_pretty(bigint|numeric) ......
信息 PostageSQL 索引 次数 大小

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合|附代码数据

全文链接:http://tecdat.cn/?p=30426 最近我们被客户要求撰写关于GARCH-EVT-Copula的研究报告,包括一些图形和统计输出。 对VaR计算方法的改进,以更好的度量开放式基金的风险。本项目把基金所持股票看成是一个投资组合,引入Copula来描述多只股票间的非线性相关性, ......

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

全文下载链接:http://tecdat.cn/?p=24535 最近我们被客户要求撰写关于COPULA的研究报告,包括一些图形和统计输出。 最近,copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数,并提供了一种创建分布以对相关多元数据建模的方法 使用 copula ......
数据 数据分析 收益 模型 代码

扎实打牢数据结构算法根基,从此不怕算法面试系列之007 week01 02-07 简单的复杂度分析

#1、复杂度分析 复杂度分析本身是非常理论化的一个内容,在计算机科学中,有一个专门的学科叫做——计算复杂性理论。 很多童鞋看过《算法导论》,这本书的内容很多很强调算法导论。 但是实际上,对于普通程序员来说,不需要过度强调理论化的内容。因为工作中更多面对的是实际的 软件工程,工程化的工作不需要面对太多 ......
算法 复杂度 数据结构 根基 结构

电商产品评论数据情感分析

# 代码12-1 评论去重的代码 import pandas as pd import re import jieba.posseg as psg import numpy as np # 去重,去除完全重复的数据 reviews = pd.read_csv("../../data/0404/rev ......
情感 数据 产品

数据分析概述

前言 数据分析=数据获取+探索分析与可视化 数据建模与挖掘=数据预处理+分析建模+模型评估 python: 简洁 开发效率高 运算速度慢 胶水特性 Numpy 执行基本的数组操作,如加、减、切片、展平、索引和重塑数组 将数组用于高级过程,包括堆叠、拆分和广播 使用线性代数和日期时间运算 使用 Num ......
数据分析 数据

R数据分析:生存数据的预测模型建立方法与评价

之前写了生存分析列线图的做法,列线图作为一个预测模型可视化工具,我们使用它的过程其实就是一个给新数据做预测的过程,其内在本身的模型就是我们基于现有数据训练的一个预测模型,今天也算是接着上一篇文章继续写生存分析的预测模型的效果评价。 生存数据预测模型和我们之前写的连续变量结局和分类结局的预测模型不同的 ......
数据 数据分析 模型 方法

农业大数据|提取遥感影像指定经纬度的WDRVI并与LAI回归分析

实验目的 ​ 熟练遥感数据的处理流程;通过探讨地面测量的叶面积指数与遥感观测的植被指数关系,理解地面测量数据与遥感观测数据的联系。 实验内容 预处理遥感数据,得到WDRVI指数影像,并提取地面观测LAI对应时间,卫星观测的试验田所在位置的WDRVI均值。 对比LAI与WDRVI指数,构建模型,绘制相 ......
经纬度 遥感 经纬 影像 农业

支持多模型数据分析探索的存算分离湖仓一体架构解析(下)

当企业需要建设独立的数据仓库系统来支撑BI和分析业务时,有了“数据湖+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。随着大数据技术的发展,通过在数据湖层增加分布式事务、元数据管理、极致的SQL性能、SQL和数据API接口能力,企业可以基于统一的架构来同时支持数据湖和数 ......
数据分析 架构 模型 一体 数据

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据|附代码数据

全文链接:http://tecdat.cn/?p=29841 最近我们被客户要求撰写关于非参数估计的研究报告。在应用的设置中,我们经常遇到分类数据类型和连续数据类型的组合 熟悉传统非参数核平滑方法的人会明白,这些方法假定基础数据本质上是连续的,但事实往往并非如此。一种同时处理连续数据和分类数据存在的 ......
间歇泉 参数 数据 间歇 位数

支持多模型数据分析探索的存算分离湖仓一体架构解析(上)

当企业需要建设独立的数据仓库系统来支撑BI和业务分析业务时,有了“数据湖+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。随着大数据技术的发展,通过在数据湖层增加分布式事务、元数据管理、极致的SQL性能、SQL和数据API接口能力,企业可以基于统一的架构来同时支持数据湖 ......
数据分析 架构 模型 一体 数据

数据类型分析

数据类型处理 #读取数据源 zz = reda_csv(r'XXX.csv') #获取某几行的数据 默认为5行 print(zz.head()) #数据类型查看 print(order.info()) #查看是否存在缺失值 print(zz.isna()) #时间戳转换为日期 zz['time'] ......
类型 数据

分析型数据库:分布式分析型数据库

分析型数据库的另外一个发展方向就是以分布式技术来代替MPP的并行计算,一方面分布式技术比MPP有更好的可扩展性,对底层的异构软硬件支持度更好,可以解决MPP数据库的几个关键架构问题。本文介绍分布式分析型数据库。 — 背景介绍— 目前在分布式分析型数据库领域,学术界今年的研究不多,主要是工业界在推动相 ......
数据库 数据 分布式

高通量测序的数据处理与分析指北(二)-宏基因组篇

宏基因组篇 前言 之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河流等自然环境,也可以是人体内肠道,口腔等 ......
基因组 数据处理 基因 数据

大数据技术的新应用:数据挖掘与分析的实现与商业化

互联网的普及和信息化的加速发展,数据量呈现爆炸式增长,如何从海量数据中挖掘出有价值的信息成为了一个重要的问题。大数据技术的出现,为数据挖掘和分析提供了更加高效、精准的解决方案。 一、大数据技术在数据挖掘中的应用 1.数据采集 数据挖掘的第一步是数据采集,大数据技术可以帮助企业从多个渠道采集数据,包括 ......
数据 数据挖掘 商业 技术

数据分析与挖掘实战 电子商务网站行为分析及服务推荐

# -*- coding: utf-8 -*- # 代码11-1 import os import pandas as pd # # 修改工作路径到指定文件夹 # os.chdir("./") # # 第一种连接方式 from sqlalchemy import create_engine engi ......

Weka数据挖掘Apriori关联规则算法分析用户网购数据

全文链接:http://tecdat.cn/?p=32150 原文出处:拓端数据部落公众号 随着大数据时代的来临,如何从海量的存储数据中发现有价值的信息或知识帮助用户更好决策是一项非常艰巨的任务。数据挖掘正是为了满足此种需求而迅速发展起来的,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 ......
数据 数据挖掘 算法 规则 Apriori

分析型数据库:MPP 数据库的概念、技术架构与未来发展方向

随着企业数据量的增多,为了配合企业的业务分析、商业智能等应用场景,从而驱动数据化的商业决策,分析型数据库诞生了。由于数据分析一般涉及的数据量大,计算复杂,分析型数据库一般都是采用大规模并行计算或者分布式计算来提升它的数据处理能力。本篇文章将详细介绍 MPP 数据库的概念,解决的问题、典型的厂商以及它 ......
数据库 数据 发展方向 架构 概念

如何在移动端数据可视化大屏实现分析?

本文由葡萄城技术团队于博客园原创并首发转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 项目想做数据可视化,想同时在PC端、手机端查看数据怎么办?业务主要关心的数据包括:销售数据、业绩达成、同比、环比,各产品销售情况及潜客商机、未来收入预测等数据,最好附加人 ......
大屏 数据

水流数据分析

import pandas as pd import matplotlib.pyplot as plt inputfile="D:\数据分析\original_data.xls" data=pd.read_excel(inputfile) lv_non=pd.value_counts(data['有 ......
数据分析 水流 数据

NumPy 和 Pandas 数据分析实用指南:1~6 全

原文:Hands-On Data Analysis with NumPy and pandas 协议:CC BY-NC-SA 4.0 译者:飞龙 一、配置 Python 数据分析环境 在本章中,我们将介绍以下主题: 安装 Anaconda 探索 Jupyter 笔记本 探索 Jupyter 的替代品 ......
数据分析 指南 数据 Pandas NumPy

电商流量分析怎么做?试试这款数据工具 DataLeap!

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作为成熟的电商模式,货架场景可以让商家以更低的门槛入驻,让消费者完成更高销量的购买和复购。 在这一场景下,运营人员每天都需要根据数据来做决策,精准识别每一份流量的效果是最重要的日常运营洞察之一。而每一个流量入口的用 ......
DataLeap 流量 工具 数据