音频 文字

PHP批量生成带底部编号二维码(二维码生成+文字生成图片+图片拼接合并)

phpqrcode 生成 二维码 --> 编号字符串生成图片 > 二维码与编号图片拼接 >压缩 下载 //生成二维码图片 function makeCodeImg($url, $product_sn = '2023**82024') { $path = 'upload/product_qr_code ......
图片 底部 文字 PHP

Android 音频相关

在 Android 中,音频采集常用的配置属性有以下几个: 音频源 Audio Source 属性,用于指定采集音频数据的来源。例如: MediaRecorder.AudioSource.MIC:从麦克风采集音频数据。 MediaRecorder.AudioSource.DEFAULT:使用默认的音 ......
音频 Android

OpenXML-SDK 操作Word,PPT,提取文字

今天跟大家分享一款插件,OpenXML-SDK 实现对Word,PPT的操作。 今天仅介绍如何利用这个组件,从文件中提取文字。 OpenXML-SDK有个缺陷,不支持跨平台,即只能部署在windows系统 首先、nuget上引用包 然后,上代码,从PPT中提取文字,返回一个数组,及一段段的文字。 u ......
OpenXML-SDK OpenXML 文字 Word SDK

文字阴影、文本溢出、盒子模型的缩放、盒子阴影

文字阴影、文本溢出、盒子模型的缩放、盒子阴影 文字阴影 格式:text-shadow:value none,默认文本没有阴影。 color lrshadow tbshadow blur color,阴影的颜色,可选的。不写默认是文本颜色。 lrshadow,左右阴影(水平),正数阴影在文本右侧,负数 ......
盒子 阴影 模型 文本 文字

[Python]语音识别媒体中的音频到文本

@ 准备工作 安装python3环境 申请一个可用的语音转换API,此篇以Microsoft Azure Speech为例 在Microsoft Azure 市场中搜索speech关键字找到语音服务。并创建好服务实例 在资源中找到创建的服务并查看 在此处点击显示密钥,我们要记住key值和locati ......
语音 文本 音频 媒体 Python

口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯 ......

Kakao Brain 的开源 ViT、ALIGN 和 COYO 文字-图片数据集

最近 Kakao Brain 在 Hugging Face 发布了一个全新的开源图像文本数据集 COYO,包含 7 亿对图像和文本,并训练了两个新的视觉语言模型 ViT 和 ALIGN ViT 和 ALIGN。 这是 ALIGN 模型首次公开发布供开源使用,同时 ViT 和 ALIGN 模型的发布都 ......
文字 数据 图片 Kakao Brain

OpenAI Java SDK——chatgpt-java-v1.0.4更新支持GPT-3.5-Turbo,支持语音转文字,语音翻译。

简介 chatgpt-java是一个OpenAI的Java版SDK,支持开箱即用。目前以支持官网全部Api。支持最新版本GPT-3.5-Turbo模型以及whisper-1模型。增加chat聊天对话以及语音文件转文字,语音翻译。 开源地址:https://github.com/Grt1228/cha ......
语音 chatgpt-java-v chatgpt 文字 OpenAI

网页js版音频数字信号处理:H5录音+特定频率信号的特征分析和识别提取

音频数字信号处理 Audio DSP (Digital Signal Processing) 是一个复杂又专业的话题,本文介绍的是如何从音频中实时分析和识别出特定频率信号的一种方法,对应的代码为可运行在浏览器中的html5网页版(可移植);可用于识别环境中特定频率的声音、或噪声、乐器弹奏的音调。 在 ......
信号 信号处理 频率 特征 音频

音频编辑服务UI SDK接入指导及常见问题

华为 HMS Core 音频编辑服务(Audio Editor Kit)是华为帮助全球开发者快速构建各类应用音频能力的服务,汇聚了华为在音乐、语音等相关音频领域的先进技术。音频编辑服务为开发者们提供音频基础编辑、AI配音、音源分离、空间渲染、变声、多种音效等丰富的音频处理能力,以及性能优异、简单易用 ......
常见问题 音频 常见 问题 SDK

Linux音频采集和在国产化平台中遇到的坑(一)

最近在做一个国产化平台的软件项目的开发,是基于国产芯片的银河麒麟系统。其中有一个重要模块,是采集和播放音频数据,播放不用多说了,采集的话,包括采集麦克风和采集桌面系统声音。很多人都觉得银河麒麟不就是linux么,那不直接用ALSA就好了,我原本也是这么想的,但是实际开发下来才发现,还是有各种坑需要自... ......
音频 国产 Linux 平台

Linux音频采集和在国产化平台中遇到的坑(二)

ALSA采集这条路走不通,只能尝试其他途径,这里通过PulseAudio的接口成功实现了国产化平台上采集麦克风和系统声音的功能。 ......
音频 国产 Linux 平台

音频音量调整中的ramp up & down

在日常生活中不管是打电话还是听音乐,都会遇到音量不合适而去调整音量的情况。如果音量调整软件处理不好,就会听到pop noise。产生pop noise的原因是音量直接从当前值骤变到目标值,而不是缓慢的变。如果缓慢的变就不会有pop noise了。图1显示的是音量变大时骤变和缓慢变的示意图。图2显示的 ......
音量 音频 ramp down amp

【Android 】使用MediaPlayer播放音频以及AudioManager简介

这里主要通过 MediaPlayer以及 AudioManager 来实现的对应的功能。 1.第一种,播放本地媒体文件: 你需要自己准备一个MP3格式的音频文件; 然后在资源目录(res)里面新建一个raw文件夹,将文件复制进去 像这样: 然后是使用 var mediaPlayer= MediaPl ......

巧用视觉障眼法,还原 3D 文字特效

最近群里有这样一个有意思的问题,大家在讨论,使用 CSS 3D 能否实现如下所示的效果: 这里的核心难点在于,如何利用 CSS 实现一个立体的数字?CSS 能做到吗? 不是特别好实现,但是,如果仅仅只是在一定角度内,利用视觉障眼法,我们还是可以比较完美的还原上述效果的。 利用距离、角度及光影构建不一 ......
障眼 障眼法 特效 视觉 文字

PAM8403 3.3V音频功放调试笔记

做I2S输出用了PT8211(实际上买到的丝印是GH8211), 双声道, LSB格式, 工作正常但是输出功率非常低, 喇叭声音要贴近了才能勉强听到, 所以打算做一个PT8211带功放的I2S模块. 最开始用的是PT8211 + LM386 * 2, 能正常工作就是LM386的电压要求比较高, 只能... ......
功放 音频 笔记 8403 PAM

带你读AI论文丨针对文字识别的多模态半监督方法

摘要:本文提出了一种针对文字识别的多模态半监督方法,具体来说,作者首先使用teacher-student网络进行半监督学习,然后在视觉、语义以及视觉和语义的融合特征上,都进行了一致性约束。 本文分享自华为云社区《一种针对文字识别的多模态半监督方法》,作者: Hint 。 摘要 直到最近,公开的真实场 ......
模态 文字 方法 论文
共767篇  :26/26页 首页上一页26下一页尾页