开源周刊第一期

发布时间 2023-03-22 21:10:59作者: yooubei

Codon : 让 Python 拥有 C/C++ 一样的速度

为了解决python运行速度,麻省理工学院的计算机科学家出手了,他们共同研发了一种名为 Codon 的 Python 编译器,可以将 Python 代码转化为本地机器代码,而不会对运行时的性能产生影响。

"在单线程上,比 Python 的典型速度提高了 10-100 倍或更多,"Codon repo写道,"Codon 的性能通常与 C/C++ 的性能相当(有时甚至更好)。"

github地址:

https://github.com/exaloop/codon

图片

图片

Rspack : 一个 Rust 写的打包构建工具,功能和用法上对齐 webpack

字节跳动刚刚开源 Rspack,一个 Rust 写的打包构建工具,功能和用法上对齐 webpack.

启动速度极快: 基于 Rust 实现,构建速度极快,带给你极致的开发体验。

闪电般的 HMR: 内置增量编译机制,HMR 速度极快,完全胜任大型项目的开发

兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容,无需从头搭建生态。

github地址:

https://github.com/web-infra-dev/rspack

图片

图片

VSlide : 一款基于网页的数据可视化工具应运而生

VSlide,一款基于网页的数据可视化工具应运而生,旨在让普通用户便捷地创作支持交互式数据可视化图表的演示文稿。零代码制作交互式图表,点击式操作,推拽式布局,不需要任何基础,使用文档详细。

github地址:

https://github.com/shalom-lab/vslide

图片

图片

OpenChatKit : 前OpenAI研究员共同打造,ChatGPT开源平替

ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开,OpenChatKit一共包含200亿参数,在EleutherAI的GPT-NeoX-20B(GPT-3开源替代品)上进行了微调,还可以连接其它API或数据源进行检索等等。

GitHub刚刚上线,就已经获得了800+标星。

github地址:

https://github.com/togethercomputer/OpenChatKit

图片

图片

ChatWeb : 可以爬取任意网页并提取正文,生成概要

基本类似于现有的chatPDF,自动化客服AI等项目的原理。

    1. 爬取网页
    1. 提取正文
    1. 对于每一段落,使用gpt3.5的embeddingAPI生成向量
    1. 每一段落的向量和全文向量做计算,生成概要
    1. 将向量和文本对应关系存入向量数据库
    1. 对于用户输入,生成向量
    1. 使用向量数据库进行最近邻搜索,返回最相似的文本列表
    1. 使用gpt3.5的chatAPI,设计prompt,使其基于最相似的文本列表进行回答

就是先把大量文本中提取相关内容,再进行回答,最终可以达到类似突破token限制的效果

github地址:

https://github.com/SkywalkerDarren/chatWeb

图片

DrissionPage : 一个基于 python 的网页自动化工具,既能控制浏览器,也能收发数据包

基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法简洁而优雅,代码量少.

github地址:

https://github.com/g1879/DrissionPage

图片

图片

DataX :阿里开源一款数据同步工具 DataX,稳定又高效,好用到爆!

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能

github地址:

https://github.com/alibaba/DataX

图片

图片

ModelScope :一个“模型即服务”(MaaS)平台,旨在汇集来自AI社区的最先进的机器学习模型,并简化在实际应用中使用AI模型的流程

ModelScope开源了数百个(当前700+)模型,涵盖自然语言处理、计算机视觉、语音、多模态、科学计算等,其中包含数百个SOTA模型。用户可以进入ModelScope网站(modelscope.cn)的模型中心零门槛在线体验,或者Notebook方式体验模型。

github地址:

https://github.com/modelscope/modelscope

图片

图片

PhySO :能直接从数据中找到隐藏的规律,而且一步到位,直接给出对应公式

PhySO背后的技术被叫做“深度符号回归”,使用循环神经网络(RNN)+强化学习实现。首先将前一个符号和上下文信息输入给RNN,预测出后一个符号的概率分布,重复此步骤,可以生成出大量表达式。同时将物理条件作为先验知识纳入学习过程中,避免AI搞出没有实际含义的公式,可以大大减少搜索空间。

再引入强化学习,让AI学会生成与原始数据拟合最好的公式。除了物理学者直呼Amazing之外,还有其他学科研究者赶来探讨,能不能把同款方法迁移到他们的领域。

github地址:

https://github.com/WassimTenachi/PhySO

图片

图片

lama:可以利用AI技术,无损擦除任意物体,可离线在线使用

LaMa是一个AI消除模型,在训练时(256x256)没有见过的更高分辨率(~2k)上,表现出惊人的泛化能力,并且即使在具有挑战性的场景下,例如周期结构的补全,也能达到优异的性能。

https://magicstudio.com/zh/magiceraser这个网站是一个利用了LAMA模型,无损擦除照片中的人物、物品的在线工具。用户只需要上传照片,标记要去除的部分,然后下载处理后的照片。这个网站免费使用,不需要注册或登录。这个网站也有一个iOS应用程序,叫做Magic Eraser Background Editor,可以提供更高分辨率的编辑和其他功能。这个网站的效果非常惊艳,可以很好地修复被擦除部分的背景。

github地址:

https://github.com/advimman/lama

图片

图片