开源周刊第一期-526互联

Codon : 让 Python 拥有 C/C++ 一样的速度

为了解决python运行速度，麻省理工学院的计算机科学家出手了，他们共同研发了一种名为 Codon 的 Python 编译器，可以将 Python 代码转化为本地机器代码，而不会对运行时的性能产生影响。

"在单线程上，比 Python 的典型速度提高了 10-100 倍或更多，"Codon repo写道，"Codon 的性能通常与 C/C++ 的性能相当（有时甚至更好）。"

github地址：

https://github.com/exaloop/codon

Rspack : 一个 Rust 写的打包构建工具，功能和用法上对齐 webpack

字节跳动刚刚开源 Rspack，一个 Rust 写的打包构建工具，功能和用法上对齐 webpack.

启动速度极快: 基于 Rust 实现，构建速度极快，带给你极致的开发体验。

闪电般的 HMR: 内置增量编译机制，HMR 速度极快，完全胜任大型项目的开发

兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容，无需从头搭建生态。

github地址：

https://github.com/web-infra-dev/rspack

VSlide : 一款基于网页的数据可视化工具应运而生

VSlide，一款基于网页的数据可视化工具应运而生，旨在让普通用户便捷地创作支持交互式数据可视化图表的演示文稿。零代码制作交互式图表，点击式操作，推拽式布局，不需要任何基础,使用文档详细。

github地址：

https://github.com/shalom-lab/vslide

OpenChatKit : 前OpenAI研究员共同打造,ChatGPT开源平替

ChatGPT的开源平替来了，源代码、模型权重和训练数据集全部公开,OpenChatKit一共包含200亿参数，在EleutherAI的GPT-NeoX-20B（GPT-3开源替代品）上进行了微调，还可以连接其它API或数据源进行检索等等。

GitHub刚刚上线，就已经获得了800+标星。

github地址：

https://github.com/togethercomputer/OpenChatKit

ChatWeb : 可以爬取任意网页并提取正文，生成概要

基本类似于现有的chatPDF，自动化客服AI等项目的原理。

1. 爬取网页
1. 提取正文
1. 对于每一段落，使用gpt3.5的embeddingAPI生成向量
1. 每一段落的向量和全文向量做计算，生成概要
1. 将向量和文本对应关系存入向量数据库
1. 对于用户输入，生成向量
1. 使用向量数据库进行最近邻搜索，返回最相似的文本列表
1. 使用gpt3.5的chatAPI，设计prompt，使其基于最相似的文本列表进行回答

就是先把大量文本中提取相关内容，再进行回答，最终可以达到类似突破token限制的效果

github地址：

https://github.com/SkywalkerDarren/chatWeb

DrissionPage : 一个基于 python 的网页自动化工具,既能控制浏览器,也能收发数据包

基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少.

github地址：

https://github.com/g1879/DrissionPage

DataX ：阿里开源一款数据同步工具 DataX，稳定又高效，好用到爆！

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能