Лучшая подборка программных обеспечений с открытым исходным кодом 2023 года

Лучшее программное обеспечение с открытым исходным кодом 2023 года

Содержание:

Apache Hudi
Apache Iceberg
Apache Superset
Bun
Claude 2
CockroachDB
CPython
DakDB
HTML и Hyperscript
Istio
Kata Containers
LangChain
Language Model Evaluation Harness
Llama 2
Ollama
Polars
PostgreSQL
QLoRA
RAPIDS

Если вам нужно решить критическую проблему в области программного обеспечения, вы можете быть уверены, что для ее решения появится проект с открытым исходным кодом, так что давайте посмотрим на лидеров 2023 года.

Apache Hudi.
При создании открытых озер данных и домов озер данных многие отрасли требуют более развитых и изменчивых платформ. Например, рекламные платформы для издателей, рекламодателей и медиабайеров. Быстрого анализа недостаточно - Apache Hudi не только обеспечивает быстрое форматирование данных, таблиц и SQL, но и позволяет использовать их для анализа в режиме реального времени с низкой задержкой. Apache Spark, Apache Flink и интегрированы с такими инструментами, как StarRocks (см. ниже) и Amazon Athena. Одним словом, если вам нужен анализ озера данных в реальном времени, Hudi - отличный выбор.

Apache Iceberg.
Кого волнует, что он "хорошо масштабируется", если на получение результатов уходит целая вечность, HDFS и Hive были довольно медленными, Apache Iceberg - отличный выбор, причем не только для Hive, но и для Apache Spark, Apache Flink, ClickHouse,< a i=3>Dremio, Iceberg предоставляет высокопроизводительный формат таблиц для всех этих систем, обеспечивая при этом полную эволюцию схемы, сжатие данных и откат версий. Iceberg является ключевым компонентом многих современных важных компонентов открытых озер данных.

Apache Superset.
На протяжении многих лет Apache Superset был монстром визуализации данных. Для тех, кто хочет развернуть масштабную аналитику самообслуживания, ориентированную на клиентов и пользователей, Superset - практически единственный выбор Superset обеспечивает визуализацию практически для любого аналитического сценария, от круговых диаграмм до сложных геопространственных карт Superset доступен для большинства баз данных SQL и предоставляет дизайнер с возможностью перетаскивания и среду разработки SQL. Если вам нужна визуализация данных, в первую очередь обратите внимание на Superset.

Bun.
Как только вы подумали, что JavaScript превращается в предсказуемую рутину, появился Bun<а я=4>. За его легкомысленным названием скрывается серьезная цель. Он объединяет все необходимое для серверного JS (среда выполнения, сборщик пакетов, менеджер пакетов) в одном инструменте - полная замена Node.js и NPM, но радикально быстрее. Благодаря этому простому предложению Boon, похоже, стал самым разрушительным инструментом JavaScript с тех пор, как Node сломал яблочную телегу.

Своей скоростью Boon отчасти обязан Zig (см. ниже), но все остальное - приверженности основателя Джареда Самнера к продуктивности. Разницу можно сразу почувствовать в командной строке. И дело не только в производительности, но и в том, что все инструменты собраны в одном интегрированном пакете, что делает Bun привлекательной альтернативой Node и Deno.

CockroachDB.
Распределенная база данных SQL, обеспечивающая высококонсистентные транзакции ACID, CockroachDB решает ключевую проблему масштабируемости для высокопроизводительных приложений с большим количеством транзакций, обеспечивая горизонтально масштабируемое чтение и запись данных. CockroachDB также поддерживает мультирегиональное и мультиоблачное развертывание для снижения задержек и удовлетворения требований к данным. Примеры развертывания включают платформу данных Netflix с более чем 100 производственными кластерами CockroachDB, поддерживающими мультимедийные приложения и управление устройствами. Среди ключевых клиентов также Hard Rock Sportsbook, JPMorgan Chase, Santander и DoorDash.

CPython.
Машинное обучение, наука о данных, автоматизация задач, веб-разработка ... существует бесчисленное множество причин любить язык программирования Python. К сожалению, производительность во время выполнения не входит в их число, но ситуация меняется. В двух последних релизах, Python 3.11 и Python 3.12, основная команда разработчиков Python внесла множество инновационных обновлений в CPython, эталонную реализацию интерпретатора Python. В результате среда выполнения Python стала быстрее для всех, а не только для тех, кто предпочитает новые библиотеки и расширенный синтаксис. А в планах по устранению глобальной блокировки интерпретатора - давнего препятствия для настоящего многопоточного параллелизма в Python - заложена основа для еще больших улучшений.

DakDB.
Базы данных OLAP должны быть огромными, ведь никто не назовет IBM Cognos, Oracle OLAP, SAP Business Warehouse или ClickHouse "легковесными". Но что делать, если вам достаточно OLAP? DuckDB - это аналитическая база данных, созданная в духе небольших, но мощных проектов, таких как SQLite - аналитическая база данных, которая работает в режиме inline, внутри процесса и без внешних зависимостей DuckDB - это аналитическая база данных, созданная в духе небольших, но мощных проектов, таких как SQL-запросы, ACID-транзакции, Она обладает всеми привычными функциями РСУБД, такими как SQL-запросы, транзакции ACID и вторичные индексы, но при этом имеет дополнительные аналитические возможности, такие как объединение и агрегирование больших наборов данных. Она также принимает распространенные форматы больших данных, такие как Parquet, и может быть запрошена напрямую.

luchshee-programmnoe-obespechenie-s-otkrytym-iskhodnym-kodom-2023-goda2.png

HTML и Hyperscript.
Вы могли подумать, что HTML никогда не изменится - HTMX расширяет знакомый и любимый вами HTML с помощью расширений, которые облегчают написание современных веб-приложений. HTMX избавляет от необходимости использовать консервы Он устраняет большую часть JavaScript. Вместо этого интуитивно понятные свойства HTML используются для выполнения таких задач, как отправка AJAX-запросов и заполнение элементов. Связанный с ним проект Hyperscript представляет синтаксис, похожий на HyperCard, для упрощения многих задач JavaScript, включая асинхронные и DOM-операции. Вместе HTMX и Hyperscript предлагают смелую альтернативу современным тенденциям в реактивных средах.

Istio.
Упрощая сетевое взаимодействие и коммуникацию контейнеризированных микросервисов, Istio представляет собой сервисную сетку, обеспечивающую маршрутизацию трафика, мониторинг, ведение журнала и наблюдение, а также повышающую безопасность за счет возможностей шифрования, аутентификации и авторизации Istio представляет собой сервисную сетку, обеспечивающую коммуникацию и ее функции безопасности от приложений и инфраструктуры, обеспечивая более безопасную и согласованную систему. Архитектура состоит из плоскости управления, развернутой в кластерах Kubernetes, и плоскости данных, которая управляет политиками связи. Istio появилась в инкубационном центре CNCF в 2023 году при поддержке Google, IBM, Red Hat, Solo.io. Он получил значительную поддержку в сообществе разработчиков облачных технологий, включая поддержку и вклад таких специалистов, как

Kata Containers.
Сочетая скорость работы контейнеров и изоляцию виртуальных машин, Kata Containers представляет собой безопасную среду выполнения контейнеров, использующую Intel Clear Containers и .NET Framework Среди других компаний, поддерживающих Kata Containers, можно назвать, Cisco, Dell, Intel, Red Hat, SUSE и Ubuntu. Последние версии поддерживают множество аппаратных архитектур, включая x86_64, AMD64, Arm, Intel, Red Hat, SUSE и Ubuntu, обеспечивая конфиденциальную абстракцию управления контейнерами и устройствами для устройств с GPU. Обеспечивает. Спонсоры инфраструктуры поддерживают различные аппаратные архитектуры, включая x86_64, AMD64, Arm, IBM p-series и IBM z-series.Google Cloud, Microsoft, AWS и Alibaba Cloud работают на базе гипервизоров. поддерживаются среды Docker и Kubernetes; Kata Containers работает на Hyper.sh runV.

LangChain.
LangChain - это модульный фреймворк, который упрощает разработку приложений на основе языковых моделей.Компоненты LangChain - это набор модульных абстракций и реализаций абстракций.Готовая цепочка LangChain - это набор компонентов, которые выполняют определенные высокоуровневые задачи. Это структурированная сборка компонентов, выполняющих конкретную задачу высокого уровня. Компоненты можно использовать для настройки существующих цепочек или создания новых. В настоящее время существует три версии LangChain: одна на Python, одна на TypeScript/JavaScript и одна на Go. На момент написания этой статьи существует около 160 интеграций, использующих LangChain.

Language Model Evaluation Harness.
Когда выходит новая крупномасштабная языковая модель (LLM), мы обычно видим несколько оценок, в которых эта модель сравнивается, например, с ChatGPT в определенном тесте. Предположительно, компания, создавшая модель, использовала lm-eval-harness для получения этих оценок. lm-eval-harness был создан EleutherAI, распределенной организацией по исследованию искусственного интеллекта, содержит более 200 тестов и легко масштабируется. Этот инструмент также используется для выявления недостатков в существующих тестах и для поддержания открытой таблицы лидеров LLM на сайте Hugging Face. Как в мультфильме xkcd, это один из маленьких столпов, на которые опирается мир.

Llama 2.
Llama 2 - это большая языковая модель нового поколения от Meta AI, обученная на 40 % большем количестве данных (2 триллиона лексем из общедоступных источников) и вдвое большей длине контекста (4096), чем Llama 1. Llama 2 - это авторегрессионная языковая модель, использующая оптимизированную архитектуру преобразователя. В настроенной версии используется контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF), чтобы соответствовать предпочтениям человека в отношении практичности и безопасности. Code Llama обучается путем тонкой настройки Llama 2 на наборах данных, специфичных для кода, и с использованием кода и естественного языка. Она может генерировать естественный язык о коде и код из языковых подсказок.

luchshee-programmnoe-obespechenie-s-otkrytym-iskhodnym-kodom-2023-goda3.png

Ollama.
Ollama - это утилита командной строки, которую можно использовать для локального запуска Llama 2, Code Llama и других моделей на macOS и Linux В настоящее время Ollama поддерживает около 20 семейств языковых моделей, каждое из которых имеет ряд " тегов" для каждого семейства моделей. Теги - это варианты моделей, обученных с использованием различных тонких настроек при различных размерах и квантифицированных на различных уровнях для обеспечения хорошей локальной производительности. Чем выше уровень квантификации, тем точнее модель, но тем медленнее она работает и требует больше памяти.

Модели, поддерживаемые Ollama, также включают несколько моделей без обнаружения. Они были созданы с помощью процедуры, разработанной Эриком Хартфордом, для обучения моделей без обычных ограждений. Например, если вы спросите Раму 2, как сделать порох, она предупредит вас, что производство взрывчатки незаконно и опасно. Задайте тот же вопрос модели Rama 2 без цензуры, и она ответит.

Polars.
Вы можете задаться вопросом, зачем нам нужна еще одна библиотека обработки данных, если в Python уже есть почтенная Pandas Polars; Polars делает не все, что может Pandas, но то, что может, она делает быстро, и разработчики PySpark, находят API Polars более простым в использовании, чем экзотические операции Pandas. Если вы имеете дело с большими объемами данных, Polars поможет вам обрабатывать их быстрее.

PostgreSQL.
PostgreSQL разрабатывается уже более 35 лет и насчитывает более 700 разработчиков. Его доля рынка среди систем управления реляционными базами данных составляет около 16,4 %, а недавний опрос, показавший, что 45 % из 90 000 разработчиков выбрали PostgreSQL в качестве своего первого выбора, свидетельствует о том, что динамика развития только растет. 16 повысил производительность агрегированных и отдельных запросов, увеличил параллелизм запросов, обеспечил новый мониторинг ввода-вывода и добавил более детальный контроль доступа. Также в 2023 году Amazon Aurora PostgreSQL добавила pgvector для поддержки развертывания генеративного ИИ, а Google Cloud выпустила аналогичную функцию< /span>для AlloyDB PostgreSQL.

QLoRA.
Тим Деттмерс и его команда, похоже, нацелились на то, чтобы заставить большие языковые модели работать для всего, начиная от тостеров. В прошлом году их библиотека bitsandbytes позволила им вывести большие LLM на потребительское оборудование. В этом году они обратили свое внимание на обучение, расширив и без того впечатляющие методы LoRA для работы с квантовыми моделями. Использование QLoRA означает, что модели с более чем 30 миллиардами параметров могут быть точно настроены на настольном компьютере с незначительной потерей точности по сравнению с полной настройкой на нескольких графических процессорах. Более того, в некоторых случаях QLoRA может быть более эффективной. Выводы и обучение на низких битрейтах означают, что LLM смогут использовать еще больше людей.

RAPIDS.
RAPIDS - это набор графически ускоренных библиотек для решения общих задач обработки и анализа данных. Каждая библиотека выполняет определенную задачу, например, cuDF для обработки массивов данных, cuGraph для анализа графов и cuML для машинного обучения. Другие библиотеки охватывают обработку изображений, обработку сигналов и пространственный анализ, а интеграция позволяет запускать RAPIDS в Apache Spark, SQL< /span>в средах высокопроизводительных вычислений, Slurm для масштабирования на нескольких узлах, Dask и другие рабочие нагрузки. Если ни одна из существующих библиотек не удовлетворяет всем требованиям, RAPIDS также включает RAFT, набор графически ускоренных примитивов для создания собственных решений

Комментарии

Загрузка комментариев...

Статьи

Лучшее программное обеспечение с открытым исходным кодом 2023 года

Желаете начать проект?