Skip to main content

2. Knowledge Infrastructure

Group ID: B

One-liner

Capa de proyectos dedicada a ingestar, estructurar, publicar y consultar conocimiento de manera reutilizable.

Context

Este grupo reúne los componentes que convierten chats, documentos, medios, sesiones y otros materiales en una base de conocimiento consultable, publicable y aprovechable por personas o agentes. Su propósito es evitar que el trabajo cognitivo quede atrapado en historiales o archivos sueltos y darle una forma más durable, recuperable y transformable. Sigue activo porque funciona como sustrato transversal para memoria, publicación, retrieval, resúmenes y automatización inteligente. El progreso real en este grupo se ve cuando los contratos son más claros, la ingesta más robusta y las superficies de consulta o publicación más útiles.

Projects

KB Contracts

Project ID: 13

One-liner

Contratos canónicos para gobernar cómo entra, circula y se transforma el conocimiento en tu ecosistema.

Context

Este proyecto define reglas, formatos y seams de integración para que distintos componentes de tu capa de conocimiento hablen el mismo idioma. Su motivación es evitar una proliferación de pipelines incompatibles, decisiones locales incoherentes y outputs difíciles de reutilizar. Sigue activo porque tu ecosistema creció lo suficiente como para necesitar contratos explícitos que ordenen inputs, outputs y responsabilidades. El progreso real se ve cuando más componentes respetan esos contratos y la integración entre sistemas de conocimiento requiere menos trabajo ad hoc.

GPT Chats Ingest to Bus

Project ID: 53

One-liner

Pipeline para transformar historiales de chats en eventos o registros integrables al bus de conocimiento.

Context

Este proyecto busca tomar conversaciones de ChatGPT u otras sesiones afines y llevarlas a una estructura compatible con tu ecosistema de buses y procesamiento de conocimiento. Existe para que esos chats no queden como islas cerradas, sino como materia prima reutilizable para resumen, clustering, búsqueda, publicación o memoria. Sigue activo porque gran parte de tu trabajo intelectual pasa por chats y capturas conversacionales, y perderlos como activos estructurados sería costoso. El progreso real consiste en mejorar la ingesta, preservar mejor contexto y producir registros suficientemente limpios para downstream.

KB Chat Ingest Spine

Project ID: 54

One-liner

Sandbox experimental para probar ideas tempranas de knowledge base y procesamiento cognitivo.

Context

Compact KB ingest and analysis spine for chat JSONL and related corpora. Provides config, parser, processed-file state, SQLite embedding cache, Chroma integration, CLI wrappers, and run-recorded pipelines for ingest, analysis, and GROBID-based paper processing. Current bottleneck is operational hardening of the canonical ingest path: provider rate limits, store canonicalization, and cleanup of legacy dev-script sediment.

Summarizer Service

Project ID: 27

One-liner

Servicio de transformación que convierte eventos, textos o sesiones en resúmenes estructurados reutilizables.

Context

Este proyecto define una capa de servicio para pedir, ejecutar y devolver resúmenes de manera más estable que un uso ad hoc del modelo. Existe para separar la capacidad de resumir del resto de los sistemas, con contratos claros de input y output, integración con buses o flujos de procesamiento y una superficie reutilizable para distintos casos de uso. Sigue activo porque el resumen es una primitiva transversal de tu ecosistema de conocimiento y automatización. El progreso real se ve cuando el servicio tiene mejores contratos, menos fricción de integración y produce salidas más consistentes y útiles para downstream.

Session Mining / Clustering

Project ID: 56

One-liner

Herramientas para minar sesiones y agrupar trabajo cognitivo en clusters o buckets reutilizables.

Context

Este proyecto apunta a extraer estructura de sesiones, conversaciones o logs para agruparlas en temas, frentes o buckets más manejables. Existe para reducir caos en el historial de trabajo y facilitar reentrada, análisis y gobierno de grandes volúmenes de material cognitivo. Sigue activo porque la utilidad de tu journal, tus chats y tus sesiones depende en parte de poder encontrar patrones y agrupaciones útiles sin releer todo manualmente. El progreso real consiste en obtener clusters más interpretables, mejores criterios de agrupación y salidas que ayuden a gestión o recuperación.

AI Paper Chunker (RAG System - Nov 2025)

Project ID: 61

One-liner

Sistema para fragmentar papers y prepararlos como corpus utilizable por pipelines de retrieval y RAG.

Context

Este proyecto se centra en tomar papers académicos y convertirlos en chunks bien estructurados para búsqueda, embedding, resumen o retrieval asistido. Existe para que los documentos largos entren mejor en sistemas de consulta y procesamiento, y para sostener una plataforma de trabajo más escalable sobre literatura académica. Sigue activo porque el chunking de calidad condiciona fuertemente la utilidad del retrieval downstream. El progreso real se ve cuando los chunks preservan mejor sentido, la preparación del corpus es más robusta y el sistema soporta mejor consultas o análisis posteriores.

PaperKB Spinoff Research Group Wiki Generator

Project ID: 143

One-liner

Generador de wikis o sitios estáticos para grupos de investigación a partir de su corpus de papers.

Context

Este proyecto propone tomar el conjunto acotado de papers de un grupo de investigación y convertirlo automáticamente en una wiki o pequeño sitio navegable que represente, resuma y organice ese conocimiento. Existe como posible spinoff comercial de varias piezas que ya venís trabajando en papers, chunking, retrieval y publicación estática. Sigue activo porque es una idea de producto clara, demostrable y potencialmente vendible a grupos académicos. El progreso real consiste en definir mejor el output, automatizar el pipeline y producir una demo convincente sobre un corpus real.