Fine-Grained Table Retrieval Through the Lens of Complex Queries
이 논문은 복잡한 자연어 쿼리를 처리하고 밀집된 데이터베이스에서 정보를 검색하기 위해 세분화된 타입 쿼리 분해와 글로벌 연결성 인식을 결합한 DCTR 메커니즘을 제안하고, 산업계 벤치마크를 통해 그 강건성을 입증합니다.
84 편의 논문
이 논문은 복잡한 자연어 쿼리를 처리하고 밀집된 데이터베이스에서 정보를 검색하기 위해 세분화된 타입 쿼리 분해와 글로벌 연결성 인식을 결합한 DCTR 메커니즘을 제안하고, 산업계 벤치마크를 통해 그 강건성을 입증합니다.
이 논문은 대규모 데이터 레이크에서 주어진 쿼리 테이블에 대해 새로운 정보를 제공하는 결합 가능한 테이블을 찾는 'Novel Table Search (NTS)' 문제를 정의하고, 이를 효율적으로 해결하기 위해 속성 기반 페널티 기법 (ANTs) 을 제안하며 실험을 통해 그 우수성을 입증합니다.
이 논문은 데이터베이스 패러다임을 유한 극한 스케치로, 개별 데이터베이스와 스키마를 집합 값 모델로 인코딩하는 범주론적 프레임워크인 '스케치 지향 데이터베이스'를 제안하며, 그래프 기반 특징을 포착하고 경로를 효율적으로 추론하며 모듈화된 확장을 가능하게 하는 '더듬기 스케치'를 도입합니다.
이 논문은 대규모 복잡한 데이터베이스에서 외래 키 누락을 탐지하기 위해 검색 공간 폭발, 모호한 추론, 국소적 예측의 불일치라는 세 가지 핵심 과제를 해결하는 최초의 완전 자동화 멀티 에이전트 프레임워크인 LLM-FK 를 제안하며, 이를 통해 기존 방법론 대비 정밀도를 크게 향상시키고 검색 공간을 획기적으로 축소하는 성과를 입증했습니다.
이 논문은 복잡한 데이터 구조와 규제 요구사항이 있는 신용협동조합 환경에서 자연어 질의를 통해 실행 가능한 인사이트를 제공할 수 있도록, 기존 스키마에서 의미론적 지식 그래프를 자동 추론하고 LLM 을 통합하여 안전한 온프레미스 검색 플랫폼인 'Tursio'를 제안합니다.
이 논문은 링크드인이 Apache Pinot 에서 개발한 쿼리 워크로드 격리, 영향 없는 리밸런싱, 유지보수 존 인식, 적응형 서버 선택 등의 메커니즘을 통해 대규모 실시간 OLAP 시스템의 내결함성과 SLA 준수를 보장하는 종합적인 복원력 프레임워크를 제시합니다.
이 논문은 이기종 데이터베이스 시스템의 각기 다른 SQL 문법과 제약 조건을 고려하여 자연어에서 실행 가능한 SQL 쿼리를 생성하는 지식 기반 프레임워크 'Dial'을 제안하고, 논리적 쿼리 계획, 계층적 지식 베이스, 실행 기반 디버깅 루프를 통해 기존 방법론 대비 번역 정확도와 기능 커버리지를 크게 향상시켰음을 보여줍니다.
이 논문은 기존 공간 인덱스의 한계를 극복하고 정밀한 그리드 셀 기반 근사화와 접두사 트리를 결합하여 대규모 공간 데이터의 쿼리 효율성을 획기적으로 개선한 GP-Tree 를 제안합니다.
이 논문은 DHT 핑거 테이블과 패시브 안정화 기법을 활용하여 메시지 복잡도를 줄이고 글로벌 조정 없이도 임의의 네트워크 분할에 견고한 일관성을 보장하는 '구조화된 속삭임 DNS(Structured Gossip DNS)'를 제안합니다.
이 논문은 관계형 데이터베이스의 불균형 문제를 해결하기 위해 이웃 메시지 조절을 위한 관계별 게이트 제어기와 관계 일관성을 유지하는 과표본화 합성기를 도입한 'Rel-MOSS'를 제안하고, 다양한 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증합니다.
이 논문은 대규모 테이블 컬렉션에서의 복잡한 관계와 정확한 답변 생성을 위해 테이블 관계 그래프, 질문 분해 및 커버리지 인식 검색, 하위 질문 기반 추론을 통합한 DMRAL 프레임워크를 제안하고, 기존 방법 대비 검색 및 답변 정확도를 크게 향상시켰음을 보여줍니다.
이 논문은 Rust 로 구현된 Samyama 를 통해 그래프, 벡터, 최적화 워크로드를 단일 엔진으로 통합하고 인-데이터베이스 최적화, 에이전트 기반 확장, 하드웨어 가속을 지원하여 상용 하드웨어에서도 고성능을 달성하는 새로운 데이터 아키텍처를 제시합니다.
이 논문은 중복 확장 제거를 위한 공통 확장 병합 및 재사용 기법과 가지치기 전략을 도입하여 기존 DFS 백트래킹 방식의 중복 계산을 줄이고 대규모 그래프에서의 서브그래프 매칭 성능을 획기적으로 개선한 새로운 알고리즘 CEMR 을 제안합니다.
이 논문은 블록체인 기반 자산 교환의 비선형 가중치 문제를 해결하기 위해 가지치기 탐색과 적응형 부호 경사법을 결합한 PRIME 알고리즘을 제안하며, 실제 이더리움 데이터에서 기존 Uniswap 라우팅보다 더 높은 실행 가격과 계산 효율성을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 기반 텍스트 분석의 실시간 응답성을 향상시키기 위해, 전체 데이터 처리를 기다리지 않고 점진적 출력을 제공하는 온라인 집계 프레임워크 OLLA 와 의미적 층화 샘플링 기법을 제안하고, 이를 통해 기존 방식 대비 1.6 배에서 38 배까지의 속도 향상을 달성했음을 보여줍니다.
이 논문은 회로 표현을 기반으로 하여 부정을 포함한 결합 쿼리 (conjunctive queries) 에 대한 직접 접근 (direct access) 의 계산적 난이도를 분석하고, 기존 긍정 쿼리의 가용성 결과를 일반화하여 음수 쿼리 (negative queries) 의 새로운 가용성 클래스를 규명합니다.
이 논문은 관계형 연산과 미적분을 확장하여 범주형 데이터베이스를 위한 두 가지 형식적 쿼리 언어 (범주형 미적분과 범주형 대수) 를 제안하고, 이들의 동등성, 최적화를 위한 변환 규칙, 그리고 표현력과 계산 복잡성을 분석합니다.
이 논문은 데이터 파티셔닝과 하이퍼큐브 원리를 결합하여 선형 조합된 정점 커버를 기반으로 한 새로운 병렬 조인 알고리즘 'K-Join'을 제안하며, 이를 통해 기존 최첨단 알고리즘보다 향상되거나 동등한 성능을 보이는 새로운 하이퍼그래프 이론적 척도인 '감소 준 정점 커버'를 도입합니다.
이 논문은 대규모 공간 데이터의 시각적 충실도와 상호작용 성능을 유지하면서 클라이언트 측 렌더링을 위한 타일 크기를 효율적으로 축소하는 새로운 데이터 관리 프레임워크인 HiFIVE 를 제안하고, 이를 위한 NP-난해한 문제를 정의하고 해결하는 두 단계 방식을 제시합니다.
이 논문은 기존 방법의 한계를 극복하기 위해 시공간 데이터의 시간과 공간 차원을 모두 압축하는 'STemDist'라는 새로운 데이터 증류 기법을 제안하여, 기존 방법 대비 훈련 속도를 최대 6 배, 메모리 효율을 최대 8 배 향상시키면서 예측 오차를 최대 12% 까지 낮추는 성과를 입증했습니다.