Projekt

Allgemein

Profil

Aktionen

Planung #21966

offen

Bereinigung von chinesischen Allegro und Eacat Dubletten

Von Franziska Trempler vor 16 Tagen hinzugefügt. Vor 8 Tagen aktualisiert.

Status:
Neu
Priorität:
Normal
Zugewiesen an:
Beginn:
25.03.2025
Abgabedatum:
% erledigt:

0%

Geschätzter Aufwand:

Beschreibung

In oa1.2 und oa1.4 befinden sich Dubletten, Signaturen und Titelaufnahmen weichen dabei geringfügig ab:

--> die dubletten Datensätze müssen bestimmt werden, ein Verlierer- und ein Gewinner-Datensatz festgelegt werden und anschließend eine Umlenkung eingetragen werden

Kathrin Weckerle (IIIF) 25.03.2025 15:02 • https://wiki.k10plus.de/display/K10PLUS/Dubletten+umlenken
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • https://opus.k10plus.de/frontdoor/deliver/index/docId/568/file/K10plus_maschinelle_Deduplizierung_mit_Notizen.pdf
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • Zu beachten: S. 5
Einige Inhalte müssen beim Eintragen der Umlenkung dagegen manuell übertragen werden, vor allem • Feld 30X0/31X0: Beziehungen zu Personen und Körperschaften • Feld 3210/3211: Werktitel • Feld 3260/4212: Abweichende Titel • Feld 4030: Zusätzliche Erscheinungsorte oder Verlage • Feld 418X: Verknüpfungen zu fortlaufenden Ressourcen
Kathrin Weckerle (IIIF) 25.03.2025 15:06 • Volle Liste der Felder, die übernommen werden: https://opus.k10plus.de/frontdoor/deliver/index/docId/414/file/K10plus_Nachnutzung_Anhang_2.pdf

Martina Siebert 25.03.2025 14:59 • Ich habe jetzt einen Link zum Abzug von Maike vom letzten Mai hier abgelegt: P:\Crossasia FID\CBS_Abzug. Der Abzug ist alles, was im "Fachopac" ist (normaler WinIBW-Zugang, b > 1.97).
Unsere internen Dubletten verstecken verstecken sich in oa1.2 und oa1.4, wenn es dort derselbe Titel katalogisiert wurde, ist - denke ich?? - die Aufnahme in oa1.1 besser. Raina hat da aber sicher einen besseren Einblick. Die Abzüge von damals liegen auch dort als PICA+ und PICA-XML aber alles was keine verknüpfte O-Aufnahme hat hat eine andere PPN

@Raina Schote in einer Tabelle Beispiele dazu sammeln:
- Unterschiede in den Signaturen
- Abweichungen in den Titelaufnahmen (3000er Feldern, Sacherschließungsdaten ...?)
- aus welchem oa-Segment der Gewinner-Satz kam

WICHTIG: Felder 006Y(=2199) müssen erhalten bleiben!! 028er Felder Unterfelder $7 auch erhalten


Dateien

dubletten_oa1-2_oa1-4.txt (108 KB) dubletten_oa1-2_oa1-4.txt Franziska Trempler, 26.03.2025 14:34
dubletten_oa1-2_oa1-4_records_part_aa.txt (2,1 MB) dubletten_oa1-2_oa1-4_records_part_aa.txt part_aa enthält 1100 der 3170 Signaturen Franziska Trempler, 01.04.2025 10:52
Aktionen #1

Von Franziska Trempler vor 16 Tagen aktualisiert

Aktionen #2

Von Franziska Trempler vor 16 Tagen aktualisiert · Edited

@Martina Siebert erfragt bei Maike Tech einen Abzug mit Exemplarsätzen von oa1.1, oa1.2 und oa.1.4

@Franziska Trempler erstellt mit catmandu eine Lookup-Liste mit Signaturen (ggf. bereinigt) und lässt sie gegen die anderen Segmente laufen

Übergabe des Endergebnisses erst an Fr. Faude --> wenn nein dann VZG Support (Matthias in cc)

Aktionen #3

Von Franziska Trempler vor 15 Tagen aktualisiert · Edited

Mit dem Dump "oa1_all_Endstand_1_97 vor Migration" habe ich eine Liste von 3170 Signaturen erstellt, die sowohl in oa1.2 als auch oa1.4 vorkommen:

for part in lookup_signaturen_oa1-4_part_*; do grep -w -f "$part" signaturen_oa1-2.txt >> dubletten_oa1-2_oa1-4.txt; done

die Dateien lookup_signaturen_oa1-4_part_* enthalten jeweils 10.000 Zeilen, Aufteilung war nötig, weil sonst der Server den Prozess zwangsweise beendet

split -l 10000 lookup_signaturen_oa1-4.txt lookup_signaturen_oa1-4_part_

lookup_signaturen_oa1-4.txt erstellt in 2 Schritten mit:

grep -A 6 -E '045W.*oa1.4' oa1_all.pp > signaturen_oa1-4.txt
grep -E '209A.*' signaturen_oa1-4.txt > lookup_signaturen_oa1-4.txt

und anschließende Bereinigung in Notepad++

Aktionen #4

Von Franziska Trempler vor 14 Tagen aktualisiert · Edited

https://sru.k10plus.de/opac-de-627?operation=explain&version=1.1

catmandu convert SRU --base https://sru.k10plus.de/fachopac-asia --query "pica.sgb=873954" --recordSchema picaxml --parser picaxml to PICA --type plain > test.txt

Aktionen #5

Von Martina Siebert vor 13 Tagen aktualisiert

  • Tracker wurde von Bug zu Planung geändert
Aktionen #7

Von Franziska Trempler vor 10 Tagen aktualisiert

#!/usr/bin/bash

INPUT_FILE="recherchestapel_dubletten_oa1-2_oa1-4_part_aa"
OUTPUT_FILE="dubletten_oa1-2_oa1-4_records_part_aa"
BASE_URL="https://sru.k10plus.de/fachopac-asia"
DELAY=3 # Sekunden Verzögerung

  1. Falls die Output-Datei existiert, leeren

"$OUTPUT_FILE"

while IFS= read -r query; do
echo "Suche nach: $query"
catmandu convert SRU --base "$BASE_URL" --query "pica.sgb=$query" --recordSchema picaxml --parser picaxml to PICA --type plain >> "$OUTPUT_FILE"
echo "###" >> "$OUTPUT_FILE" # Zeile mit ### für bessere Lesbarkeit
sleep $DELAY
done < "$INPUT_FILE"

echo "Abfragen abgeschlossen. Ergebnisse in $OUTPUT_FILE gespeichert."

Aktionen #8

Von Franziska Trempler vor 10 Tagen aktualisiert

Aktionen #9

Von Franziska Trempler vor 10 Tagen aktualisiert

Aktionen #10

Von Franziska Trempler vor 8 Tagen aktualisiert

@Franziska Trempler prüfen welche Felder in unseren records vorkommen

Aktionen

Auch abrufbar als: Atom PDF