Planung #21966
offenBereinigung von chinesischen Allegro und Eacat Dubletten
0%
Beschreibung
In oa1.2 und oa1.4 befinden sich Dubletten, Signaturen und Titelaufnahmen weichen dabei geringfügig ab:
--> die dubletten Datensätze müssen bestimmt werden, ein Verlierer- und ein Gewinner-Datensatz festgelegt werden und anschließend eine Umlenkung eingetragen werden
Kathrin Weckerle (IIIF) 25.03.2025 15:02 • https://wiki.k10plus.de/display/K10PLUS/Dubletten+umlenken
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • https://opus.k10plus.de/frontdoor/deliver/index/docId/568/file/K10plus_maschinelle_Deduplizierung_mit_Notizen.pdf
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • Zu beachten: S. 5
Einige Inhalte müssen beim Eintragen der Umlenkung dagegen manuell übertragen werden, vor allem • Feld 30X0/31X0: Beziehungen zu Personen und Körperschaften • Feld 3210/3211: Werktitel • Feld 3260/4212: Abweichende Titel • Feld 4030: Zusätzliche Erscheinungsorte oder Verlage • Feld 418X: Verknüpfungen zu fortlaufenden Ressourcen
Kathrin Weckerle (IIIF) 25.03.2025 15:06 • Volle Liste der Felder, die übernommen werden: https://opus.k10plus.de/frontdoor/deliver/index/docId/414/file/K10plus_Nachnutzung_Anhang_2.pdf
Martina Siebert 25.03.2025 14:59 • Ich habe jetzt einen Link zum Abzug von Maike vom letzten Mai hier abgelegt: P:\Crossasia FID\CBS_Abzug. Der Abzug ist alles, was im "Fachopac" ist (normaler WinIBW-Zugang, b > 1.97).
Unsere internen Dubletten verstecken verstecken sich in oa1.2 und oa1.4, wenn es dort derselbe Titel katalogisiert wurde, ist - denke ich?? - die Aufnahme in oa1.1 besser. Raina hat da aber sicher einen besseren Einblick. Die Abzüge von damals liegen auch dort als PICA+ und PICA-XML aber alles was keine verknüpfte O-Aufnahme hat hat eine andere PPN
@Raina Schote in einer Tabelle Beispiele dazu sammeln:
- Unterschiede in den Signaturen
- Abweichungen in den Titelaufnahmen (3000er Feldern, Sacherschließungsdaten ...?)
- aus welchem oa-Segment der Gewinner-Satz kam
WICHTIG: Felder 006Y(=2199) müssen erhalten bleiben!! 028er Felder Unterfelder $7 auch erhalten
Dateien
Von Franziska Trempler vor 24 Tagen aktualisiert · Edited
@Martina Siebert erfragt bei Maike Tech einen Abzug mit Exemplarsätzen von oa1.1, oa1.2 und oa.1.4
@Franziska Trempler erstellt mit catmandu eine Lookup-Liste mit Signaturen (ggf. bereinigt) und lässt sie gegen die anderen Segmente laufen
Übergabe des Endergebnisses erst an Fr. Faude --> wenn nein dann VZG Support (Matthias in cc)
Von Franziska Trempler vor 23 Tagen aktualisiert · Edited
- Datei dubletten_oa1-2_oa1-4.txt dubletten_oa1-2_oa1-4.txt wurde hinzugefügt
Mit dem Dump "oa1_all_Endstand_1_97 vor Migration" habe ich eine Liste von 3170 Signaturen erstellt, die sowohl in oa1.2 als auch oa1.4 vorkommen:
for part in lookup_signaturen_oa1-4_part_*; do grep -w -f "$part" signaturen_oa1-2.txt >> dubletten_oa1-2_oa1-4.txt; done
die Dateien lookup_signaturen_oa1-4_part_* enthalten jeweils 10.000 Zeilen, Aufteilung war nötig, weil sonst der Server den Prozess zwangsweise beendet
split -l 10000 lookup_signaturen_oa1-4.txt lookup_signaturen_oa1-4_part_
lookup_signaturen_oa1-4.txt erstellt in 2 Schritten mit:
grep -A 6 -E '045W.*oa1.4' oa1_all.pp > signaturen_oa1-4.txt
grep -E '209A.*' signaturen_oa1-4.txt > lookup_signaturen_oa1-4.txt
und anschließende Bereinigung in Notepad++
Von Franziska Trempler vor 22 Tagen aktualisiert · Edited
https://sru.k10plus.de/opac-de-627?operation=explain&version=1.1
catmandu convert SRU --base https://sru.k10plus.de/fachopac-asia --query "pica.sgb=873954" --recordSchema picaxml --parser picaxml to PICA --type plain > test.txt
Von Franziska Trempler vor 17 Tagen aktualisiert
- Datei dubletten_oa1-2_oa1-4_records_part_aa.txt dubletten_oa1-2_oa1-4_records_part_aa.txt wurde hinzugefügt
Von Franziska Trempler vor 17 Tagen aktualisiert
#!/usr/bin/bash
INPUT_FILE="recherchestapel_dubletten_oa1-2_oa1-4_part_aa"
OUTPUT_FILE="dubletten_oa1-2_oa1-4_records_part_aa"
BASE_URL="https://sru.k10plus.de/fachopac-asia"
DELAY=3 # Sekunden Verzögerung
- Falls die Output-Datei existiert, leeren
"$OUTPUT_FILE"
while IFS= read -r query; do
echo "Suche nach: $query"
catmandu convert SRU --base "$BASE_URL" --query "pica.sgb=$query" --recordSchema picaxml --parser picaxml to PICA --type plain >> "$OUTPUT_FILE"
echo "###" >> "$OUTPUT_FILE" # Zeile mit ### für bessere Lesbarkeit
sleep $DELAY
done < "$INPUT_FILE"
echo "Abfragen abgeschlossen. Ergebnisse in $OUTPUT_FILE gespeichert."
Von Franziska Trempler vor 16 Tagen aktualisiert
@Franziska Trempler prüfen welche Felder in unseren records vorkommen
Von Raina Schote vor 1 Tag aktualisiert
Nach 40 random geprüften Sätzen hat 1.4 eindeutig gewonnen. Im Vergleich gibt es dort fast immer Felder 1700 und 8010, auch sind die Schlagwörter oft besser. Bei 1.2 fehlt das pinyin von Reihen, aber z.T. gibt es hier Schlagwörter, wenn sie bei 1.4 fehlen. Es gab knapp 30 Gewinnersätze von 1.4 und nur 3 von 1.2, kaum Unterschiede gab es bei 6 TA. Unterschiede in den Signaturen habe ich nicht gefunden, aber es gab Signaturen, die kein Gegenstück hatten, also nur einmal vorkamen.